色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于CPU的大型語(yǔ)言模型推理實(shí)驗(yàn)

安晟培半導(dǎo)體 ? 來(lái)源:安晟培半導(dǎo)體 ? 2024-07-18 14:28 ? 次閱讀

隨著計(jì)算和數(shù)據(jù)處理變得越來(lái)越分散和復(fù)雜,AI 的重點(diǎn)正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強(qiáng)大的公開(kāi)可用的大型語(yǔ)言模型 (LLM)。本次測(cè)試采用開(kāi)源 LLM 的最新版本,對(duì) Oracle OCI 上的 Ampere 云原生處理器進(jìn)行優(yōu)化,最終證明提供了前所未有的性能和靈活性。

在超過(guò) 15T 數(shù)據(jù)標(biāo)記上進(jìn)行訓(xùn)練,Llama3 模型的訓(xùn)練數(shù)據(jù)集比 Llama2 的訓(xùn)練數(shù)據(jù)集大 7 倍,數(shù)據(jù)和規(guī)模均提升到了新的高度。Llama3 的開(kāi)放訪問(wèn)模型在語(yǔ)言細(xì)微差別、上下文理解以及翻譯和對(duì)話生成等復(fù)雜任務(wù)方面表現(xiàn)都很出色。作為正在進(jìn)行的 Ampere llama.cpp優(yōu)化工作的延續(xù),企業(yè)現(xiàn)在可以使用基于 Ampere 的 OCI A1 形狀,體驗(yàn)最先進(jìn)的 Llama3 性能。

Ampere架構(gòu)

Ampere 云原生處理器優(yōu)化了功耗,提供行業(yè)領(lǐng)先的性能、可擴(kuò)展性和靈活性,幫助企業(yè)有效地處理不同的工作負(fù)載的同時(shí),適應(yīng)應(yīng)用程序越來(lái)越高的要求,以及不斷增長(zhǎng)的數(shù)據(jù)量和處理需求。通過(guò)利用云基礎(chǔ)設(shè)施進(jìn)行水平擴(kuò)展,支持處理大規(guī)模數(shù)據(jù)集并支持并發(fā)任務(wù)。通過(guò)單線程內(nèi)核消除嘈雜鄰居效應(yīng)、更高的內(nèi)核數(shù)量提高計(jì)算密度以及降低每個(gè)計(jì)算單元的功耗從而降低整體 TCO。

Llama3 vs Llama2

隨著對(duì)可持續(xù)性和功耗的日益關(guān)注,行業(yè)正趨向于選擇更小的 AI 模型,以實(shí)現(xiàn)效率、準(zhǔn)確性、成本和易部署性。Llama3 8B 在特定任務(wù)上可提供與 Llama2 70B 相似或更好的性能,因?yàn)樗男屎洼^低的過(guò)擬合風(fēng)險(xiǎn)。大型 100B LLM(例如 PaLM2、340B)或閉源模型(例如 GPT4)的計(jì)算成本可能很高,且通常不適合在資源受限的環(huán)境中進(jìn)行部署。高昂的成本,以及由于其尺寸大小和處理要求的復(fù)雜,部署起來(lái)可能很麻煩,在邊緣設(shè)備上尤為明顯。Llama3 8B作為一個(gè)較小的模型,將更容易集成到各種環(huán)境中,從而能夠更廣泛地采用生成式 AI 功能。

Llama3 8B的性能

在之前成功的基礎(chǔ)上,Ampere AI 的工程團(tuán)隊(duì)對(duì)llama.cpp進(jìn)行了微調(diào),以實(shí)現(xiàn) Ampere 云原生處理器的最佳性能?;?Ampere 的 OCI A1 實(shí)例現(xiàn)在可以為 Llama 3 提供最佳支持。這個(gè)優(yōu)化的 Llama.cpp 框架在 DockerHub 上免費(fèi)提供,二進(jìn)制文件可在此訪問(wèn):

在基于 Ampere 的 OCI A1 Flex 機(jī)器上進(jìn)行的性能基準(zhǔn)測(cè)試表明,即使在較大批量的情況下,Llama 3 8B 型號(hào)的功能也令人印象深刻。在單節(jié)點(diǎn)配置下,吞吐量高達(dá)每秒 91 個(gè)TokenTokens,推理速度凸顯了 Ampere 云原生處理器對(duì) AI 推理的適用性。OCI 區(qū)域的廣泛可用性確保了全球用戶的可訪問(wèn)性和可擴(kuò)展性。

下列圖表詳細(xì)介紹了具有 64 個(gè) OCPU 和 360 GB 內(nèi)存的單節(jié)點(diǎn) OCI Ampere A1 Flex 機(jī)器的關(guān)鍵性能指標(biāo),并發(fā)批量處理大小為 1-16,輸入和輸出 TokenToken大小為 128。Llama 3 8B 的性能與 Ampere A1 上的 Llama 2 7B 相當(dāng)。

5a7823b4-44bb-11ef-b8af-92fbcf53809c.png

下圖顯示了在基于 Ampere 的 OCI A1 實(shí)例上運(yùn)行的 Llama3 8B 與 AWS 上的 NVIDIA A10 GPU 的每百萬(wàn)個(gè) Token 的成本。Ampere A1 實(shí)例在批量大小為 1-8 時(shí)可節(jié)省大量成本,同時(shí)提供更流暢的用戶體驗(yàn)

5a967f30-44bb-11ef-b8af-92fbcf53809c.png

Ampere的無(wú) GPU AI 推理解決方案在小批量和低延遲應(yīng)用方面處于領(lǐng)先地位。


每秒Token數(shù) (TPS):每秒為 LLM 推理請(qǐng)求生成的Token數(shù)。此度量包括首次Token的時(shí)間和Token間的延遲。以每秒生成的Token數(shù)報(bào)告。

服務(wù)器端吞吐量 (TP):此指標(biāo)量化服務(wù)器在所有并發(fā)用戶請(qǐng)求中生成的Token總數(shù)。它提供了服務(wù)器容量和效率的匯總度量,以處理跨用戶的請(qǐng)求。此指標(biāo)是根據(jù) TPS 報(bào)告的。

用戶側(cè)推理速度 (IS):此指標(biāo)計(jì)算單個(gè)用戶請(qǐng)求的平均Token生成速度。它反映了服務(wù)器的響應(yīng)能力,從用戶的角度來(lái)看,它提供了一定級(jí)別的推理速度。此指標(biāo)是根據(jù) TPS 報(bào)告的。

實(shí)際操作

Docker鏡像可以在 DockerHub 上免費(fèi)獲取,llama.aio 二進(jìn)制文件可以在 Llama.aio二進(jìn)制文件中免費(fèi)獲取。這些圖像在大多數(shù)存儲(chǔ)庫(kù)(如 DockerHub、GitHub 和 Ampere Computing 的 AI 解決方案網(wǎng)頁(yè) )上都可用。

Ampere 模型庫(kù)(AML)是由 Ampere 的 AI 工程師開(kāi)發(fā)和維護(hù)的 Ampere 動(dòng)物園模型庫(kù)。用戶可以訪問(wèn) AML 公共 GitHub 存儲(chǔ)庫(kù),以驗(yàn)證 Ampere Altra 系列云原生處理器上 Ampere 優(yōu)化的 AI 框架的卓越性能。

要簡(jiǎn)化部署過(guò)程并測(cè)試性能,請(qǐng)參閱 Ampere 提供支持的 LLM 推理聊天機(jī)器人和 OCI 上的自定義市場(chǎng)圖像,該圖像提供用戶友好的 LLM 推理llama.cpp和 Serge UI 開(kāi)源項(xiàng)目。這使用戶能夠在 OCI 上部署和測(cè)試 Llama 3,并體驗(yàn)開(kāi)箱即用的部署和即時(shí)集成。以下是 OCI 上 Ampere A1 計(jì)算的 OCI Ubuntu 22.04 市場(chǎng)鏡像的 UI 一瞥:

5ab5ba80-44bb-11ef-b8af-92fbcf53809c.jpg

后續(xù)步驟

持續(xù)創(chuàng)新是 Ampere 一直以來(lái)的承諾,Ampere 和 Oracle 團(tuán)隊(duì)正在積極致力于擴(kuò)展場(chǎng)景支持,包括與檢索增強(qiáng)生成 (RAG)和 Lang 鏈功能的集成。這些增強(qiáng)功能將進(jìn)一步提升 Llama 3 在 Ampere 云原生處理器上的能力。

如果您是現(xiàn)有的 OCI 客戶,則可以輕松啟動(dòng) AmpereA1 LLM 推理入門(mén)映像。此外,Oracle 還提供長(zhǎng)達(dá) 3 個(gè)月的 64 個(gè) Ampere A1 核心和 360GB 內(nèi)存的免費(fèi)儲(chǔ)值,以幫助驗(yàn)證 Ampere A1 flex 形狀上的 AI 工作負(fù)載,儲(chǔ)值將于 2024 年 12 月 31 日結(jié)束。

在基于 Ampere 的 OCI A1 實(shí)例上推出 Ampere 優(yōu)化的 Llama 3 代表了基于 CPU 的語(yǔ)言模型推理的里程碑式進(jìn)步,具有無(wú)與倫比的性價(jià)比、可擴(kuò)展性和易于部署等優(yōu)勢(shì)。隨著我們不斷突破 AI 驅(qū)動(dòng)計(jì)算的界限,我們邀請(qǐng)您加入我們的行列,踏上探索和發(fā)現(xiàn)的旅程。請(qǐng)繼續(xù)關(guān)注更多更新,我們將探索使用 Ampere 云原生處理器解鎖生成式 AI 功能的新可能性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19549

    瀏覽量

    231878
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32504

    瀏覽量

    271718
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1212

    瀏覽量

    25006
  • Ampere
    +關(guān)注

    關(guān)注

    1

    文章

    74

    瀏覽量

    4598

原文標(biāo)題:創(chuàng)芯課堂|使用基于 Ampere 的 OCI A1 云實(shí)例釋放 Llama3 強(qiáng)大功能:基于 CPU 的大型語(yǔ)言模型推理實(shí)驗(yàn)

文章出處:【微信號(hào):AmpereComputing,微信公眾號(hào):安晟培半導(dǎo)體】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大型語(yǔ)言模型的邏輯推理能力探究

    最新研究揭示,盡管大語(yǔ)言模型LLMs在語(yǔ)言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個(gè)全新的邏輯推理評(píng)估
    的頭像 發(fā)表于 11-23 15:05 ?1180次閱讀
    <b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的邏輯<b class='flag-5'>推理</b>能力探究

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本,為故事創(chuàng)作等提供無(wú)限可能。大語(yǔ)言模型也面臨挑戰(zhàn)。一方面,其計(jì)算資源需求巨大,訓(xùn)練和推理耗時(shí);另一方面,模型高度依賴數(shù)據(jù),需要大
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    在知識(shí)獲取、邏輯推理、代碼生成等方面的能力。這些評(píng)測(cè)基準(zhǔn)包括語(yǔ)言建模能力、綜合知識(shí)能力、數(shù)學(xué)計(jì)算能力、代碼能力和垂直領(lǐng)域等多個(gè)維度。對(duì)于微調(diào)模型,對(duì)話能力的評(píng)測(cè)關(guān)注模型在對(duì)話任務(wù)中的全
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    ,它通過(guò)抽象思考和邏輯推理,協(xié)助我們應(yīng)對(duì)復(fù)雜的決策。 相應(yīng)地,我們?cè)O(shè)計(jì)了兩類(lèi)任務(wù)來(lái)檢驗(yàn)大語(yǔ)言模型的能力。一類(lèi)是感性的、無(wú)需理性能力的任務(wù),類(lèi)似于人類(lèi)的系統(tǒng)1,如情感分析和抽取式問(wèn)答等。大語(yǔ)
    發(fā)表于 05-07 17:21

    壓縮模型會(huì)加速推理嗎?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡(jiǎn)單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒(méi)有影響。aiRun 程序在 8
    發(fā)表于 01-29 06:24

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類(lèi)、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    大型語(yǔ)言模型有哪些用途?

    大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語(yǔ)言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?5353次閱讀

    大型語(yǔ)言模型有哪些用途?大型語(yǔ)言模型如何運(yùn)作呢?

    大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?8295次閱讀

    利用大語(yǔ)言模型做多模態(tài)任務(wù)

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?1172次閱讀
    利用大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>做多模態(tài)任務(wù)

    基于Transformer的大型語(yǔ)言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語(yǔ)言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語(yǔ)言
    的頭像 發(fā)表于 06-25 15:08 ?1649次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    大型語(yǔ)言模型的應(yīng)用

    ?? 大型語(yǔ)言模型(LLM) 是一種深度學(xué)習(xí)算法,可以通過(guò)大規(guī)模數(shù)據(jù)集訓(xùn)練來(lái)學(xué)習(xí)識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。大語(yǔ)言模型(LL
    的頭像 發(fā)表于 07-05 10:27 ?2231次閱讀

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?756次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)
    的頭像 發(fā)表于 07-24 11:38 ?1306次閱讀

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?822次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?266次閱讀
    主站蜘蛛池模板: 挺弄抽插喷射HH | 国产三级在线免费 | 素人约啪第五季 | 一道本在线伊人蕉无码 | 国产亚洲精品看片在线观看 | caoporon超碰在线视频 | 小柔的性放荡羞辱日记动漫 | 国产精品自在在线午夜精品 | 午夜影院和视费x看 | 国产亚洲欧洲日韩在线三区 | 美女被黑人巨大进入 | 玩50岁四川熟女大白屁股直播 | 丰满大屁俄罗斯肥女 | 国产欧美日韩国产高清 | 午夜无码国产理论在线 | 桃花在线视频观看免费 | 99久久精品国产高清一区二区 | 一个人免费视频在线观看高清频道 | 麻豆国产精品va在线观看约 | 老子午夜伦不卡电影院 | 久久99热成人精品国产 | 精品国产品在线18年 | a级成人免费毛片完整版 | 有码 亚洲 制服 国产 在线 | 亚洲欧洲无码AV在线观看你懂的 | 国产精品一区二区AV97 | 日韩精品卡1卡2三卡四卡乱码 | 欧美日韩北条麻妃一区二区 | 我的漂亮朋友在线观看全集免费 | 两个奶被男人揉了一个晚上 | 四房播播开心色播 | 国产精品久久免费视频 | 无码不卡中文字幕在线观看 | 中文有码中文字幕免费视频 | 被免费网站在线视频 | 久草在线新是免费视频 | WWW夜片内射视频在观看视频 | 人妻激情综合久久久久蜜桃 | 精品无码一区二区三区不卡 | 国产欧美日韩综合精品一区二区 | 国产三级电影网 |