色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用MLC-LLM支持RWKV-5推理的過(guò)程思考

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2023-11-19 15:58 ? 次閱讀

自從2023年3月左右,chatgpt火熱起來(lái)之后,我把關(guān)注的一些知乎帖子都記錄到了這個(gè)markdown里面,:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/large-language-model-note ,從2023年3月左右到現(xiàn)在保持了持續(xù)動(dòng)態(tài)更新整理,有關(guān)于LLM基礎(chǔ)知識(shí),LLM訓(xùn)練,LLM推理等各個(gè)方面的知乎文章鏈接,感興趣的讀者可以看一下。

0x0. 前言

繼續(xù)填 使用MLC-LLM將RWKV 3B模型跑在Android手機(jī)上(redmi k50每s可解碼8個(gè)token 這篇文章留下的坑。由于上面這篇文章支持的是RWKV4模型,不支持最近RWKV社區(qū)正在訓(xùn)練的RWKV5模型,所以利用業(yè)余時(shí)間在MLC-LLM里面支持了最新的RWKV5模型的推理,同時(shí)也可以帶大家看一下RWKV5的3B模型表現(xiàn)是否有驚艷之處。目前我跑通了Metal和Android平臺(tái)的RWKV5推理(包含1.5B和3B),并且也編譯出了一個(gè)3B int8模式的apk提供給android用戶(hù)使用,地址為:https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/rwkv5-3b-int8.apk 。大家可以下載這個(gè)apk來(lái)體驗(yàn)最新的RWKV-5-3B模型。

另外,我在測(cè)試RWKV-5-3B的時(shí)候也發(fā)現(xiàn)了RWKV4的表現(xiàn)和HuggingFace版本的表現(xiàn)相差比較多,也修復(fù)了這個(gè)bug。總的來(lái)說(shuō),在MLC-LLM里面適配一個(gè)新的RWKV5模型是比較麻煩的,我前后肝了幾個(gè)周末,并且在Hzfengsy的熱心幫助下解決了一個(gè)關(guān)鍵的TIR實(shí)現(xiàn)問(wèn)題后。這篇文章我會(huì)分享一下適配過(guò)程中的主要問(wèn)題是什么,給想使用MLC-LLM適配其它不支持的模型的讀者一個(gè)踩坑經(jīng)驗(yàn)。

關(guān)于RWKV模型的更多信息大家可以關(guān)注bo的兩篇博客:

RWKV-5 的訓(xùn)練進(jìn)展,與 SOTA GPT 模型的性能對(duì)比:https://zhuanlan.zhihu.com/p/659872347

RWKV-5 的訓(xùn)練進(jìn)展(之二),與 SotA GPT 模型的性能對(duì)比:https://zhuanlan.zhihu.com/p/664079347

再次感謝@Hzfengsy 在適配RWKV-5過(guò)程中的指導(dǎo)。

本文涉及到的工程代碼體現(xiàn)在下面的2個(gè)PR:

https://github.com/mlc-ai/mlc-llm/pull/1275 (MLC-LLM中支持RWKV5)

https://github.com/mlc-ai/tokenizers-cpp/pull/19 (對(duì)RWKV World Tokenzier的bug修復(fù),也提升了RWKV-4-World系列模型的效果)

另外,目前MLC-LLM支持RWKV-5在Metal和Android的推理,但是在nvidia gpu上因?yàn)橐粋€(gè)已知的tvm bug導(dǎo)致編譯失敗,如果要在Nvidia GPU上部署RWKV-5-World模型需要等官方完成這個(gè)bug fix,具體請(qǐng)關(guān)注 https://github.com/mlc-ai/mlc-llm/pull/1275 進(jìn)展。

0x1. 筆者為何關(guān)注RWKV

對(duì)LLM的理解比較有限,從代碼實(shí)現(xiàn)的角度來(lái)說(shuō),RWKV的狀態(tài)和KV Cache不同,不依賴(lài)序列長(zhǎng)度,這讓RWKV模型在各種長(zhǎng)度下運(yùn)行內(nèi)存和運(yùn)行速度都是趨于穩(wěn)定的,所以我感覺(jué)工程價(jià)值是比基于Transformer架構(gòu)比如Llama更好的,部署的性?xún)r(jià)比會(huì)天然更優(yōu)。這個(gè)特點(diǎn)讓他在更長(zhǎng)的序列比如100K長(zhǎng)度下的推理也更有前景吧。但是,RWKV是否可以取得和Transformer主流架構(gòu)相同的效果呢?我個(gè)人感覺(jué)還是需要等待時(shí)間的檢驗(yàn),目前最新的RWKV5模型最多scale up到7B,并且數(shù)據(jù)也是很有限只有1.12TB,這個(gè)信息我是從HuggingFace的項(xiàng)目看到的,如下圖所示。(這里的v2就是最新的RWKV5架構(gòu),內(nèi)部小版本命名稍顯混亂,這一點(diǎn)也可以從ChatRWKV的model.py看出)。

ef65fd4e-86a6-11ee-939d-92fbcf53809c.png

所以如果RWKV架構(gòu)真的可以取得和Transformer開(kāi)源SOTA架構(gòu)一樣的效果,前景是很好的。RWKV-5 的訓(xùn)練進(jìn)展(之二),與 SotA GPT 模型的性能對(duì)比:https://zhuanlan.zhihu.com/p/664079347 這里已經(jīng)貼出一些BenchMark結(jié)果:

ef7f0172-86a6-11ee-939d-92fbcf53809c.png

從作者這里選取的一些數(shù)據(jù)集來(lái)看,RWKV-5-World 7B目前僅訓(xùn)練30%的checkpoint的效果已經(jīng)和Baichuan2-7B-Base非常接近了,還是值得期待一下的。

不過(guò),這里存在的問(wèn)題是這里的這些測(cè)試的數(shù)據(jù)集可能需要使用一些更加有說(shuō)服力的,比如MMLU/CMMLU/HummanEval/MBPP/CMRC2018等等。這個(gè)屬于開(kāi)源大模型評(píng)測(cè)的知識(shí),大家應(yīng)該能找到很多榜單,RWKV官方是否考慮去opencompass打一下榜,更全面的做個(gè)對(duì)比。

因?yàn)檫@里有個(gè)明顯的疑問(wèn)就是,按照官方的說(shuō)法,為什么使用1.12T數(shù)據(jù)訓(xùn)練30%之后在上面的任務(wù)里面就可以幾乎持平使用2.6T數(shù)據(jù)進(jìn)行全量預(yù)訓(xùn)練的Baichuan2-7B-Base模型的效果呢?所以我個(gè)人感覺(jué)這里需要更多的榜單數(shù)據(jù)來(lái)看效果。

efac835e-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

0x2. RWKV-5-3B模型在Mac上的一些文創(chuàng)和代碼生成效果演示

我個(gè)人感覺(jué)7B模型和3B模型就是為了手機(jī)上離線運(yùn)行而生的尺寸,所以我這里使用上面編譯的Apk來(lái)演示一下使用MLC-LLM推理的RWKV-5-3B模型的一些文創(chuàng)效果和代碼生成效果。下面演示的文創(chuàng)問(wèn)題大多數(shù)來(lái)自昆侖天工的Skywork-13B例子(https://github.com/SkyworkAI/Skywork),感謝。下面的User是我問(wèn)的問(wèn)題,Assistant是RWKV-5-3B模型的回答,運(yùn)行環(huán)境為Mac M2 FP16模式。由于這個(gè)模型是基礎(chǔ)模型,所以對(duì)話效果會(huì)受到上下文多輪對(duì)話干擾,所以在測(cè)試不同種類(lèi)的問(wèn)題時(shí),可以使用/reset來(lái)重置對(duì)話。

概念介紹

efc40506-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

廣告文案

efe4dbb4-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

作文生成

effc030c-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

演講稿生成

f01226a0-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

心得體會(huì)

f0283e5e-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

科技文稿

f03c6a00-86a6-11ee-939d-92fbcf53809c.png

f05dc4e8-86a6-11ee-939d-92fbcf53809c.png

記錄文

f072e008-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

評(píng)論評(píng)語(yǔ)

f08bf4d0-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

問(wèn)題生成

f0a8c9f2-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

起名字

f0bbedb6-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

簡(jiǎn)單代碼

f0cb32a8-86a6-11ee-939d-92fbcf53809c.png

f0e36fc6-86a6-11ee-939d-92fbcf53809c.png

總的來(lái)說(shuō),對(duì)于大多數(shù)文學(xué)創(chuàng)作問(wèn)題,RWKV-5-3B的回答還算像那回事,不過(guò)也可以明顯感覺(jué)到一些瑕疵以及指令跟隨的能力很有限,比如對(duì)數(shù)字非常不敏感,讓他說(shuō)5個(gè)字他似乎不明白意思。此外,3b模型擁有了一定的代碼能力,可以寫(xiě)有限的簡(jiǎn)單代碼。

最后,我比較期待7b最終訓(xùn)練完之后的效果,希望RWKV可以在opencompass榜單上證明自己。

0x3. MLC-LLM支持RWKV-5步驟

這一節(jié)可能會(huì)寫(xiě)得流水賬一點(diǎn)。模型實(shí)現(xiàn)文件:https://github.com/mlc-ai/mlc-llm/pull/1275 里的 rwkv5.py

首先,由于MLC-LLM已經(jīng)支持了RWKV4架構(gòu),所以我們大體上是可以使用RWKV4的實(shí)現(xiàn)的,然后把RWKV5的改動(dòng)加上去。

我們可以從ChatRWKV的rwkv4/rwkv5模型實(shí)現(xiàn)(https://github.com/BlinkDL/ChatRWKV/blob/main/rwkv_pip_package/src/rwkv/model.py)看出rwkv4和rwkv5的不同之處主要在于RWKV5引入了多頭的線性Attention,代碼上體現(xiàn)為對(duì)Attention部分的重寫(xiě),包括state的個(gè)數(shù)也從5個(gè)變成了3個(gè)。從MLC-LLM的模型實(shí)現(xiàn)代碼上來(lái)看,如果要在同一個(gè)實(shí)現(xiàn)中進(jìn)行兼容會(huì)相當(dāng)麻煩,所以我使用了一個(gè)新的文件來(lái)實(shí)現(xiàn)RWKV5,接下來(lái)就是對(duì)著ChatRWKV修改代碼把RWKV5的初版本改上去。在RWKV5的prefill階段,會(huì)調(diào)用一個(gè)新的CUDA Kernel:https://github.com/BlinkDL/ChatRWKV/blob/main/rwkv_pip_package/src/rwkv/model.py#L465-L497 。而這個(gè)Kernel的原始實(shí)現(xiàn)則對(duì)應(yīng)這里的Python公式:https://github.com/BlinkDL/RWKV-CUDA/blob/main/wkv5/run.py#L67-L87

f0f38014-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

但需要注意的是,在真正的模型實(shí)現(xiàn)中,這里的state是需要更新的全局變量而非local的。由于這個(gè)函數(shù)有一個(gè)循環(huán)會(huì)在T的維度上進(jìn)行迭代,而T是序列長(zhǎng)度是可變的,所以這里需要類(lèi)似于RWKV4的實(shí)現(xiàn)寫(xiě)一個(gè)TIR來(lái)模擬這個(gè)python程序的邏輯,在馮博的幫助下得到了一版初始的TIR實(shí)現(xiàn):

f10b2778-86a6-11ee-939d-92fbcf53809c.png

這個(gè)實(shí)現(xiàn)過(guò)程中也幫助發(fā)現(xiàn)一個(gè)DLight的bug,由@Hzfengsy在tvm里面進(jìn)行了修復(fù)。https://github.com/apache/tvm/pull/16124

解決了上面的TIR問(wèn)題之后就可以在MLC-LLM里面編譯RWKV5模型了,然后使用TVM的dump ir工具和ChatRWKV來(lái)對(duì)比精度,這里需要固定輸入的Tensor才行,為了方便我將輸入固定為一個(gè)全1的十個(gè)元素的ids。然后在對(duì)比精度的實(shí)現(xiàn)發(fā)現(xiàn),上面實(shí)現(xiàn)的TIR的輸入的所有值都是可以對(duì)上的,但是TIR的輸出out卻是錯(cuò)誤的。仍舊是馮博幫我解決了這個(gè)bug,原因是因?yàn)樯厦娴陌姹局袑?duì)于state來(lái)說(shuō)T不應(yīng)該是spatial的而是reduction。修復(fù)后的正確版本長(zhǎng)這樣:

f11c2b68-86a6-11ee-939d-92fbcf53809c.png

在這里插入圖片描述

接著又從dump的結(jié)果觀察到attention部分的groupnorm的結(jié)果無(wú)法對(duì)上,但輸入都是可以對(duì)上的,然后我手動(dòng)實(shí)現(xiàn)了一下groupnorm的過(guò)程(下面的237-247行)發(fā)現(xiàn)結(jié)果竟然是可以對(duì)上的。

f12c8d0a-86a6-11ee-939d-92fbcf53809c.png

后面經(jīng)Hzfengsy提醒確認(rèn)是開(kāi)始的groupnorm調(diào)用參數(shù)寫(xiě)錯(cuò)了,修復(fù)之后繼續(xù)下一步。這一下attention和ffn的結(jié)果是可以對(duì)上了。

然后開(kāi)始使用mlc chat程序嘗試進(jìn)行對(duì)話,發(fā)現(xiàn)輸出會(huì)亂碼。又懷疑中間某個(gè)地方精度沒(méi)對(duì)齊,所以繼續(xù)完整模擬了一遍prefill+decode,發(fā)現(xiàn)prefill+第一輪decode的結(jié)果完全能對(duì)上,想擺爛了。。

然后我使用相同的問(wèn)題問(wèn)了一下ChatRWKV,發(fā)現(xiàn)ChatRWKV的結(jié)果也是亂碼。。。直覺(jué)告訴我一定是烏龍了,由于我這里對(duì)比的ChatRWKV是我自己fork的,可能不小心改了bug。我重新拉官方的ChatRWKV一一對(duì)比,找到了問(wèn)題所在。是因?yàn)槲业拇a里錯(cuò)誤的去掉一個(gè)transpose op,我也忘記了為什么要這么做,但是這個(gè)transpose op去transpose的兩個(gè)維度的大小是相同的,所以輸出shape也是相同的,導(dǎo)致了對(duì)精度浪費(fèi)了很多時(shí)間。

解決這個(gè)問(wèn)題之后,發(fā)現(xiàn)輸出就是正常的了。但,真的正常嗎?

我在嘗試一些問(wèn)題時(shí)發(fā)現(xiàn)輸出非常奇怪:

f144d69e-86a6-11ee-939d-92fbcf53809c.png

感覺(jué)這里一定還有bug,既然模型精度方面沒(méi)有bug,要么就是prompt技巧,tokenizer,sampling。sampling是比較正常并且經(jīng)過(guò)眾多模型檢驗(yàn)的,應(yīng)該問(wèn)題不大。然后恰好想起daquexian的faster-rwkv里面更新過(guò)tokenzier,之前的實(shí)現(xiàn)應(yīng)該有bug:

接下來(lái)就是更新tokenzier的代碼修復(fù)bug,最后在review 初始化prompt的時(shí)候也發(fā)現(xiàn)了一個(gè)bug,將其修復(fù)。

f16ab68e-86a6-11ee-939d-92fbcf53809c.png

最終獲得的代碼效果就是0x2節(jié)展示的了,這些prompt的輸出和ChatRWKV相差不大,理論上來(lái)說(shuō)應(yīng)該是完成了正確的適配。

0x4. 總結(jié)

本文記錄了筆者使用 MLC-LLM 支持RWKV-5推理的過(guò)程以及對(duì)RWKV-5的一些思考,謝謝。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Android
    +關(guān)注

    關(guān)注

    12

    文章

    3938

    瀏覽量

    127572
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4753

    瀏覽量

    129064
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    294

    瀏覽量

    354

原文標(biāo)題:0x4. 總結(jié)

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    對(duì)比解碼在LLM上的應(yīng)用

    為了改進(jìn)LLM推理能力,University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明,所提方法能有效改進(jìn)
    發(fā)表于 09-21 11:37 ?643次閱讀
    對(duì)比解碼在<b class='flag-5'>LLM</b>上的應(yīng)用

    【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】rkllm板端推理

    : ulimit -HSn 10240 最后,執(zhí)行llm_demo可執(zhí)行文件,并指定rkllm模型文件的路徑。這樣即可開(kāi)始推理過(guò)程: ./llm_demo --model_path /path
    發(fā)表于 08-31 22:45

    思考驅(qū)動(dòng)創(chuàng)新,創(chuàng)新驅(qū)動(dòng)發(fā)展:基于假設(shè)(Assumption)的思考技術(shù)

    大跨度的聯(lián)想中得到啟迪,然后再用嚴(yán)密的邏輯加以驗(yàn)證。” 胡適也說(shuō):“大膽假設(shè),小心求證 。”2. 回顧:科學(xué)創(chuàng)新的思考技術(shù) 人類(lèi)三項(xiàng)天賦的推理能力是:演繹推理、歸納推理和溯因
    發(fā)表于 12-21 10:23

    如何識(shí)別slc和mlc芯片及slc mlc區(qū)別

    如何識(shí)別slc和mlc芯片及slc mlc區(qū)別 slc mlc區(qū)別:     MLC(Multi-Level-Cell)技術(shù),由英特爾
    發(fā)表于 07-17 10:01 ?6819次閱讀

    基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語(yǔ)言模型(LLM)的純因果推理能力

    ? 因果推理是人類(lèi)智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來(lái)引起了人們的極大興趣,但其主要依賴(lài)于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來(lái)測(cè)試大語(yǔ)言模型(LLM
    的頭像 發(fā)表于 06-20 15:39 ?1849次閱讀
    基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語(yǔ)言模型(<b class='flag-5'>LLM</b>)的純因果<b class='flag-5'>推理</b>能力

    MLC-LLM的編譯部署流程

    MLC-LLM部署在各種硬件平臺(tái)的需求,然后我就開(kāi)始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經(jīng)支持
    的頭像 發(fā)表于 09-04 09:22 ?2963次閱讀
    <b class='flag-5'>MLC-LLM</b>的編譯部署流程

    mlc-llm對(duì)大模型推理的流程及優(yōu)化方案

    MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)(3B模型Mac M2解碼可達(dá)26tokens/s) 中提到要使用mlc-llm部署模型首先需要一個(gè)編譯過(guò)程,將原始的基于Rea
    發(fā)表于 09-26 12:25 ?948次閱讀
    <b class='flag-5'>mlc-llm</b>對(duì)大模型<b class='flag-5'>推理</b>的流程及優(yōu)化方案

    如何使用MLC-LLM在A100/Mac M2上部署RWKV模型

    每一秒大概可以解碼8個(gè)token,我感覺(jué)速度勉強(qiáng)夠用了。由于RWKV5迭代到了第5個(gè)版本,后續(xù)希望能支持RWKV5的模型,當(dāng)然也可以尋求新的優(yōu)化機(jī)會(huì)提升解碼速度。
    的頭像 發(fā)表于 10-29 16:39 ?925次閱讀
    如何使用<b class='flag-5'>MLC-LLM</b>在A100/Mac M2上部署<b class='flag-5'>RWKV</b>模型

    Hugging Face LLM部署大語(yǔ)言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開(kāi)源LLMs,比如BLOOM大型語(yǔ)言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B
    的頭像 發(fā)表于 11-01 17:48 ?952次閱讀
    Hugging Face <b class='flag-5'>LLM</b>部署大語(yǔ)言模型到亞馬遜云科技Amazon SageMaker<b class='flag-5'>推理</b>示例

    怎樣使用Accelerate庫(kù)在多GPU上進(jìn)行LLM推理呢?

    大型語(yǔ)言模型(llm)已經(jīng)徹底改變了自然語(yǔ)言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長(zhǎng),推理的計(jì)算需求也顯著增加。
    的頭像 發(fā)表于 12-01 10:24 ?1614次閱讀
    怎樣使用Accelerate庫(kù)在多GPU上進(jìn)行<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>呢?

    安霸發(fā)布N1系列生成式AI芯片支持前端設(shè)備運(yùn)行本地LLM應(yīng)用

    單顆 SoC 支持 1 至 340 億參數(shù)的多模態(tài)大模型(Multi-Modal LLM推理,實(shí)現(xiàn)前端低功耗生成式 AI。
    的頭像 發(fā)表于 01-09 15:19 ?968次閱讀

    自然語(yǔ)言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也在探索從大模型自回歸解碼特點(diǎn)出發(fā),通過(guò)調(diào)整推理過(guò)程和引入新的模型結(jié)構(gòu)來(lái)進(jìn)一步提升推理性能。
    發(fā)表于 04-10 11:48 ?622次閱讀
    自然語(yǔ)言處理應(yīng)用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優(yōu)化綜述

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM)逐漸成為自然語(yǔ)言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,在文本
    的頭像 發(fā)表于 07-02 11:45 ?8063次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?920次閱讀

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū),致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價(jià)值。”
    的頭像 發(fā)表于 08-23 15:48 ?467次閱讀
    主站蜘蛛池模板: 99爱在线观看精品视频| 男女牲交全过程免费播放| 久青草国产97香蕉在线视频| 日韩精品在线观看免费| 夜里18款禁用的免费B站动漫| 成人免费观看国产高清| 久久偷拍人| 亚洲 欧美 日韩 精品 自拍| yin荡体育课羞耻play双性| 久久免费精品视频| 性色AV一区二区三区V视界影院 | 老板揉搓秘书丰满大乳| 武侠古典久久亚洲精品| 被室友C哭调教双性| 毛片一区二区三区| 亚洲人成网77777色在线播放| 高H黄暴NP辣H一女多男| 女王羞辱丨vk| 在线观看免费av网| 国拍在线精品视频免费观看| 少妇久久久久久被弄高潮| a亚洲在线观看不卡高清| 久久性生大片免费观看性| 亚洲AV国产国产久青草| 国产SUV精品一区二区69| 欧美videqsdesex0| 中文字幕亚洲视频| 精品动漫国产亚洲AV在线观看| 午夜想想爱午夜剧场| 成人性生交大片免费看金瓶七仙女| 蜜柚视频在线观看全集免费观看| 一区视频免费观看| 狠狠婷婷综合久久久久久| 午夜影院美女| 攻把受做哭边走边肉楼梯PLAY| 欧美无码专区| 99久久免费热在线精品| 蜜臀色欲AV无人A片一区 | 国产AV无码一二三区视频| 日本电影护士| yellow在线观看免费观看大全|