色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

chatGPT的175Billion個(gè)參數(shù)是哪兒來的

處理器與AI芯片 ? 來源:處理器與AI芯片 ? 2023-11-01 16:57 ? 次閱讀

最近大語(yǔ)言模型模型LLM很火,大家總是說chatgpt的175Billion參數(shù)。做算法的人更關(guān)心網(wǎng)絡(luò)的結(jié)構(gòu),而我這種做硬件的人一直很好奇這個(gè)參數(shù)是怎么計(jì)算的。

最近看到了一篇文章,計(jì)算了參數(shù)的個(gè)數(shù)并且和chatgpt論文里的參數(shù)進(jìn)行了比較,計(jì)算的還是比較準(zhǔn)確的,我來總結(jié)一下。

1.Chatgpt背景

Chatgpt(chat generative pre-trained transformer)也是基于google最初的transformer模型,雖然LLM功能很強(qiáng)大,但是理解起來比fasterRCNN和LSTM好很多。

Transformer結(jié)構(gòu)

wKgZomVCE0-AKWVBAAJ8--DkelI175.jpg

Chatgpt結(jié)構(gòu)

不同于從input到output可以進(jìn)行翻譯工作的transformer結(jié)構(gòu),ChatGPT進(jìn)行對(duì)話,只需要右側(cè)的decoder部分就可以。

wKgaomVCE1-Af0DmAADtfVtIckE850.jpg

2.一張立體圖:

wKgZomVCE3KAOX4aAAcz4SEX8pU616.jpg

整體的Bert 結(jié)構(gòu)

看了很多解釋圖,上面的圖是看過的最好的,流程就是

1)inputembedding 分別和key,value,query的矩陣做乘法linear projection,得到的結(jié)果進(jìn)行attention

2)將多個(gè)attention的結(jié)果進(jìn)行concat拼接,得到的結(jié)果進(jìn)行再次進(jìn)行矩陣乘法,linearprojection

3)將得到的結(jié)果輸入feedforwardnetwork,兩層的lineartransform之后,輸出結(jié)果

4)如果有n_layer個(gè)layer,那么就重復(fù)2)和3)n_layer次

3.具體的參數(shù)個(gè)數(shù)計(jì)算

先解釋一下參數(shù):

n_head : attention 中head的個(gè)數(shù)

d_model: 中間bottlenecklayer的向量的維度

n_vocalulary: 字典的維度

n_context: 上下文的長(zhǎng)度

n_layer:網(wǎng)絡(luò)的層數(shù)

1)Inputembedding

wKgZomVCE4iARZ3-AABOebKU6Q0469.jpg

對(duì)應(yīng)UWe將U的(n_context,n_vocalulary) 維轉(zhuǎn)為UWe(n_context, d_model)維,其矩陣大小為(n_vocabulary,d_model) , 參數(shù)大小即為n_vocabulary* d_model。 ??

此外,??Wp對(duì)應(yīng)(n_context,d_model)。 因此此處的參數(shù)個(gè)數(shù)為: n_vocabulary*d_model+ n_context * d_model

2)Attention& MultiHead

wKgZomVCE6-ARj1wAABHqRiRDZ8304.jpg

a. WiQ, WiK,WiV都是相同的大小投影矩陣,每個(gè)都是d_model*d_head維度,這里的d_head就對(duì)應(yīng)上面公式里面的de, ,dk,dv,ChatGPT中他們都是同樣的大??;

b.因此attention部分的計(jì)算量就是3*d_model*d_head,因?yàn)橛腥齻€(gè)矩陣WiQ,WiK, WiV;

c.如果有MultiHead,如果head的個(gè)數(shù)為n_head,那么即為W矩陣的總參數(shù)3*d_model*d_head*n_head

d. concat的結(jié)果的維度為(n_context,n_head*d_head),經(jīng)過矩陣WO計(jì)算后維度變?yōu)?n_context,d_head)維,因此WO的維度為(n_head*d_head,d_head) 對(duì)c)和d)的參數(shù)求和,此時(shí)參數(shù)個(gè)數(shù)為 4*d_model*d_head*n_head

3)feedforward

wKgZomVCE9eAAXW9AABmvF0--fo398.jpg

在chatgpt中,feedforward內(nèi)部由兩層lineartransformer組成,并且d_ff為d_model的4倍。 ???W1??的參數(shù)個(gè)數(shù)為(d_model,d_ff), b??1??的參數(shù)個(gè)數(shù)為d_ff,W2的為(d_ff,d_model),b2????的參數(shù)個(gè)數(shù)為d_model,而d_model又是d_ff的四倍,因此: 2*d_model*d_ff+d_model+d_ff 即 8*d_model2+ 5* d_model 4)將2)和3)重復(fù)n_layer次 n_layer * (4*d_model*d_head*n_head+ 8*d_model2 + 5* d_model)

總體的參數(shù)計(jì)算:1)+ 4):

n?_vocabulary*d_model-> emb??edding atrix

+n_context * d_model??-> position matrix

+ n_layer *? ????-> layer 重復(fù)N次

// multi headattention

(4 * d_model * d_head * n_head ->???

??// feedforward network

??+ 8 * d_model2+ 5* d_mo??del??)

驗(yàn)證一下:

如果按照chatGPT論文中設(shè)置的參數(shù):

n_vocabulary = 50257

d_model = 12288

n_context = 2048

n_layer= 96

d_head= 128

n_head= 96

1)word_embeding +position

50257 * 12288 + 2048 * 12288 = 642723840

2)Attention& MultiHead

單層:4 * 12288 * 128 * 96 = 603979776??

3)feedforward

8 * 12288 * 12288 + 5 * 12288= 1208020992

4)2)和3)重復(fù)n_layer次

N_layer = 96 層96*(603979776+1208020992) = 173952073728

1)+2) = 174594797568 也就是所說的175Billion個(gè)參數(shù)。

這個(gè)方法估計(jì)出的參數(shù)和論文中參數(shù)的對(duì)比:

92021d4c-7894-11ee-939d-92fbcf53809c.png







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LSTM
    +關(guān)注

    關(guān)注

    0

    文章

    59

    瀏覽量

    3760
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1562

    瀏覽量

    7699
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    288

    瀏覽量

    346

原文標(biāo)題:chatGPT的175Billion個(gè)參數(shù)是哪兒來的

文章出處:【微信號(hào):處理器與AI芯片,微信公眾號(hào):處理器與AI芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    : LED輸出,我們要用它展示ChatGPT4的“高見”。 ChatGPT4_IP_Core chatgpt4_core(...): 假設(shè)我們有一
    發(fā)表于 02-14 21:58

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    ChatGPT對(duì)話語(yǔ)音識(shí)別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    迭代,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。2020年發(fā)布的GPT-3,其訓(xùn)練參數(shù)量已經(jīng)達(dá)到了驚人的1750億個(gè),“大量的數(shù)據(jù)被反復(fù)‘喂’給ChatGPT?!? 而且,ChatGPT的訓(xùn)練成本支出巨
    發(fā)表于 03-03 14:28

    【米爾MYD-JX8MMA7開發(fā)板-ARM+FPGA架構(gòu)試用體驗(yàn)】4.使用ChatGPT助力測(cè)試GPU

    領(lǐng)域的多種應(yīng)用場(chǎng)景比較適用。本次將測(cè)試該開發(fā)板的GPU圖形圖像處理能力,并在ChatGPT幫助下使用OpenGL E2.0 開發(fā)一個(gè)簡(jiǎn)單的3D模型實(shí)時(shí)渲染的應(yīng)用,及使用ChatGPT
    發(fā)表于 04-10 02:07

    ChatGPT系統(tǒng)開發(fā)AI人功智能方案

    。ChatGPT是一個(gè)由OpenAI開發(fā)的人工智能語(yǔ)言模型,可以實(shí)現(xiàn)自然語(yǔ)言處理、對(duì)話生成等功能。要開發(fā)一個(gè)類似ChatGPT的人工智能系統(tǒng)軟件,可以遵循以下步驟:確定應(yīng)用場(chǎng)景:確定人
    發(fā)表于 05-18 10:16

    J175 P溝道開關(guān)

    電子發(fā)燒友網(wǎng)為你提供()J175相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有J175的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料,J175真值表,J175
    發(fā)表于 04-18 20:41

    HMC175 S參數(shù)

    HMC175 S參數(shù)
    發(fā)表于 03-23 13:53 ?1次下載
    HMC<b class='flag-5'>175</b> S<b class='flag-5'>參數(shù)</b>

    ChatGPT入門指南

    是基于聊天的生成預(yù)訓(xùn)練transformer模型的縮寫,是一個(gè)強(qiáng)大的工具,可以以各種方式使用,以提高您在許多領(lǐng)域的生產(chǎn)力。 ChatGPT是一種人工智能(AI)技術(shù),被稱為自然語(yǔ)言處理(NLP)模型   由人工智能研發(fā)公司OpenAI創(chuàng)建。它使用機(jī)器學(xué)習(xí)算法
    發(fā)表于 02-10 11:19 ?7次下載
    <b class='flag-5'>ChatGPT</b>入門指南

    chatgpt是什么

    chatgpt是什么 ChatGPT,美國(guó)OpenAI 。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過學(xué)習(xí)和理解人類的語(yǔ)言進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真
    發(fā)表于 02-10 14:05 ?4w次閱讀

    chatgpt怎么用

    使用了一種叫做Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),這是一種用于處理序列數(shù)據(jù)的模型,能夠在輸入序列中捕捉長(zhǎng)期依賴性。它還使用了大量的語(yǔ)料庫(kù)訓(xùn)練模型,這些語(yǔ)料庫(kù)包含了真實(shí)世界中的對(duì)話,以便模型能夠更好地理解人類語(yǔ)言。 chatgpt怎么用? 1、注冊(cè)或登錄OpenAI賬戶
    發(fā)表于 02-10 14:22 ?5.8w次閱讀

    從零開始談ChatGPT

      那如何才能得到一個(gè)ChatGPT呢?   首先我們需要一個(gè)具備各種能力(潛力)的LLM,所以它要足夠大,訓(xùn)練的足夠好。OpenAI 大概率也是為此重新訓(xùn)練了一個(gè)GPT-3 模
    發(fā)表于 02-15 10:20 ?0次下載
    從零開始談<b class='flag-5'>ChatGPT</b>

    ChatGPT了的七個(gè)開源項(xiàng)目

    就推出了很多。估計(jì),現(xiàn)在還有不少同學(xué)苦于不知道該如何體驗(yàn)chatGPT。   chatGPT火了,圍繞chatGPT盡心二次擴(kuò)展的開源項(xiàng)目最近也涌現(xiàn)出很多,今天就來給大家介紹幾個(gè)最近發(fā)現(xiàn)的不錯(cuò)的開源項(xiàng)目!   這是一
    發(fā)表于 02-15 09:26 ?3次下載
    <b class='flag-5'>ChatGPT</b>了的七<b class='flag-5'>個(gè)</b>開源項(xiàng)目

    個(gè)令人驚艷的ChatGPT項(xiàng)目,開源了!

    而Visual ChatGPT這個(gè)項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型(VFM,Visual Foundation Model)給聯(lián)系起來,以便實(shí)現(xiàn)在ChatGPT聊天的過程中
    的頭像 發(fā)表于 03-31 11:00 ?2263次閱讀
    主站蜘蛛池模板: 自拍偷拍2| 午夜不卡av免费| 热中文热国产热综合| 一级片mp4| 护士12p| 亚洲AV综合99一二三四区| 国产精品美女久久久久AV超清 | xxx在线播放| 男人边吃奶边挵进去呻吟漫画| 伊人狼人久久精品热9| 狠狠综合久久综合88亚洲| 亚洲国产精品无码中文在线| 国产精品麻豆a在线播放| 丝瓜涩涩屋黄瓜香蕉丝瓜| 公么我好爽再深一点| 四虎免费影院| 国产精品一区二区人妻无码| 小学生偷拍妈妈视频遭性教育| 国产色婷婷精品人妻蜜桃成熟| 新影音先锋男人色资源网| 国产在线一卡二卡| 亚洲熟女乱色一区二区三区| 久久99热只有频精品| 总裁呻吟双腿大开男男H| 嗯好大好猛皇上好深用力| TUBE69CHINESE学生| 三级黄色视屏| 国产在线精品视频二区| 怡春院院日本一区二区久久| 免费看黄色一级| 波多野结衣二区| 无码AV毛片色欲欧洲美洲| 黄色三级视频在线观看| 中文字幕人成乱码中国| 暖暖的高清视频在线观看免费中文| qvod影院| 亚洲AV福利天堂一区二区三| 巨黄的肉辣文np| 高清欧美一区二区三区| 亚洲中字慕日产2020| 欧美精品熟妇乱|