天天操操操操操操,色综合色综合色综合色综合,亚洲精品久荜中文字幕

最近大語(yǔ)言模型模型LLM很火，大家總是說chatgpt的175Billion參數(shù)。做算法的人更關(guān)心網(wǎng)絡(luò)的結(jié)構(gòu)，而我這種做硬件的人一直很好奇這個(gè)參數(shù)是怎么計(jì)算的。

最近看到了一篇文章，計(jì)算了參數(shù)的個(gè)數(shù)并且和chatgpt論文里的參數(shù)進(jìn)行了比較，計(jì)算的還是比較準(zhǔn)確的，我來總結(jié)一下。

1.Chatgpt背景

Chatgpt(chat generative pre-trained transformer)也是基于google最初的transformer模型，雖然LLM功能很強(qiáng)大，但是理解起來比fasterRCNN和LSTM好很多。

Transformer結(jié)構(gòu)

Chatgpt結(jié)構(gòu)

不同于從input到output可以進(jìn)行翻譯工作的transformer結(jié)構(gòu)，ChatGPT進(jìn)行對(duì)話，只需要右側(cè)的decoder部分就可以。

2.一張立體圖：

整體的Bert 結(jié)構(gòu)

看了很多解釋圖，上面的圖是看過的最好的，流程就是

1）inputembedding 分別和key，value，query的矩陣做乘法linear projection，得到的結(jié)果進(jìn)行attention

2）將多個(gè)attention的結(jié)果進(jìn)行concat拼接，得到的結(jié)果進(jìn)行再次進(jìn)行矩陣乘法，linearprojection

3）將得到的結(jié)果輸入feedforwardnetwork，兩層的lineartransform之后，輸出結(jié)果

4）如果有n_layer個(gè)layer，那么就重復(fù)2）和3）n_layer次

3.具體的參數(shù)個(gè)數(shù)計(jì)算

先解釋一下參數(shù)：

n_head : attention 中head的個(gè)數(shù)

d_model: 中間bottlenecklayer的向量的維度

n_vocalulary: 字典的維度

n_context: 上下文的長(zhǎng)度

n_layer:網(wǎng)絡(luò)的層數(shù)

1）Inputembedding

對(duì)應(yīng)UWe將U的(n_context,n_vocalulary) 維轉(zhuǎn)為UWe(n_context, d_model)維，其矩陣大小為(n_vocabulary,d_model) , 參數(shù)大小即為n_vocabulary* d_model。 ??

此外，??Wp對(duì)應(yīng)(n_context,d_model)。因此此處的參數(shù)個(gè)數(shù)為： n_vocabulary*d_model+ n_context * d_model

2）Attention& MultiHead

a. WiQ, WiK,WiV都是相同的大小投影矩陣，每個(gè)都是d_model*d_head維度，這里的d_head就對(duì)應(yīng)上面公式里面的de, ，dk，dv，ChatGPT中他們都是同樣的大??；

b.因此attention部分的計(jì)算量就是3*d_model*d_head，因?yàn)橛腥齻€(gè)矩陣WiQ,WiK, WiV;

c.如果有MultiHead，如果head的個(gè)數(shù)為n_head,那么即為W矩陣的總參數(shù)3*d_model*d_head*n_head

d. concat的結(jié)果的維度為（n_context,n_head*d_head）,經(jīng)過矩陣WO計(jì)算后維度變?yōu)?n_context,d_head)維，因此WO的維度為（n_head*d_head，d_head）對(duì)c）和d)的參數(shù)求和，此時(shí)參數(shù)個(gè)數(shù)為 4*d_model*d_head*n_head

3）feedforward

在chatgpt中，feedforward內(nèi)部由兩層lineartransformer組成，并且d_ff為d_model的4倍。 ???W1??的參數(shù)個(gè)數(shù)為（d_model,d_ff）, b??1??的參數(shù)個(gè)數(shù)為d_ff，W2的為(d_ff,d_model),b2????的參數(shù)個(gè)數(shù)為d_model，而d_model又是d_ff的四倍，因此： 2*d_model*d_ff+d_model+d_ff 即 8*d_model2+ 5* d_model 4）將2）和3）重復(fù)n_layer次 n_layer * (4*d_model*d_head*n_head+ 8*d_model2 + 5* d_model)

總體的參數(shù)計(jì)算：1)+ 4):

n?_vocabulary*d_model-> emb??edding atrix

+n_context * d_model??-> position matrix

+ n_layer *? ????-> layer 重復(fù)N次

// multi headattention

(4 * d_model * d_head * n_head ->???

??// feedforward network

??+ 8 * d_model2+ 5* d_mo??del??)

驗(yàn)證一下：

如果按照chatGPT論文中設(shè)置的參數(shù)：

n_vocabulary = 50257

d_model = 12288

n_context = 2048

n_layer= 96

d_head= 128

n_head= 96

1）word_embeding +position

50257 * 12288 + 2048 * 12288 = 642723840

2）Attention& MultiHead

單層：4 * 12288 * 128 * 96 = 603979776??

3）feedforward

8 * 12288 * 12288 + 5 * 12288= 1208020992

4）2）和3）重復(fù)n_layer次

N_layer = 96 層96*(603979776+1208020992) = 173952073728

1)+2) = 174594797568 也就是所說的175Billion個(gè)參數(shù)。

這個(gè)方法估計(jì)出的參數(shù)和論文中參數(shù)的對(duì)比：

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

LSTM

LSTM

+關(guān)注

關(guān)注
0

文章
59

瀏覽量
3760
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1562

瀏覽量
7699
LLM

LLM

+關(guān)注

關(guān)注
0

文章
288

瀏覽量
346

原文標(biāo)題：chatGPT的175Billion個(gè)參數(shù)是哪兒來的

文章出處：【微信號(hào)：處理器與AI芯片，微信公眾號(hào)：處理器與AI芯片】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4

: LED輸出，我們要用它來展示ChatGPT4的“高見”。 ChatGPT4_IP_Core chatgpt4_core(...): 假設(shè)我們有一

發(fā)表于 02-14 21:58

在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

當(dāng)下AI人工智能崛起，很多開發(fā)領(lǐng)域都可看到ChatGPT的身影，F(xiàn)PGA設(shè)計(jì)中，是否也可以用ChatGPT輔助設(shè)計(jì)呢？

發(fā)表于 03-28 23:41

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計(jì)，讓它設(shè)計(jì)一個(gè)放大電路，看下效果#人工智能

ChatGPT

jf_82140138
發(fā)布于 :2023年02月27日 13:07:41

ChatGPT對(duì)話語(yǔ)音識(shí)別

ChatGPT

YS YYDS
發(fā)布于 :2023年05月30日 22:13:10

科技大廠競(jìng)逐AIGC，中國(guó)的ChatGPT在哪？

迭代，需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。2020年發(fā)布的GPT-3，其訓(xùn)練參數(shù)量已經(jīng)達(dá)到了驚人的1750億個(gè)，“大量的數(shù)據(jù)被反復(fù)‘喂’給ChatGPT?！? 而且，ChatGPT的訓(xùn)練成本支出巨

發(fā)表于 03-03 14:28

【米爾MYD-JX8MMA7開發(fā)板-ARM+FPGA架構(gòu)試用體驗(yàn)】4.使用ChatGPT來助力測(cè)試GPU

領(lǐng)域的多種應(yīng)用場(chǎng)景比較適用。本次將測(cè)試該開發(fā)板的GPU圖形圖像處理能力，并在ChatGPT幫助下使用OpenGL E2.0 開發(fā)一個(gè)簡(jiǎn)單的3D模型實(shí)時(shí)渲染的應(yīng)用，及使用ChatGPT來

發(fā)表于 04-10 02:07

ChatGPT系統(tǒng)開發(fā)AI人功智能方案

。ChatGPT是一個(gè)由OpenAI開發(fā)的人工智能語(yǔ)言模型，可以實(shí)現(xiàn)自然語(yǔ)言處理、對(duì)話生成等功能。要開發(fā)一個(gè)類似ChatGPT的人工智能系統(tǒng)軟件，可以遵循以下步驟：確定應(yīng)用場(chǎng)景：確定人

發(fā)表于 05-18 10:16

J175 P溝道開關(guān)

電子發(fā)燒友網(wǎng)為你提供()J175相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè)，更有J175的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料，J175真值表，J175

發(fā)表于 04-18 20:41

HMC175 S參數(shù)

HMC175 S參數(shù)

發(fā)表于 03-23 13:53 ?1次下載

ChatGPT入門指南

是基于聊天的生成預(yù)訓(xùn)練transformer模型的縮寫，是一個(gè)強(qiáng)大的工具，可以以各種方式使用，以提高您在許多領(lǐng)域的生產(chǎn)力。 ChatGPT是一種人工智能（AI）技術(shù)，被稱為自然語(yǔ)言處理（NLP）模型　　由人工智能研發(fā)公司OpenAI創(chuàng)建。它使用機(jī)器學(xué)習(xí)算法

發(fā)表于 02-10 11:19 ?7次下載

chatgpt是什么

chatgpt是什么 ChatGPT，美國(guó)OpenAI 。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具，它能夠通過學(xué)習(xí)和理解人類的語(yǔ)言來進(jìn)行對(duì)話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真

發(fā)表于 02-10 14:05 ?4w次閱讀

chatgpt怎么用

使用了一種叫做Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)，這是一種用于處理序列數(shù)據(jù)的模型，能夠在輸入序列中捕捉長(zhǎng)期依賴性。它還使用了大量的語(yǔ)料庫(kù)來訓(xùn)練模型，這些語(yǔ)料庫(kù)包含了真實(shí)世界中的對(duì)話，以便模型能夠更好地理解人類語(yǔ)言。 chatgpt怎么用？ 1、注冊(cè)或登錄OpenAI賬戶

發(fā)表于 02-10 14:22 ?5.8w次閱讀

從零開始談ChatGPT

　　那如何才能得到一個(gè)ChatGPT呢？　　首先我們需要一個(gè)具備各種能力（潛力）的LLM，所以它要足夠大，訓(xùn)練的足夠好。OpenAI 大概率也是為此重新訓(xùn)練了一個(gè)GPT-3 模

發(fā)表于 02-15 10:20 ?0次下載

ChatGPT了的七個(gè)開源項(xiàng)目

就推出了很多。估計(jì)，現(xiàn)在還有不少同學(xué)苦于不知道該如何體驗(yàn)chatGPT。　　chatGPT火了，圍繞chatGPT盡心二次擴(kuò)展的開源項(xiàng)目最近也涌現(xiàn)出很多，今天就來給大家介紹幾個(gè)最近發(fā)現(xiàn)的不錯(cuò)的開源項(xiàng)目！　　這是一

發(fā)表于 02-15 09:26 ?3次下載

一個(gè)令人驚艷的ChatGPT項(xiàng)目，開源了！

而Visual ChatGPT這個(gè)項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型（VFM，Visual Foundation Model）給聯(lián)系起來，以便實(shí)現(xiàn)在ChatGPT聊天的過程中來

發(fā)表于 03-31 11:00 ?2263次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

chatGPT的175Billion個(gè)參數(shù)是哪兒來的

評(píng)論

【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4

在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計(jì)，讓它設(shè)計(jì)一個(gè)放大電路，看下效果#人工智能

ChatGPT對(duì)話語(yǔ)音識(shí)別

科技大廠競(jìng)逐AIGC，中國(guó)的ChatGPT在哪？

【米爾MYD-JX8MMA7開發(fā)板-ARM+FPGA架構(gòu)試用體驗(yàn)】4.使用ChatGPT來助力測(cè)試GPU

ChatGPT系統(tǒng)開發(fā)AI人功智能方案

J175 P溝道開關(guān)

HMC175 S參數(shù)

ChatGPT入門指南

chatgpt是什么

chatgpt怎么用

從零開始談ChatGPT

ChatGPT了的七個(gè)開源項(xiàng)目

一個(gè)令人驚艷的ChatGPT項(xiàng)目，開源了！