電子發燒友網報道(文/李彎彎)大模型,又稱為預訓練模型、基礎模型等,大模型通常是在大規模無標注數據上進行訓練,學習出一種特征和規則。近期火爆的ChatGPT,便是基于GPT大模型的一個自然語言處理工具。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個。可以看到,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個。可以看到,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
87文章
31490瀏覽量
269915 -
ChatGPT
+關注
關注
29文章
1566瀏覽量
7953
發布評論請先 登錄
相關推薦
政策與技術并行,共推Robotaxi商業化進程?
高級別自動駕駛的發展離不開政策與技術的雙重驅動。政府對“車路云一體化”建設的支持推動了基礎設施的完善,同時高級別自動駕駛的監管體系逐步完善,為自動駕駛商業化
AI大模型與傳統機器學習的區別
多個神經網絡層組成,每個層都包含大量的神經元和權重參數。 傳統機器學習 :模型規模相對較小,參數數量通常只有幾千到幾百萬個,模型結構相對簡單
英偉達Blackwell可支持10萬億參數模型AI訓練,實時大語言模型推理
、NVLink交換機、Spectrum以太網交換機和Quantum InfiniBand交換機。 ? 英偉達稱,Blackwell擁有6項革命性技術,可支持多達10萬億參數的模型進行
英偉達震撼發布:全新AI模型參數規模躍升至80億量級
8月23日,英偉達宣布,其全新AI模型面世,該模型參數規模高達80億,具有精度高、計算效益大等優勢,適用于GPU
小鵬匯天獲1.5億美元B1輪融資,加速飛行汽車商業化進程
小鵬匯天近日宣布成功完成1.5億美元的B1輪融資,并同步啟動B2輪融資計劃,標志著公司在飛行汽車領域的研發與商業化進程邁入新階段。此次融資不僅為小鵬匯天提供了堅實的資金保障,更將助力其加速推進飛行汽車的研發、規模量產及市場布局。
蘿卜快跑爆火的背后,美格智能如何助力無人車商業化?
無人車商業化進程已經邁入加速賽,美格智能將繼續堅持研發投入,與產業伙伴共同構建面向智能汽車產業的新質生產力,助力無人車商業化加速發展!
如祺出行香港成功上市,加速自動駕駛商業化進程
近日,廣汽集團旗下智慧出行平臺如祺出行在香港聯合交易所(聯交所)隆重舉行上市儀式,標志著其正式踏入資本市場的新征程,股票代碼定為09680.HK。這一里程碑事件不僅彰顯了如祺出行在出行服務領域的深厚積累與強勁實力,更為其未來在自動駕駛技術商業化道路上的加速奔跑注入了強大動
進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片
計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。
NVLink釋放數萬億參數
發表于 05-13 17:16
軟銀追加1500億日元,加速AI大模型開發進程
據了解,軟銀目前已經在生成式AI算力基礎設施方面投資了200億日元(約合9.36億元人民幣),預計將進一步加大投入,力求在本年度內打造出參數達到390B的最新模型,同時在來年制定萬億
纖納光電與浙能電力舉行戰略簽約儀式 鈣鈦礦商業化進程加速!
4月11日,杭州纖納光電科技股份有限公司(“纖納光電”)與浙能鎮海發電公司下屬寧波發電工程有限公司在浙江浙能電力股份有限公司(“浙能電力”)見證下舉行戰略簽約儀式,共同擘畫共同建設加速賦能鈣鈦礦商業化進程,以創新實踐履行社會責任
文遠知行與聯想車計算戰略合作,推進自動駕駛商業化落地
文遠知行與聯想車計算達成戰略合作,共同推進L4級別自動駕駛解決方案的商業化落地,這一舉措無疑為自動駕駛領域注入了新的活力。這次合作不僅彰顯了雙方在自動駕駛技術方面的深厚積累,也預示著自動駕駛技術商業化落地的新篇章。
微軟攜手法國AI初創企業Mistral推動AI模型商業化
微軟近日與法國人工智能初創企業Mistral達成合作協議,旨在推動AI模型的商業化應用。據悉,微軟將提供全方位支持,幫助這家成立僅10個月的公司將其先進的AI
評論