在數據成為新石油的世界中,語言不再只是人類的專長。數據在人工智能中被大量使用,并塑造了當今最熱門的AI話題—大語言模型。隨著大語言模型的到來,人工智能現在正在學習交流、理解和生成類似人類的文本。
業界著名大語言模型(LLM),如OpenAI的GPT系列、Bloom、Bard、Bert、LaMDa、LLaMa等,都有自己的用戶群體。大語言模型正在徹底改變我們與技術互動的方式,它們正在塑造一個與機器交流就像與朋友聊天一樣自然的未來。從生成創意內容到協助高級研究,大型語言模型正在融入我們的日常生活。
在本文中,我們將探討大語言模型(LLM)是什么、它如何運作、它為何受到關注,以及它如何塑造我們的未來。
1 - 什么是大語言模型(LLM)?
大型語言模型(LLM)是基于人工智能的先進模型,經過訓練,它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學習技術和大量訓練數據來全面理解語言結構、語法、上下文和語義。我們日常交互的許多應用程序(例如聊天機器人、AI搜索引擎、內容生成工具等)的幕后運行著GPT-3、GPT-4、LaMDA、BLOOM、LLaMA等著名大語言模型,LLM的出現徹底改變了自然語言處理任務。
但這對我們意味著什么?除了為我們的日常交互提供動力之外,LLM還在改變行業、簡化工作流程,甚至創造新的藝術內容。它們開啟了令人興奮的可能性,并重新定義了我們對技術的期望。這場技術變化并不僅僅帶來更智能的小工具或更高效的軟件,而是可能塑造一個人類和機器可以像人類相互交流一樣進行交流的未來。盡管看起來很科幻,但這種變革就真真切切正在發生。
2 -大型語言模型如何工作?
如果您正在閱讀本文,您可能至少使用過一種文本生成人工智能工具,例如ChatGPT。這些工具的工作原理是學習人類花費數年時間創建的大量數據集。大語言模型一般需要學習TB的文本數據,并且在學習過程中需要海量的計算資源。
所有這些大語言模型都基于Transformer工作。Transformer是一種神經網絡架構,它使計算機能夠通過分析文本中單詞和短語之間的關系來理解、解釋和生成人類語言。與以前按順序處理語言的模型不同,Transformer可以同時查看多個句子部分。現在,為了讓這個想法更具有相關性:想象一下閱讀一本書并立即理解所有角色、情節曲折和情感,而不是逐字逐句地理解。Transformer對語言做了類似的事情,快速掌握文本背后的含義。這種獨特的語言處理方式使Transformer成為強大的計算機程序的基礎,這些程序可以以人類的方式聊天、寫作和思考。
那么,之前的模型是什么?Transformers是如何“改變”LLM游戲并在自然語言處理領域獲得全面應用的?Transformer架構的內部工作原理是什么?請繼續閱讀以找出答案。
2.1 - 編碼器-解碼器 (Encoder-decoders)
編碼器-解碼器(Encoder-decoders)架構由Google和多倫多大學研究人員于1997年提出,是大語言模型的核心。它解決了序列到序列的任務,例如機器翻譯、文本摘要和問答。
至于機器翻譯,本質上是這樣的:編碼器獲取一個句子,例如英語句子,并將其轉換為某種向量表示。該向量包含原始句子的所有基本信息。然后,解碼器接管,將這些向量翻譯成一種新語言,例如德語。為了確保我們充分想象這個過程,讓我們更詳細地了解編碼器-解碼器架構中的機器翻譯階段。我們將把“The weather is nice today”這句話翻譯成德語“Das Wetter ist heute sch?n”。這里的編碼器-解碼器架構有五個主要組件:
編碼器-解碼器。圖源:superannotate.com
輸入嵌入:英語句子“The weather is nice today”中的每個單詞通過嵌入層轉換為唯一的向量。這些向量保存了單詞的上下文含義。
位置編碼:Transformer將位置編碼添加到這些向量中,幫助模型識別句子中的單詞序列。
編碼器:然后向量通過變壓器中的多個編碼器層。每個編碼器層由自注意力機制和前饋神經網絡組成。自注意力機制權衡上下文中每個單詞的重要性,前饋網絡修改單詞向量以使其與目標表示對齊。
解碼器:編碼器的最終輸出(一組代表英語句子的向量)被饋送到解碼器。與編碼器非常相似,解碼器具有自注意力層和前饋網絡。解碼器中的額外注意力層關注編碼器的輸出向量,通知模型輸入句子的哪些部分在輸出生成的每個步驟中是重要的。
線性和softmax層:解碼器的輸出經過線性層和softmax函數。這些生成目標語言(德語)中預測的下一個單詞的概率分布。選擇概率最高的單詞,并且該過程不斷進行,直到生成句末標記。
在翻譯任務中,語言模型同時使用編碼器和解碼器組件。然而,這些組件也可以根據手頭的具體任務獨立運行。例如,可以訓練僅編碼器模型來處理分類自然語言處理任務,例如情感分析或序列標記。雙向編碼器表示(Bidirectional encoder representations,BERT)是純編碼器模型的典型示例。僅解碼器模型,如GPT模型系列、BLOOM、Jurassic和LLaMA,隨著它們的發展和擴展也變得越來越流行和強大。在現代,這些模型在各種任務中表現出了令人印象深刻的性能。Bard或T5等模型同時使用編碼器和解碼器組件,并且精通摘要或釋義等序列轉換任務。
2.2 - 基于RNN的模型
2014年,Cho和蘇茨克韋爾等人提出了使用基于遞歸神經網絡(RNN)的編碼器-解碼器架構來執行序列到序列任務的想法。
在早期,RNN被用作編碼器和解碼器的構建塊。編碼器RNN逐個處理輸入序列標記,并在每一步更新其隱藏狀態。編碼器的最終隱藏狀態捕獲整個輸入序列的上下文信息。該隱藏狀態用作解碼器RNN的初始隱藏狀態。
然后解碼器RNN接管并逐步生成輸出序列。在每個時間步,解碼器RNN使用當前輸入標記、先前的隱藏狀態以及(可選)先前生成的輸出標記來預測序列中的下一個標記。此過程將持續進行,直到生成序列結束令牌或達到預定義的最大長度。
2.3 - Transformer之前的模型
正如我們提到的,在Transformer出現之前,編碼器-解碼器文本生成是通過RNN技術完成的,這有兩個主要缺點。
長期依賴性:RNN與長期依賴性作斗爭,其中模型需要記住或使用序列中較早時間步驟的信息以用于后面的時間步驟。隨著序列變長,RNN維護這些依賴性的能力變得越來越差。這意味著捕獲句子中不同位置的單詞之間的關系對于RNN來說是一項挑戰。讓我們通過一個例句來理解。
“我覺得她有點不對勁……她看起來[]”
在基于RNN的系統中,當模型到達“她看起來[]”部分時,它可能會忘記句子的第一部分。它將查看前一個詞“看起來”,并對最合適的下一個詞(比如“很棒”)做出錯誤判斷。
RNN輸出錯誤結果。圖源:superannotate.com
我們很快就會看到如何通過Transformer模型解決這個問題。
順序邏輯:RNN一次一步地處理序列。這種計算的順序性質使得并行化變得不可能,增加了訓練時間并降低了處理大規模數據時的效率。
當處理一個句子時,RNN一個接一個地讀取單詞,就像連鎖反應一樣。如果你有一個20個單詞的句子,第20個單詞必須等待前面19個單詞的計算。這種順序處理使得并行化變得不可能,從而導致訓練過程更長。
2.4 - Transformer模型
RNN模型少數但顯著的缺點催生了Transformer架構。Transformers由Google研究人員于2017年誕生,他們通過引入自注意力機制徹底改變了LLM行業。谷歌和多倫多大學的研究人員發表的《Attention is All You Need》以及Transformer機制的誕生,標志著現代大語言模型快速發展的開始。
Attention is All You Need。圖源:https://arxiv.org/pdf/1706.03762.pdf
讓我們看看Transformer如何解決RNN面臨的問題:
1.注意力機制:Transformer架構中的注意力機制可以學習關注它正在處理的單詞的含義。簡單來說,注意力層計算序列中所有單詞對之間的注意力分數,這決定了每個單詞應該關注其他單詞的程度。想象一下您正在閱讀一個復雜的句子。你自然會更關注某些單詞而不是其他單詞,以掌握整體含義。同樣,注意力機制允許LLM在生成響應時專注于關鍵的輸入部分,從而使輸出更加準確且與上下文相關。在這個例子中,Transformer模型可以直接將這個人感到悲傷的事實與之前有關她出了問題的信息聯系起來,無論這兩條信息之間的距離是長還是短。
Transformer輸出正確結果。圖源:superannotate.com
2.并行化:與RNN不同,Transformer不會逐步處理序列。相反,它們同時處理序列中的所有標記,從而允許并行計算。Transformer模型架構引入了多核GPU的使用,它可以并行處理輸入數據,從而利用更大的訓練數據集。這解決了限制基于RNN的系統高效工作的時間和計算資源問題。在擴展句示例中,轉換器同時處理所有20個單詞,從而實現并行計算。這種同時處理意味著我們的示例句子中的所有單詞都會同時分析,從而大大減少了處理時間。
2.5-Transformer模型生命周期
為了了解大型語言模型的工作原理,我們還需要了解Transformer模型所經歷的階段。
Transformer模型生命周期。圖源:superannotate.com
1.一切開始時,對項目需要有一個清晰的愿景。從一開始就定義范圍至關重要,因為它直接影響模型的大小和架構。LLM會是一個多任務處理者,擅長生成長格式文本任務,還是會專注于狹窄的特定功能,例如命名實體識別?精確定位需求可以節省寶貴的時間和計算資源。
2.一旦對項目有了清晰的愿景,就可以決定是從頭開始訓練自己的模型還是使用現有的基礎模型作為基礎。一般來說,修改現有模型是一種常見且有效的途徑,盡管在某些情況下可能需要從頭開始訓練。
3.模型準備好后,下一階段是性能評估。如果結果不符合期望,可能需要額外的訓練。可以從“快速工程”開始,使用與任務相關的示例來指導模型。如果這還不夠,下一步可能是微調模型(我們將很快對此進行更詳細的解釋)。隨著模型變得越來越強大,確保它們在部署時表現良好并且其輸出符合人類偏好變得越來越重要。
4.這個過程的一個關鍵部分是不斷評估。使用指標和基準可以跟蹤模型的執行情況并進行必要的調整。這是一個迭代的過程。可能會在快速工程、評估和微調之間循環,直到達到所需的性能。
5.當擁有滿足性能需求并符合期望的模型時,就可以進行部署了。在此階段優化模型可以確保計算資源的有效利用和良好的用戶體驗。
6.最后還需要考慮應用程序所需的基礎架構。每個LLM都有其局限性。為這些做好準備并建立補償它們的基礎設施至關重要。
3. 從人類反饋中強化學習(RLHF)
人類反饋強化學習(RLHF)是機器學習的最新突破之一,它將人類反饋融入強化學習任務中。當模型執行任務或做出預測時,人們會提供關于它是否做得好或哪里出錯的反饋。假設正在使用LLM來起草客戶支持回復。第一次,LLM可能會生成過于正式或缺乏有關產品的具體細節的響應。用戶提供的反饋表明響應中存在的問題。通過RLHF,模型可以從反饋中學習,對于以后的查詢,LLM有更大的機會生成更友好和詳細的響應。如果有類似的詢問,LLM可能會生成更友好和詳細的答復。當不斷提供反饋時,該模型會變得更加擅長制定符合應用基調和客戶特定需求的響應。
根據人類反饋進行強化學習。圖源:superannotate.com
此外,傳統的強化學習可能會優化語法正確性和字數。借助RLHF,人類評估者可以引導模型走向創造力、情感共鳴和原創性,這些元素難以量化,但對于令人難忘的敘述至關重要。
但RLHF的真正魔力在于它結合了兩方面優點的潛力:機器的計算能力和人類的直觀理解。這不僅僅是讓人工智能變得更聰明;這是為了讓它變得更明智。
4 -提示工程(Prompt Engineering)
提示工程(Prompt Engineering)是掌握大型語言模型的一個非常重要且有趣的部分。這是一個優化人工智能性能的過程,擅長這個過程的人通常會成功地從LLM那里獲得他們想要的輸出。我們將用戶提供給模型的輸入文本稱為“提示”,將LLM生成的輸出文本稱為“結果”。
如果使用過任何大型語言模型,用戶可能在不自覺中已經進行了提示工程。如果模型在第一次嘗試時未提供所需輸出的情況,用戶一般會多次修改請求以“提示”模型期望它返回的內容,這本質上就是是提示工程。而提示工程的一項關鍵策略就是情境學習(In-context learning)。
4.1 - 情境學習(In-context learning)
情境學習是一種通過提示中的特定任務示例來改進提示的方法,它為LLM提供需要完成的任務的藍圖。情境學習包含下面一些技術:
“零樣本推理(Zero-shot inference)”是一種用于GPT-3等LLM的策略,它將輸入數據合并到提示中,而無需任何額外的示例。雖然這種方法通常適用于較大的模型,但較小的模型可能很難理解任務。這只是一種問答方法,您的請求可能足夠簡單,不需要模型的額外提示。
如果零樣本推理不能產生所需的結果,則可以使用“單樣本(one-shot)”或“少樣本(few-shot)推理”。這些策略包括在提示中添加一個或多個已完成的示例,幫助較小的法學碩士表現得更好。例如,要對電影評論的情感進行分類,提示將包括說明、評論文本以及最后的情感分析請求。
假設正在嘗試教導LLM提高其對電影評論進行分類的能力。可能會用到這樣的提示:
對這篇評論進行分類:“一部令人驚嘆的杰作,讓我激動不已。” 情緒:積極
現在給模型分類“一部花了我一生三個小時的無聊電影”,它會將情緒分類為“負面”。
情境學習。圖源:superannotate.com
大語言模型的表現很大程度上取決于其規模。較大的模型更擅長通過零樣本推理處理各種任務,即使是那些沒有明確訓練過的任務。然而,較小的模型擅長執行與其訓練類似的任務。因此,找到完美的平衡通常需要嘗試不同的模型和配置。
4.2 - 微調(Fine-tuning)
需要承認的是,對于較小的模型,即使包含五六個示例,上下文學習也并不總是有效。此外,“上下文窗口”(模型可以處理的上下文學習量)也有其局限性。提示中包含的任何示例都會占用上下文窗口中的寶貴空間,從而減少了包含其他有用信息的空間量。如果多個示例不能提高模型的性能,那么可能是時候對LLM進行微調了。此過程涉及使用新數據進行額外訓練以提高特定任務的性能。
微調是預訓練之后的過程,其中模型在較小的特定數據集上進一步訓練(或微調)。該數據集通常與特定任務或領域相關。通過在這個更窄的數據集上進行訓練,模型變得專業化,并且在與該特定領域相關的任務上表現更好。
例如,如果想要一個語言模型來回答醫學問題,可以使用醫學教科書和期刊對其進行微調。這樣,LLM就能更好地理解和生成與醫學主題相關的回復。
請注意,就像預訓練一樣,完全微調需要足夠的內存和計算預算來存儲和處理訓練期間更新的所有梯度、優化器和其他組件。
5 - 大語言模型的挑戰和局限性
深入研究語言模型的核心,我們也必須面對它們的挑戰。以下是一些值得一提的挑戰:
海量數據和計算:第一個重大挑戰是大語言模型所需的海量數據。LLM對用于訓練的大量文本數據有著巨大的需求。從邏輯上講,LLM攝入的數據越多,需要的計算資源就越多,更不用說時間了。這使得大型語言模型訓練過程資源密集。
可解釋性問題:接下來是可解釋性問題。眾所周知,大型語言模型的功能就像密封的金庫一樣。確定它們產生某些輸出的原因和方式具有挑戰性,因為它們的工作方式就像沒有密鑰的密碼。OpenAI試圖通過引入一種工具來解決這個“黑匣子”問題,該工具可以自動識別模型的哪些部分負責其行為的哪些部分。
可解釋性問題。圖源:openai.com
過度概括:盡管LLM接受過廣泛多樣的數據訓練,但有時會做出廣泛的概括,而忽略了語言、文化和背景中更細微的差別。
無意識的錯誤信息:LLM缺乏綜合的事實核查程序,使他們很容易生成看似合理但實際上不正確或具有誤導性的文本。當這些模型部署在準確性至關重要的應用程序中(例如新聞報道或醫療診斷)時,這一點尤其令人擔憂。這也是一個正在解決的問題,我們很快就會看到如何解決。
災難性遺忘:大型語言模型(LLM)可以適應特定任務,例如通過稱為“微調”的過程生成詩歌。雖然使用相對較小的數據集進行微調可以使模型在特定任務上表現出色,但它可能會導致“災難性遺忘”,即模型在其他任務中失去熟練程度。如果保留多任務處理能力至關重要,“多任務微調”或“參數高效微調”(PEFT)等解決方案可以防止這種遺忘,使模型成為性能優化的專家,而不會失去其一般能力。
是的,我們應該小心對待大語言模型。LLM可能會避免承認它不知道的事情,并且很可能給出錯誤的信息。因此,尤其是對于關鍵案例,比如說醫學診斷,需要謹慎對待LLM的結果。
6 - 負責任的人工智能(Responsible AI)
生成人工智能的世界,特別是與大型語言模型(LLM)相關的世界,正在經歷瘋狂的變化。讓我們了解一些圍繞人工智能的道德問題。
這里要解決的三個基本挑戰是毒性、幻覺和知識產權問題。
?毒性:人工智能背景下的毒性是指可能對特定群體,特別是邊緣化或受保護群體產生不利影響的有害或歧視性語言。針對這一挑戰的緩解策略包括精心管理訓練數據、過濾掉不合適的內容以及雇用多元化的人類注釋者團隊進行訓練。各種注釋團隊有助于確保考慮各種觀點,從而降低人工智能模型中存在偏見的風險。
幻覺:另一方面,幻覺是人工智能產生毫無根據或不真實的輸出的情況。問題是,人工智能有時會嘗試填補一些缺失數據的空白,導致人工智能開始“產生幻覺”。這種現象可能會導致誤導或不正確的輸出。用戶教育在應對這一挑戰方面發揮著至關重要的作用。用戶需要了解人工智能技術的現實以及產生幻覺的可能性。其他潛在的解決方案包括將人工智能輸出與經過驗證的數據源交叉引用,開發將輸出追溯到原始訓練數據的方法,以及明確定義人工智能的預期和非預期用途。
知識產權問題:當人工智能模型生成可能侵犯現有版權或抄襲現有作品的內容時,就會出現知識產權問題。解決這個問題需要技術創新、政策制定和法律干預相結合。機器學習等新興概念(指減少或刪除受保護內容或其對人工智能輸出的影響)以及內容過濾和阻止等保護措施可以幫助緩解這一問題。
為了負責任地實施和使用生成式人工智能模型,定義特定用例、持續評估風險并定期根據數據和系統評估性能至關重要。重要的是要記住,創建人工智能是一個持續、迭代的循環,需要隨著時間的推移進行勤奮的監控和改進。此外,制定明確的治理政策并讓每個利益相關者在整個人工智能生命周期中承擔責任,以確保負責任的人工智能使用也至關重要。
7 - 大語言模型領域的主要參與者
生成式人工智能和大型語言模型(LLM)領域涌入了大量現金,資金數額瘋狂,競爭激烈。下面是一些在LLM競賽中的佼佼者。
OpenAI是LLM的開拓者、創新者和主要參與者。OpenAI成立于2015年,到2023年6月累計融資達到113億美元,在2022年底催生了ChatGPT的火熱,也標志著企業目前對LLM癡迷的開始。OpenAI的所有GPT模型,尤其是最近的模型(GPT-4Turbo、GPT agents、Q*算法)都獲得了廣泛關注,它們的快速進步既充滿希望又令人恐懼。不僅數億人將ChatGPT用于日常辦公任務、工作或愛好,而且數百家企業也在其產品中采用GPT系統。世界在生成式人工智能和LLM領域沸騰。
Google是大語言模型的奠基者和主要參與者。Google最早提出了Transformer和Bert等大語言模型的關鍵基礎架構和模型。Bert是一種預訓練的深度學習神經網絡,它可以在各種自然語言處理任務中表現出色。Bert的主要貢獻是,它可以通過雙向編碼器來理解上下文,從而更好地預測單詞的含義。這使得Bert在各種自然語言處理任務中表現出色,例如問答、文本分類、命名實體識別等。此外,Google還開發了其他語言模型,例如T5、PaLM 2,這些模型也在自然語言處理領域中取得了很大的成功。
微軟是大語言模型的企業參與者。它與Meta、OpenAI、Adept等法學碩士參與者合作并提供資助,并在該領域發揮了重要作用。微軟的Bing使用ChatGPT,但與此模型不同的是,Bing使用互聯網和實時數據(而ChatGPT的響應包括截至2021年的數據)。Bing使用ChatGPT,但與OpenAI的模型不同,它可以訪問互聯網,并且運行起來就像人工智能驅動的搜索引擎。與以2021年為知識截止日期的ChatGPT不同,Bing提供最新的響應。Bing允許每個對話有20個回復,建議后續問題,并具有三種對話風格(更精確、創造性和平衡)。
MetaAI(以前稱為FacebookAI)是一個開源玩家,擁有LLama和LLama2等知名開源LLM模型。通過開源模型,Meta旨在讓企業、初創公司、企業家和研究人員能夠使用其開發的工具,這些工具的開發規模是他們自己難以構建的,并得到他們可能無法獲得的計算能力的支持,這將打開一個充滿機遇的世界讓他們以令人興奮的方式進行實驗和創新,并最終從經濟和社會上受益。
xAI于11月4日推出了名為GrokAI的語言模型。Grok是一種實時語言模型,其特點是幽默和諷刺。它根據X的內容進行訓練,并使用檢索增強生成(RAG)技術來提供新鮮且最新的信息。xAI向語言模型邁出了非常大膽的一步,構建了一個不符合大多數其他語言模型編程的道德和倫理約束的模型。它可以變得狂野和粗俗,這取決于要求的內容。
Anthropic是這些參與者中最年輕的之一,在2021年成立后就成功籌集了15億美元。其創始人是前OpenAI員工,而他們的模型(Claude)最與眾不同的一件事是他們稱為“憲法人工智能”的新技術——人工智能監督其他人工智能的系統。換句話說,這里的人為干預被最小化,只是制定一些規則和指南,其余的都是人工智能。憲法人工智能是關于通過零人類標簽的自我改進來訓練無害人工智能助手的模型。請注意,這種新穎的技術受到Quora、RobinAI等許多用戶的喜愛。
Cohere成立于2019年,擁有4.35億美元資金。Cohere的創始人之一艾丹·戈麥斯(AidanGomez)是我們之前討論過的革命性論文《Attention is all you need》的合著者。Kon于2023年初加入Cohere,他表示:“我們作為獨立的、與云無關的企業AI平臺而脫穎而出。我們專注于幫助客戶利用他們的數據創建專有的LLM功能,并創造戰略差異化和業務。”價值。”未來,Cohere計劃構建模型,為客戶執行真正的助理會做的任務—安排通話/會議、預訂航班和歸檔費用報告。
Inflection AI由LinkedIn聯合創始人Reid Hoffman和DeepMind創始成員Mustafa Suleyman領導,最近獲得13億美元投資,用于打造更多“個人人工智能”。投資者由微軟、里德·霍夫曼、比爾·蓋茨、埃里克·施密特和新投資者英偉達領投。這筆資金用于構建他們的第一個產品:個人人工智能助理PI。蘇萊曼說,他們的目標是使人機對話盡可能自然,人類不需要簡化他們的想法就可以與機器交流。“個人人工智能將成為我們一生中最具變革性的工具。這確實是一個拐點,”蘇萊曼在一份預先聲明中說道。Inflection與微軟和Nvidia有著深厚的聯系(微軟也是OpenAI的大投資者),擁有大量現金來運營和運營他們需要的東西,穆斯塔法似乎對此非常有信心。
Adept是一家由前DeepMind、OpenAI和谷歌工程師和研究人員共同創立的初創公司,其概念與Inflection類似—可以自動化任何軟件流程的人工智能。該玩家擁有4.15億美元的資金,但具有諷刺意味的是,該網站空空蕩蕩,還沒有任何產品。在他們的網站上,您可以加入等候名單,以便在產品準備好后獲得通知。創始人表示,該模型將能夠使用Airtable、Photoshop、Tableau和Twilio等現有軟件來響應“生成每月合規報告”或“在藍圖中這兩點之間繪制樓梯”等命令來完成任務。
這些只是致力于大型語言模型的眾多公司和組織中的一小部分。HuggingFace、BigScience、StabilityAI、Cerebras等其他公司也參與了這場競賽。該領域正在迅速發展,新的參與者不斷涌現。
LLM大玩家。圖源:superannotate.com
8 - 大語言模型的發展趨勢
大型語言模型很流行并被大量使用,但它還有很多改進和發展的空間。我們收集了大語言模型的一些最新趨勢。
1. 合成數據(Synthetic data)
隨著對隱私的更多關注,合成數據正成為一個熱門話題。這些數據不是從現實場景中收集的,而是從頭開始創建的。使用合成數據,我們可以減少對隱私問題的擔心。這可能會改變我們在需要大量模擬的行業(例如視頻游戲或災難響應培訓)中使用人工智能的方式。
下面是谷歌研究人員創建的語言模型的示例,該模型使用自行生成的解決方案作為目標輸出。
語言模型生成多個CoT推理路徑和答案。圖源:t.co/R0pWSNJ2sX
2. 事實核查(Fact-checking)
現在是信息爆炸的社會,但并非所有信息都是準確的。大型語言模型的另一個潛在改進是自動事實檢查。我們正在邁向這樣一個未來:人工智能可以實時告訴我們所閱讀的內容是否準確。這可以幫助我們打擊虛假信息的傳播,甚至發現深度偽造信息。
目前,谷歌的REALM和Facebook的RAG是解決LLM事實準確性和可靠性問題的兩種最有前途的技術。除此之外,GPT的最新版本之一WebGPT使用Microsoft Bing來瀏覽請求,它在回復中加入了引用,使生成的回復更加準確和可靠。事實上,WebGPT在響應準確性方面優于ChatGPT和其他技術。
真實的質量檢查結果。圖源:arxiv.org/pdf/2112.09332.pdf
當模型在其輸出中涵蓋來自互聯網的信息時,它會包含引用,使個人能夠驗證信息的來源。WebGPT的初步研究結果令人鼓舞,該模型在準確響應的百分比以及提供的真實和信息豐富的答案數量方面優于所有GPT-3模型。
3. 專家模型(Expert models)
專家模型不是利用大型語言模型中的所有參數,而是使用最適合給定查詢的這些參數的子集,這使得它們的計算要求較低。簡而言之,這就是專家模型的概念。他們被稱為專家主要是因為他們非常擅長特定領域,例如法律或醫學。如果提示要求提供與德語醫學成像相關的詳細信息,則只有這些專家將被激活,其余專家保持不活動狀態。
其中一些稀疏專家模型包括Google的SwitchTransformer(1.6萬億個參數)、Google的GLaM(1.2萬億個參數)以及Meta的Mixture of Experts(MoE)和Mixture of Tokens(MoT)(1.1萬億個參數)。
綜上所述,合成數據、事實核查和專家模型是人工智能發展的三大趨勢,重新定義了人工智能的可能性。
9 - 要點總結
如今,大型語言模型在人工智能世界中風光無限。當我們探索其內部運作、挑戰、未來趨勢以及推動其發展的關鍵技術時,有一件事變得清晰:大語言模型有取得更大進步的潛力。人類和機器能力的融合正在開拓語言和認知領域的視野。我們迫不及待地想看看大型語言模型的世界即將發生什么。
-
人工智能
+關注
關注
1792文章
47425瀏覽量
238963 -
語言模型
+關注
關注
0文章
530瀏覽量
10298 -
LLM
+關注
關注
0文章
294瀏覽量
354
原文標題:2023年大語言模型(LLM)全面調研:原理、進展、領跑者、挑戰、趨勢
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論