亚瑟成人影院,亚洲第一区精品日韩在线播放,一区二区三区高清不卡

來源：優維科技UWin

大型語言模型是 2023 年生成式人工智能熱潮背后的推動力。然而，它們已經存在了一段時間了。

LLM是黑盒 AI 系統，它使用深度學習對超大數據集進行處理，以理解和生成新文本。現代 LLM 開始成型于 2014 年，當時一篇題為“通過聯合學習對齊和翻譯的神經機器翻譯”的研究論文中引入了注意力機制（一種旨在模仿人類認知注意力的機器學習技術）。2017 年，另一篇論文“注意力就是你所需要的”中引入了 Transformer 模型，這種注意力機制得到了進一步完善。當今一些最著名的語言模型都是基于 transformer 模型的，包括生成式預訓練 transformer 系列LLM 和來自 transformer 的雙向編碼器表示 (BERT)。ChatGPT運行在 OpenAI 的一組語言模型上，在 2022 年發布后僅兩個月就吸引了超過 1 億用戶。此后，許多競爭模型相繼發布。其中一些屬于谷歌和微軟等大公司；另一些則是開源的。

以下是當今最相關的一些大型語言模型。它們進行自然語言處理并影響未來模型的架構。

BERTBERT是 Google 于 2018 年推出的 LLM 系列。BERT 是一種基于 Transformer 的模型，可以將數據序列轉換為其他數據序列。BERT 的架構是 Transformer 編碼器的堆棧，具有 3.42 億個參數。BERT 在大量數據上進行了預訓練，然后進行了微調以執行特定任務以及自然語言推理和句子文本相似性。它被用于提高 Google 搜索 2019 年迭代中的查詢理解能力。

Claude

Claude 法學碩士專注于體質人工智能，它以一系列原則為指導塑造人工智能輸出，這些原則有助于它所支持的人工智能助手有用、無害且準確。Claude 由 Anthropic 公司創建。Claude 法學碩士的最新版本是 Claude 3.0。

CohereCohere 是一個企業 AI 平臺，提供多種 LLM，包括 Command、Rerank 和 Embed。這些LLM 可以根據特定公司的用例進行定制訓練和微調。創建 Cohere LLM 的公司是由《Attention Is All You Need》的作者之一創立的。Cohere 的優勢之一是它不依賴于單一云——不像 OpenAI 那樣依賴于 Microsoft Azure。

Ernie

Ernie 是百度的大型語言模型，為 Ernie 4.0 聊天機器人提供支持。該機器人于 2023 年 8 月發布，已擁有超過 4500 萬用戶。據傳 Ernie 擁有 10 萬億個參數。該機器人最適合普通話，但也能夠處理其他語言。

Falcon 40B

Falcon 40B 是一種基于 Transformer 的因果解碼器專用模型，由技術創新研究所開發。它是開源的，并基于英語數據進行訓練。該模型還有兩個較小的版本：Falcon 1B 和 Falcon 7B（10 億和 70 億個參數）。亞馬遜已在Amazon SageMaker上提供 Falcon 40B 。它也可以在 GitHub 上免費獲取。

Gemini

Gemini是 Google 的 LLM 系列，為該公司的同名聊天機器人提供支持。該模型取代了 Palm 為聊天機器人提供支持，在模型切換后，聊天機器人從 Bard 更名為 Gemini。Gemini 模型是多模式的，這意味著它們可以處理圖像、音頻和視頻以及文本。Gemini 還集成在許多 Google 應用程序和產品中。它有三種尺寸——Ultra、Pro 和 Nano。Ultra 是最大、功能最強大的模型，Pro 是中端模型，Nano 是最小的模型，專為提高設備上任務的效率而設計。Gemini 在大多數評估基準上都優于 GPT-4。

Gemma

Gemma是 Google 的開源語言模型系列，使用與 Gemini 相同的資源進行訓練。Gemma 有兩種規模——20 億參數模型和 70 億參數模型。Gemma 模型可以在個人電腦本地運行，并且在多個評估基準上超越了類似規模的 Llama 2 模型。

GPT-3

GPT-3是 OpenAI 于 2020 年發布的大型語言模型，擁有超過 1750 億個參數。GPT-3 采用僅解碼器的 Transformer 架構。2022 年 9 月，微軟宣布獨家使用 GPT-3 的底層模型。GPT-3 比其前身大 10 倍。GPT-3 的訓練數據包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。GPT-3 是 OpenAI 公開參數計數的 GPT 系列模型中的最后一款。GPT 系列于 2018 年首次推出，當時 OpenAI 發表了一篇論文《通過生成式預訓練提高語言理解能力》。

GPT-3.5GPT-3.5 是 GPT-3 的升級版，參數更少。GPT-3.5 使用來自人類反饋的強化學習進行了微調。GPT-3.5 是支持 ChatGPT 的 GPT 版本。據 OpenAI 稱，有幾種模型，其中 GPT-3.5 turbo 是最強大的。GPT-3.5 的訓練數據延伸到 2021 年 9 月。它也曾被集成到 Bing 搜索引擎中，但后來被 GPT-4 取代。

GPT-4GPT-4是OpenAI 的 GPT 系列中最大的模型，于 2023 年發布。與其他模型一樣，它也是基于 Transformer 的模型。與其他模型不同的是，它的參數數量尚未向公眾公布，盡管有傳言稱該模型的參數數量超過 170 萬億。OpenAI 將 GPT-4 描述為多模態模型，這意味著它可以處理和生成語言和圖像，而不僅限于語言。GPT-4 還引入了系統消息，讓用戶可以指定語調和任務。GPT-4 在多項學術考試中表現出了與人類水平相當的表現。在該模型發布時，有人猜測 GPT-4 已經接近通用人工智能(AGI)，這意味著它與人類一樣聰明甚至比人類更聰明。GPT-4 為 Microsoft Bing 搜索提供支持，可在 ChatGPT Plus 中使用，最終將集成到 Microsoft Office 產品中。

GPT-4oGPT-4 Omni（GPT-4o）是 OpenAI 的 GPT-4 繼任者，與之前的模型相比有多項改進。GPT-4o 為 ChatGPT 創造了更自然的人機交互，是一個大型多模態模型，接受音頻、圖像和文本等各種輸入。對話讓用戶可以像在正常的人類對話中一樣參與，實時互動還可以捕捉情緒。GPT-4o 可以在交互過程中查看照片或屏幕并提出相關問題。GPT-4o 的響應時間僅為 232 毫秒，與人類的響應時間相似，比 GPT-4 Turbo 更快。GPT-4o 模型是免費的，將提供給開發者和客戶產品。

LamdaLamda（對話應用語言模型）是 Google Brain 于 2021 年發布的 LLM 系列。Lamda 使用了僅解碼器的轉換器語言模型，并在大量文本語料庫上進行了預訓練。2022 年，當時的谷歌工程師 Blake Lemoine 公開聲稱該程序具有感知能力， LaMDA 引起了廣泛關注。它建立在 Seq2Seq 架構上。

Llama大型語言模型 Meta AI (Llama) 是 Meta 于 2023 年發布的 LLM。最大版本的大小為 650 億個參數。Llama 最初發布給經批準的研究人員和開發人員，但現在已開源。Llama 的規模較小，使用、測試和實驗所需的計算能力較少。Llama 使用轉換器架構，并在各種公共數據源上進行訓練，包括 CommonCrawl、GitHub、Wikipedia 和 Project Gutenberg 的網頁。Llama 被有效泄露并衍生出許多后代，包括 Vicuna 和 Orca。

MistralMistral 是一個 70 億參數的語言模型，在所有評估基準上都優于 Llama 類似規模的語言模型。Mistral 還擁有一個經過微調的模型，專門用于遵循指令。其較小的尺寸使其能夠實現自托管，并具有出色的業務性能。它是根據 Apache 2.0 許可證發布的。

OrcaOrca 由微軟開發，擁有 130 億個參數，這意味著它足夠小，可以在筆記本電腦上運行。它旨在通過模仿 LLM 實現的推理過程來改進其他開源模型所取得的進步。Orca 以明顯更少的參數實現了與 GPT-4 相同的性能，并且在許多任務上與 GPT-3.5 相當。Orca 建立在 130 億個參數版本的 LLaMA 之上。

PathwaysPathways 語言模型是谷歌推出的一款基于 5400 億參數轉換器的模型，為它的 AI 聊天機器人Bard提供支持。該模型在多個TPU 4 Pod（谷歌為機器學習定制的硬件）上進行訓練。Palm 擅長推理任務，例如編碼、數學、分類和問答。Palm 還擅長將復雜任務分解為更簡單的子任務。PaLM 的名稱源自 Google 的一項研究計劃，該計劃旨在構建 Pathways，最終創建一個單一模型，作為多種用例的基礎。Palm 有多個經過微調的版本，包括用于生命科學和醫療信息的 Med-Palm 2 以及用于網絡安全部署以加快威脅分析的 Sec-Palm。

Phi-1Phi-1 是微軟推出的一款基于 Transformer 的語言模型。Phi-1 僅包含 13 億個參數，在一系列教科書級數據上訓練了四天。Phi-1 是使用更高質量數據和合成數據進行訓練的小型模型趨勢的一個例子。特斯拉前人工智能總監、OpenAI 員工 Andrej Karpathy 在推文中寫道：“我們可能會看到更多富有創意的縮減工作量的做法：優先考慮數據質量和多樣性而不是數量，生成更多的合成數據，以及小型但功能強大的專家模型?！盤hi-1 專注于Python編碼，由于規模較小，通用能力較差。

StableLMStableLM 是 Stability AI 開發的一系列開源語言模型，該公司是圖像生成器 Stable Diffusion 的幕后推手。截至撰寫本文時，已有 30 億和 70 億參數模型可用，150 億、300 億、650 億和 1750 億參數模型正在開發中。StableLM 的目標是透明、可訪問且支持性強。

Vicuna 33B

Vicuna 是另一個有影響力的開源 LLM，源自 Llama。它由 LMSYS 開發，并使用 sharegpt.com 的數據進行了微調。根據幾個基準測試，它比 GPT-4 更小、功能更弱，但對于其大小的模型來說，它表現不錯。Vicuna 只有 330 億個參數，而 GPT-4 有數萬億個參數。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31490

瀏覽量
269914
人工智能

人工智能

+關注

關注
1794

文章
47642

瀏覽量
239681
語言模型

語言模型

+關注

關注
0

文章
538

瀏覽量
10315

電子發燒友榮獲人民郵電出版社-異步社區“2024年度最佳合作伙伴獎”

近日，電子發燒友平臺憑借其卓越的貢獻和深度的合作，榮獲人民郵電出版社-異步社區頒發的“2024年度最佳合作伙伴獎”。以表彰電子發燒友在過去一年中為人民郵電出版社提供的優質書籍推廣服務，

發表于 01-20 15:16

大語言模型開發框架是什么

大語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹大語言

發表于 12-06 10:28 ?167次閱讀

Google Play 2024年度最佳榜單揭幕

隨著 2024 年接近尾聲，Google Play 揭曉了備受矚目的 2024 年度最佳榜單。值得關注的是，今年的榜單中，亞太地區的開發者展現了無可比擬的實力，斬獲了超過 70% 的獎

發表于 11-26 09:38 ?429次閱讀

安波福蘇州榮獲“2024大蘇州最佳雇主”及“2024最佳HR團隊獎”

日前，“2024第十一屆大蘇州最佳雇主”頒獎盛典隆重舉行。安波福電子（蘇州）有限公司獲頒“2024大蘇州最佳雇主”及“2024

發表于 10-14 09:54 ?637次閱讀

如何利用大型語言模型驅動的搜索為公司創造價值

大型語言模型LLMs具有自動化內容創建、提高內容質量及多樣化的潛力，可重塑企業與信息的交互方式。通過利用LLMs，企業能提升工作效率，降低運營成本，并獲得深入洞察。來自EgeGürdeniz

發表于 10-13 08:07 ?207次閱讀

小米集團榮獲《機構投資者》“2024年亞洲最佳管理團隊”多項殊榮

國際權威財經雜志《機構投資者》（Institutional Investor）公布了2024年亞洲區最佳管理團隊排名，小米集團再次榮獲“2024年

發表于 08-16 10:43 ?763次閱讀

基于CPU的大型語言模型推理實驗

隨著計算和數據處理變得越來越分散和復雜，AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型（LLM）。本次測試采用開源 LLM

發表于 07-18 14:28 ?608次閱讀

英偉達開源Nemotron-4 340B系列模型，助力大型語言模型訓練

近日，英偉達宣布開源了一款名為Nemotron-4 340B的大型模型，這一壯舉為開發者們打開了通往高性能大型語言模型（LLM）訓練的新天地。該系列

發表于 06-17 14:53 ?613次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

開拓深度學習的思路。對于新涌現的大語言模型的能力，主要是表現在學習能力的提升、語言理解和生成能力、創新和探索的能力。基礎技術詞表示技術詞表示一般分為三種，主要是詞的獨熱表示（On

發表于 05-12 23:57

了解大型語言模型 (LLM) 領域中的25個關鍵術語

1.LLM（大語言模型）大型語言模型(LLMs)是先進的人工智能系統，經過大量文本數據集的訓練，可以理解和生成類似人類的文本。他們使用深度學

發表于 05-10 08:27 ?1292次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

，它通過抽象思考和邏輯推理，協助我們應對復雜的決策。相應地，我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務，類似于人類的系統1，如情感分析和抽取式問答等。大語言

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的基礎技術

之后，成為文本建模領域的熱門架構。不僅如此，它還對自然語言處理領域產生了深遠的影響?；赥ransformer的預訓練模型，如GPT系列和BERT系列，已在多種任務上取得了卓越的成績。目前的大型

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

學習能力。這些模型以生成能力強和靈活性強為特點，逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語言處理領域表現出色，還能適應多種復雜任務。參數多樣性讓模型能學

發表于 05-04 23:55

Claude-3力壓GPT-4榮膺最佳大語言模型

前，這家機構推出了一項名為Chatbot Arena的服務，這是針對大語言模型（LLM）進行評估的基準平臺，該平臺采用眾包形式對大型語言模型

發表于 03-28 15:23 ?409次閱讀

名單公布！【書籍評測活動NO.30】大規模語言模型：從理論到實踐

評測資格！ 2022年11月，ChatGPT的問世展示了大模型的強大潛能，對人工智能領域有重大意義，并對自然語言處理研究產生了深遠影響，引發了大模型研究的熱潮。距ChatGPT問世不

發表于 03-11 15:16

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

2024 年 19 種最佳大型語言模型

Ernie

Falcon 40B

Gemini

Gemma

GPT-3

評論

電子發燒友榮獲人民郵電出版社-異步社區“2024年度最佳合作伙伴獎”

大語言模型開發框架是什么

Google Play 2024年度最佳榜單揭幕

安波福蘇州榮獲“2024大蘇州最佳雇主”及“2024最佳HR團隊獎”

如何利用大型語言模型驅動的搜索為公司創造價值

小米集團榮獲《機構投資者》“2024年亞洲最佳管理團隊”多項殊榮

基于CPU的大型語言模型推理實驗

英偉達開源Nemotron-4 340B系列模型，助力大型語言模型訓練

大語言模型：原理與工程時間+小白初識大語言模型

了解大型語言模型 (LLM) 領域中的25個關鍵術語

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Claude-3力壓GPT-4榮膺最佳大語言模型

名單公布！【書籍評測活動NO.30】大規模語言模型：從理論到實踐