OpenAI 剛剛宣布正式推出GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的縮寫,即生成型預訓練變換模型 4。
公告寫道,GPT-4 是一個多模態大型語言模型(支持接受圖像和文本輸入,以文本形式輸出),也是 OpenAI 努力擴展深度學習的最新里程碑。雖然 GPT-4 對于許多現實場景的處理比人類差,但它在各種體現專業和學術能力的 benchmark 上,已表現出和人類相當的水平。 例如,GPT-4 通過了模擬律師考試,其分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分卻在倒數 10% 左右。OpenAI 表示,他們花了 6 個月的時間來使用對抗性測試程序,以及通過 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性和可控性等方面取得了有史以來最好的結果(盡管遠非完美)。 使用示例 OpenAI 用一張梗圖演示了 GPT-4 特有的「多模態」功能。 用戶提問:解釋下圖的笑點是什么,并對圖片中的每部分進行描述。
GPT-4:
The image shows a package for a "Lightning Cable" adapter with three panels. Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it. Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end. The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.
翻譯如下:
圖片顯示了一個 "Lightning Cable" 適配器的包裝,總共包含三個部分。 面板 1:一部智能手機,其充電端口插著一個 VGA 接口(大的藍色 15 針接口,通常用于電腦顯示器)。 面板 2:"Lightning Cable" 適配器的包裝上有一張 VGA 接口的圖片。 面板 3:VGA 連接器的特寫,末端是一個小的 Lightning 連接器(用于為 iPhone 和其他蘋果設備充電)。 這張圖片的笑點來自于:展示了將一個大的、過時的 VGA 連接器插入一個小的、現代的智能手機充電端口的荒謬性。
上面的例子看起來很簡單,OpenAI 緊接著展示了高級用法 —— 像人類一樣讀論文。簡單來說就是給 GPT-4 提供論文的圖片格式文件,讓它閱讀并總結出要點。效果如下:
甚至直接讓 GPT-4 回答圖片中對應題號的問題:
GPT-4 局限性 盡管功能強大,但 GPT-4 與早期的 GPT 模型具有相似的局限性,即生成的結果不符合事實。因此它仍然不完全可靠(它會產生 “幻覺” 事實并出現推理錯誤)。 雖然這仍然是一個問題,但 GPT-4 相對于以前的模型(它們本身在每次迭代中都在改進)顯著減少了 “幻覺”。在內部的對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:
與 GPT 3.5 的對比 據介紹,對于日常的談話,GPT-3.5 和 GPT-4 之間的區別可能很微妙。但當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。 為了了解這兩種模型之間的區別,OpenAI 通過各種 benchmark 進行了測試,包括最初為人類設計的模擬考試。從下圖可以看出,GPT-4 的成績大部分都比 GPT-3 好。
GPT-4 也在多項測試項目中取得了接近滿分的成績:
USABO Semifinal Exam 2020(美國生物奧林匹克競賽)
GRE 口語
OpenAI 還將機器學習模型的傳統 benchmark 用于評估 GPT-4。結果顯示,GPT-4 已經遠遠超過現有的大型語言模型,以及大多數最先進的 (SOTA, state-of-the-art) 模型。benchmark 數據如下:
在 MMLU benchmark 中(一個基準數據集,包括來自于 STEM、人文、社科等 57 個學科的選擇題,它用于測試 LLM 的世界知識和問題解答的能力),GPT-4 處理中文的準確度大約是 80%,已經優于其他 LLM 的英文表現,比如 GPT-3.5、Chinchilla、PALM。
試用方式
ChatGPT Plus 訂閱用戶可嘗鮮體驗,他們將在 chat.openai.com 上獲得具有使用s上限的 GPT-4 訪問權限。
調用 API,訪問
https://openai.com/waitlist/gpt-4進入等待名單
另外,
現在只支持純文本的請求(圖像輸入還在 alpha 階段)
定價:prompt - $0.03 per 1k token, completion - $0.06 per 1k token
context 長度為 8192 tokens,并且提供 32768 token 的版本(價格也更貴,$0.06 & $0.12)
審核編輯 :李倩
-
圖像
+關注
關注
2文章
1087瀏覽量
40497 -
模型
+關注
關注
1文章
3260瀏覽量
48910 -
OpenAI
+關注
關注
9文章
1100瀏覽量
6572
原文標題:OpenAI正式發布GPT-4:支持圖像和文本的輸入、 處理中文的準確度大幅提升
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論