今年 2 月份,機器之心報道了復旦大學推出中國版 ChatGPT 的消息,引起了廣泛關注。當時,邱錫鵬教授就曾表示將于四月份開源 Moss。
昨天,開源版的 Moss 真的來了。
項目地址:https://github.com/OpenLMLab/MOSS
MOSS 是一個支持中英雙語和多種插件的開源對話語言模型,但參數數量比 ChatGPT 少得多。在 v0.0.2 之后,團隊持續對其進行調整,推出了 MOSS v0.0.3,也就是目前開源的版本。相比于早期版本,功能也實現了多項更新。
最初的測試中,MOSS 的基礎功能與 ChatGPT 類似,可以按照用戶輸入的指令完成各類自然語言處理任務,包括文本生成、文本摘要、翻譯、代碼生成、閑聊等等。
開放內測后,團隊繼續加大中文語料的預訓練:「截止目前,MOSS 003 的基座語言模型已經在 100B 中文 token 上進行了訓練,總訓練 token 數量達到 700B,其中還包含約 300B 代碼。」
在開放內測后,我們也收集了一些用戶數據,我們發現真實中文世界的用戶意圖和 OpenAI InstructGPT 論文中披露的 user prompt 分布有較大差異(這不僅與用戶來自的國家差異有關,也跟產品上線時間有關,早期產品采集的數據中存在大量對抗性和測試性輸入),于是我們以這部分真實數據作為 seed 重新生成了約 110 萬常規對話數據,涵蓋更細粒度的 helpfulness 數據和更廣泛的 harmlessness 數據。
內容來源:https://www.zhihu.com/question/596908242/answer/2994534005
目前,團隊已將 moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin 三個模型上傳到 HuggingFace。后續,還有三個模型將會開源。
根據項目主頁介紹,moss-moon 系列模型具有 160 億參數,在 FP16 精度下可在單張 A100/A800 或兩張 3090 顯卡運行,在 INT4/8 精度下可在單張 3090 顯卡運行。
團隊同時表示,由于模型參數量較小和自回歸生成范式,MOSS 仍然可能生成包含事實性錯誤的誤導性回復或包含偏見 / 歧視的有害內容,請謹慎鑒別和使用 MOSS 生成的內容,請勿將 MOSS 生成的有害內容傳播至互聯網。
新增能力
在 MOSS v0.0.3 中,團隊加入了多項新能力。
團隊構造了約 30 萬插件增強的對話數據,包含搜索引擎、文生圖、計算器、方程求解等。關于插件版 MOSS 如何使用,后續團隊將在 GitHub 公布。
MOSS v0.0.3 現已引入使用多種插件的能力。
下圖展示了調用搜索引擎的能力:
下圖展示了調用方程求解器的能力:
下圖展示了從文本生成圖片的能力:
項目作者孫天祥補充說,MOSS 003 支持啟用插件的能力是通過 meta instruction 來控制,類似 gpt-3.5-turbo 里的 system prompt。「因為是模型控制的,所以并不能保證 100% 控制率,以及還存在一些多選插件時調用不準、插件互相打架的缺陷,我們正在盡快開發新的模型來緩解這些問題。」
下載安裝
下載本倉庫內容至本地 / 遠程服務器:
git clone https://github.com/OpenLMLab/MOSS.gitcd MOSS
創建 conda 環境:
conda create --name moss python=3.8 conda activate moss
安裝依賴:
pip install -r requirements.txt
其中 torch 和 transformers 版本不建議低于推薦版本。
根據協議,開源的 MOSS 可用于商業用途:
此外,開發者也可通過 API 調用 MOSS 服務,團隊將根據當前服務壓力考慮通過 API 接口形式提供服務,接口格式可參考:https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf
目前,已有開發者根據開源內容進行而創,比如通過 VideoChat 進行視頻問答。
VideoChat 是一款多功能視頻問答工具,結合了動作識別、視覺字幕和 StableLM 的功能。該工具可為視頻中的任何對象和動作生成密集的描述性字幕,提供一系列語言風格以滿足不同的用戶偏好。它支持用戶進行不同長度、情緒、語言真實性的對話。
項目地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS
審核編輯 :李倩
-
開源
+關注
關注
3文章
3442瀏覽量
42840 -
語言模型
+關注
關注
0文章
547瀏覽量
10373 -
ChatGPT
+關注
關注
29文章
1577瀏覽量
8190
原文標題:160億參數,新增多項能力,復旦MOSS開源了
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
騰訊混元大模型上線并開源文生視頻能力
中國移動與中國石油發布700億參數昆侖大模型
AMD發布10億參數開源AI模型OLMo
云知聲山海大模型多項能力全球領跑

評論