AI 開始在 ChatGPT 中推出新的語音和圖像功能。它們提供了一種新的、更直觀的界面類型,允許用戶進行語音對話或向 ChatGPT 展示正在談論的內容。
語音和圖像為用戶在生活中使用 ChatGPT 提供了更多方式。旅行時,拍下地標性建筑的照片,然后就它的有趣之處進行實時對話。當您在家時,拍下冰箱和儲藏室的照片,找出晚餐的菜譜(并提出后續問題,一步步了解菜譜)。晚飯后,幫孩子做一道數學題,拍下照片,圈出問題集,讓孩子與您分享提示。
OpenAI將在未來兩周內向 Plus 和企業用戶推出 ChatGPT 中的語音和圖像功能。語音功能將在 iOS 和 Android 上推出(在設置中選擇加入),圖像功能將在所有平臺上推出。
Rectangle Speak with ChatGPT and have it talk back
現在,用戶可以使用語音與您的助手進行來回對話。在旅途中與它對話,為家人要求一個睡前故事,或者解決餐桌上的爭論。
與 ChatGPT 對話,讓它回話(Rectangle Speak with ChatGPT and have it talk back)
使用語音與助手進行多輪對話。
要開始使用語音,請前往手機應用上的設置 → 新功能,然后選擇語音對話。然后,點擊主屏幕右上角的耳機按鈕,從五種不同的語音中選擇自己喜歡的語音。
新的語音功能由一個新的文本到語音模型提供支持,能夠僅通過文本和幾秒鐘的語音樣本生成類似人類的音頻。OpenAI與專業配音演員合作創作了每種語音。OpenAI還使用 Whisper(OpenAI的開源語音識別系統)將用戶說的話轉錄成文本。
Listen to voice samples
選擇文本
下面是示例:
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.
大意(從前,在一片寧靜的樹林里,有一只毛茸茸的母貓,名叫萊拉。在一個陽光明媚的日子里,她和頑皮的小貓米洛依偎在一棵老橡樹的樹蔭下。
“米洛,”萊拉開始說話了,聲音輕柔而溫和,“你很快就會有一個新玩伴了?!?/p>
米洛的耳朵豎了起來,很好奇?!靶峦姘椋俊?/p>
萊拉咕嚕著說:“是的,一個小妹妹?!?/p>
米洛興奮地睜大眼睛。“妹妹?她會像我一樣追尾巴嗎?”
萊拉笑著說?!芭?,她會有自己的怪癖。你會教她的,對嗎?”
米洛急切地點點頭,已經開始憧憬他們將共同經歷的冒險了。
Select voice
Juniper
Chat about images
用戶現在可以向 ChatGPT 展示一張或多張圖片??梢越鉀Q烤架無法啟動的問題,查看冰箱里的食物以計劃用餐,或者分析復雜的圖表以獲取與工作相關的數據。要聚焦于圖像的特定部分,您可以使用OpenAI移動應用程序中的繪圖工具。
圖像聊天(Chat about images)
向 ChatGPT 展示一張或多張圖片。
要開始聊天,請點擊照片按鈕捕捉或選擇圖片。如果您使用的是 iOS 或 Android 系統,請先輕點加號按鈕。您還可以討論多張圖片,或使用OpenAI的繪圖工具來引導您的助手。
圖像理解由多模態 GPT-3.5 和 GPT-4 支持。這些模型將語言推理能力應用于各種圖像,如照片、截圖以及包含文字和圖像的文檔。
OpenAI正在逐步部署圖像和語音功能
OpenAI 的目標是構建安全、有益的 AGI。OpenAI相信,逐步提供工具,讓OpenAi能夠隨著時間的推移不斷改進和完善風險緩解措施,同時也讓大家為未來更強大的系統做好準備。在涉及語音和視覺的高級模型中,這一策略變得更加重要。
語音
新的語音技術--只需幾秒鐘的真實語音就能制作出逼真的合成語音--為許多創造性和無障礙應用打開了大門。然而,這些功能也帶來了新的風險,例如惡意行為者有可能冒充公眾人物或實施欺詐。
這就是為什么OpenAi要將這項技術用于語音聊天這一特殊應用案例。語音聊天是由OpenAI直接合作的配音演員創建的。OpenAi還與其他公司開展了類似的合作。例如,Spotify 正在將這項技術的力量用于其語音翻譯功能的試點,該功能可以幫助播客將播客翻譯成其他語言,用播客自己的聲音來講述故事,從而擴大播客的影響力。
圖像輸入
基于視覺的模型也帶來了新的挑戰,從對人的幻覺到在高風險領域依賴模型對圖像的解釋,不一而足。在進行更廣泛的部署之前,OpenA與極端主義和科學能力等領域的紅隊測試專家人以及不同的測試者一起對模型進行了測試。OpenAI的研究使OpenAi能夠在一些關鍵細節上保持一致,以實現負責任AI的應用。
讓視覺既實用又安全
與 ChatGPT 的其他功能一樣,視覺功能也是為您的日常生活提供幫助。只有當它能看到用戶所看到的東西時,才能發揮最大作用。
OpenA與盲人和低視力者的免費手機應用程序 Be My Eyes 合作,了解其用途和局限性,并從中直接借鑒了這一方法。用戶告訴OpenAI,他們發現背景中恰好有人的圖像進行一般性對話非常有價值,比如當你正在嘗試遙控器設置時,電視上出現了一個人。
由于 ChatGPT 并不總是準確的,而且這些系統應尊重個人隱私,因此OpenA還采取了技術措施,大大限制 ChatGPT 分析和直接陳述人的能力。
真實世界的使用情況和反饋將幫助OpenAI在保持工具實用性的同時,使這些保障措施更加完善。
模型限制的透明度
用戶可能會依賴 ChatGPT 來處理專業話題,例如研究領域。OpenAI對模型的局限性保持透明,不鼓勵未經適當驗證的高風險用例。此外,該模型精通英語文本的轉錄,但對其他一些語言,尤其是非羅馬字母的語言,表現不佳。OpenAI建議非英語用戶不要使用 ChatGPT。
用戶可以在圖像輸入系統卡中閱讀更多有關安全方法以及與 Be My Eyes 合作的信息。
OpenAI將擴大訪問范圍
Plus 和 Enterprise 用戶將在未來兩周內體驗語音和圖像,很高興不久后能向包括開發人員在內的其他用戶群推出這些功能。
-
模型
+關注
關注
1文章
3296瀏覽量
49042 -
OpenAI
+關注
關注
9文章
1121瀏覽量
6632 -
ChatGPT
+關注
關注
29文章
1566瀏覽量
7929
原文標題:重磅!OpenAI 在 ChatGPT 內推出語言和圖像功能
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論