作者 / Gemini API 小組產品經理 Shrestha Basu Mallick 和 Google Labs 產品總監 Kathy Korevec
我們正賦予開發者構建 AI 未來的能力,包括尖端模型、智能代碼編寫工具以及跨平臺和設備的無縫集成。自 2023 年 12 月我們推出 Gemini 1.0 以來,數百萬的開發者已經使用 Google AI Studio 和 Vertex AI 在 109 種語言中使用 Gemini 進行構建。
我們推出了 Gemini 2.0 Flash 體驗版,旨在支持更具沉浸感和交互性的應用。同時,我們還推出了能夠代開發者執行任務、優化開發流程的全新編碼智能體。
使用 Gemini 2.0 Flash 進行構建
在 Gemini 1.5 Flash 成功的基礎上,Flash 2.0 的速度是 1.5 Pro 的兩倍,具有更優越的性能,包括新的多模態輸出,并支持原生工具使用。我們還推出了 Multimodal Live API,用于構建具有實時音頻和視頻流的動態應用。
即日起,開發者可以通過 Google AI Studio 和 Vertex AI中的 Gemini API,測試和探索實驗階段的 Gemini 2.0 Flash,正式版預計將于 2025 年初全面推出。
借助 Gemini 2.0 Flash,開發者可以獲得:
1. 更佳性能
Gemini 2.0 Flash 比 1.5 Pro 更強大,同時在速度和效率上依然符合開發者對 Flash 的期望。它還在關鍵基準測試中展示了更優越的多模態、文本、代碼、視頻、空間理解和推理性能。改進后的空間理解能力能夠在復雜圖像中為小對象生成更精確的邊界框,并實現更好的對象識別和圖像描述。如需了解詳情,您可以觀看空間理解視頻或閱讀 Gemini API 文檔。
2. 新的輸出模式
開發者將能夠使用 Gemini 2.0 Flash 通過單次 API 調用,生成包含文本、音頻和圖像的綜合響應。這些新的輸出模態已提供給早期測試人員使用,預計 2025 年將在更大范圍推廣。所有圖像和音頻輸出都將啟用 SynthID 隱形水印,這有助于減少錯誤信息和錯誤歸因問題。
多語言原生音頻輸出: Gemini 2.0 Flash 具有原生文本轉語音的音頻輸出功能,開發者不僅可以控制模型輸出的內容,還可以精細控制說話方式,并提供 8 種高品質的聲音以及各種語言和口音選擇。您可以聆聽原生音頻輸出的實際效果,或在開發者文檔中了解更多信息。
原生圖像輸出: Gemini 2.0 Flash 現在可以生成原生圖像,并支持對話式多輪編輯,因此您可以在此前的輸出基礎上進行構建和完善。它可以輸出交錯的文本和圖像,使其在食譜等多模態內容中非常實用。您可以觀看原生圖像輸出視頻以了解更多信息。
3. 原生工具使用
Gemini 2.0 已經過訓練,能夠使用工具,這是構建智能體體驗的基礎能力。除了通過函數調用自定義第三方函數之外,它還可以原生調用 Google Search 和代碼執行等工具。使用原生 Google Search 作為工具,不僅能提供更真實、更全面的答案,還能為發行商帶來更多流量。它可以同時運行多項搜索,從多個來源找到更多相關事實并將其組合以提升準確率,從而改進信息檢索效率。您可以在原生工具使用視頻中了解詳情,或從 Notebook 上開始構建。
4. Multimodal Live API
開發者現在可以使用來自攝像頭或屏幕的音頻和視頻流輸入,構建實時多模態應用。同時,應用可以支持諸如中斷和語音活動檢測等自然對話模式。該 API 支持將多個工具集成在一起,通過單個 API 調用即可完成復雜的用例。您可以在多模態直播視頻中查看更多內容,嘗試使用 Web console或入門代碼 (Python)。
我們很高興看到初創公司在使用 Gemini 2.0 Flash 方面取得了令人矚目的進展,他們正在研發各種新體驗的原型,例如 tldraw 的視覺游樂場、Viggle 的虛擬角色創建和音頻旁白、Toonsutra 的情景多語言翻譯以及 Rooms 正在實現的實時音頻功能等。
為了加速開發,我們在 Google AI Studio 中發布了三個入門級應用體驗,并提供了空間理解、視頻分析和 Google 地圖探索的開源代碼,以便您可以開始使用 Gemini 2.0 Flash 進行構建。
賦能 AI 代碼輔助的演進
隨著 AI 代碼輔助功能從簡單的代碼搜索迅速發展到嵌入開發者工作流程中的 AI 助手,我們希望分享使用 Gemini 2.0 的最新進展: 可以代表您執行任務的編碼智能體。 在我們最新的研究中,我們已能夠使用配備代碼執行工具的 2.0 Flash,在 SWE-bench Verified 基準測試中達到 51.8% 的成績,該基準測試用于評估智能體在實際軟件工程任務中的表現。Gemini 2.0 Flash 的尖端推理速度使智能體能夠采樣數百種潛在的解決方案,再根據現有的單元測試和 Gemini 自身的判斷來選擇最佳解決方案。我們正在將這項研究成果轉化為新的開發者產品。
認識您的 AI 編碼智能體 Jules
想象一下,您的團隊剛剛完成了一次 Bug Bash,現在有一長串的 Bug 等著您解決。現在,您可以將 Python 和 Javascript 編碼任務分配給 Jules,這是一個使用 Gemini 2.0 的實驗性 AI 編碼智能體。Jules 可以異步工作,并與您的 GitHub 工作流程集成,處理 Bug 修復和其他耗時任務,讓您可以專注于真正想要構建的內容。Jules 會創建全面的多步驟計劃來解決問題,高效地修改多個文件,甚至還會準備拉取請求,以便將修復直接提交回 GitHub。
Jules 還處于早期階段,但根據我們內部使用 Jules 的經驗,它可為開發者提供:
更高的生產力:將問題和編碼任務分配給 Jules,以提高異步編碼效率。
進度跟蹤:通過實時更新,隨時了解情況并優先處理需要您關注的任務。
開發者全面掌控:隨時查看 Jules 制定的方案,并根據需要提出反饋或進行調整。輕松審查 Jules 編寫的代碼,并在適當的時候將其合并到您的項目中。
我們目前將 Jules 提供給部分受信任的測試人員,并計劃將于 2025 年初為其他感興趣的開發者提供該功能。歡迎您在 labs.google.com/jules 上注冊,獲取有關 Jules 的最新進展。
Colab 的數據科學智能體
將為您創建 Notebook
在 2024 年的 I/O 大會上,我們在 labs.google/code 上推出了實驗性的數據科學智能體,任何用戶都可以上傳數據集,并在幾分鐘內獲得洞察,所有這些都基于可運行的 Colab Notebook。我們收到了開發者社區的積極反饋,并見證了該功能的影響力,這令我們倍感欣喜。例如,在數據科學智能體的幫助下,Lawrence Berkeley 國家實驗室研究全球熱帶濕地甲烷排放項目的科學家估計,原本要花一周時間分析和處理的內容,現在只需五分鐘。 Colab 已經開始使用 Gemini 2.0 整合這些相同的智能體功能。只需用簡單的語言描述您的分析目標,就可以自動生成 Notebook,幫助您提升研究和數據分析的能力。開發者可以通過加入受信任的測試人員計劃來搶先體驗這項新功能,該功能將于 2025 年上半年更廣泛地面向 Colab 用戶推出。
開發者正在構建未來
我們的 Gemini 2.0 模型可以讓您更快、更輕松地構建更強大的 AI 應用,讓您可以專注于為用戶打造卓越的體驗。我們將在未來幾個月內把 Gemini 2.0 引入 Android Studio、Chrome DevTools 和 Firebase 等平臺。開發者可以在 Gemini Code Assist中注冊以使用 Gemini 2.0 Flash,從而在 Visual Studio Code、IntelliJ、PyCharm 等流行 IDE 中體驗增強的代碼輔助功能。您可以訪問 ai.google.dev 開始使用,并關注 Google AI for Developers,獲取后續更新。
-
Gemini
+關注
關注
0文章
55瀏覽量
7606 -
API
+關注
關注
2文章
1504瀏覽量
62163 -
AI
+關注
關注
87文章
31107瀏覽量
269435 -
開發者
+關注
關注
1文章
580瀏覽量
17035
原文標題:為開發者開啟 Gemini 時代新篇章
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論