北京時間5月21日,谷歌開發者大會(Google I/O)上公布了在AI技術上的最新進展,從基礎模型升級到生成式內容工具推出,再到硬件更新,標志著谷歌將AI技術融入其生態系統的進程又邁出重要一步。
一、Gemini模型升級,多模態能力顯著提升
核心亮點仍是Gemini模型。Gemini 2.5 Pro 和 Flash 模型全面支持視聽輸入和原生音頻輸出對話,開發者可通過Live API 預覽版構建和微調對話體驗的音調、口音和說話風格等。Gemini還可作為Chatbot登錄Chrome瀏覽器,幫助用戶快速理解頁面上下文并完成任務。其中,Deep Think模式引入增強型推理機制,在處理數學、編程和多模態任務時,能夠在回答前充分考慮多種可能性,顯著提升了模型的推理能力。
二、生成式內容工具再升級
谷歌推出的Veo 3視頻生成模型支持原生音頻生成,不僅能夠生成高清視頻,還可為視頻添加背景音樂、音效甚至對白,解決了以往AI視頻生成中“有影無聲”的問題,極大提升了AI視頻的質量和真實感。
Imagen 4圖像生成模型在圖像細節和文本輸出質量上有了質的飛躍。谷歌表示,該模型能夠渲染織物、水滴和動物皮毛等精細細節,支持照片級寫實和抽象等多種風格,并可創建各種縱橫比、高達2K分辨率的圖像,為創作者提供了更強大的圖像生成工具。
三、AI代理助力生活便捷化
谷歌的實驗性AI代理工具Project Mariner迎來更新,其工作方式得到優化,可一次承擔近十幾項任務。例如,用戶無須訪問第三方網站,即可通過該工具購買棒球比賽門票或在線購買雜貨,為用戶的日常生活帶來了極大的便利。
谷歌還推出了全新視頻通話平臺Google Beam,硬件包括一個六攝像頭陣列和定制的光場顯示器,軟件上一個AI模型將不同角度指向用戶的攝像頭視頻轉換為3D渲染,讓用戶可以像處于同一個會議室一樣互相交談。谷歌的Beam可實現毫米級頭部跟蹤和60fps視頻流。當與Google Meet一起使用時,Beam提供實時語音翻譯功能,可保留說話者的聲音、語調和表情。
四、XR智能眼鏡亮相
谷歌與Xreal、Samsung等品牌合作,推出了集成AI助手功能的Android XR智能眼鏡。這款眼鏡支持實時翻譯、導航和信息提示等功能,是谷歌在可穿戴設備領域的新嘗試,為用戶提供了全新的交互體驗和便捷的信息獲取方式。
針對各項AI升級功能,谷歌推出了每月249.99美元的AI Ultra訂閱計劃,為用戶提供Gemini 2.5 Pro的Deep Think模式、Veo 3視頻生成工具等高級AI功能的訪問權限,并提供更高的使用限制和額外存儲空間。
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。