北京時(shí)間5月21日,谷歌開發(fā)者大會(huì)(Google I/O)上公布了在AI技術(shù)上的最新進(jìn)展,從基礎(chǔ)模型升級(jí)到生成式內(nèi)容工具推出,再到硬件更新,標(biāo)志著谷歌將AI技術(shù)融入其生態(tài)系統(tǒng)的進(jìn)程又邁出重要一步。
一、Gemini模型升級(jí),多模態(tài)能力顯著提升
核心亮點(diǎn)仍是Gemini模型。Gemini 2.5 Pro 和 Flash 模型全面支持視聽輸入和原生音頻輸出對話,開發(fā)者可通過Live API 預(yù)覽版構(gòu)建和微調(diào)對話體驗(yàn)的音調(diào)、口音和說話風(fēng)格等。Gemini還可作為Chatbot登錄Chrome瀏覽器,幫助用戶快速理解頁面上下文并完成任務(wù)。其中,Deep Think模式引入增強(qiáng)型推理機(jī)制,在處理數(shù)學(xué)、編程和多模態(tài)任務(wù)時(shí),能夠在回答前充分考慮多種可能性,顯著提升了模型的推理能力。
二、生成式內(nèi)容工具再升級(jí)
谷歌推出的Veo 3視頻生成模型支持原生音頻生成,不僅能夠生成高清視頻,還可為視頻添加背景音樂、音效甚至對白,解決了以往AI視頻生成中“有影無聲”的問題,極大提升了AI視頻的質(zhì)量和真實(shí)感。
Imagen 4圖像生成模型在圖像細(xì)節(jié)和文本輸出質(zhì)量上有了質(zhì)的飛躍。谷歌表示,該模型能夠渲染織物、水滴和動(dòng)物皮毛等精細(xì)細(xì)節(jié),支持照片級(jí)寫實(shí)和抽象等多種風(fēng)格,并可創(chuàng)建各種縱橫比、高達(dá)2K分辨率的圖像,為創(chuàng)作者提供了更強(qiáng)大的圖像生成工具。
三、AI代理助力生活便捷化
谷歌的實(shí)驗(yàn)性AI代理工具Project Mariner迎來更新,其工作方式得到優(yōu)化,可一次承擔(dān)近十幾項(xiàng)任務(wù)。例如,用戶無須訪問第三方網(wǎng)站,即可通過該工具購買棒球比賽門票或在線購買雜貨,為用戶的日常生活帶來了極大的便利。
谷歌還推出了全新視頻通話平臺(tái)Google Beam,硬件包括一個(gè)六攝像頭陣列和定制的光場顯示器,軟件上一個(gè)AI模型將不同角度指向用戶的攝像頭視頻轉(zhuǎn)換為3D渲染,讓用戶可以像處于同一個(gè)會(huì)議室一樣互相交談。谷歌的Beam可實(shí)現(xiàn)毫米級(jí)頭部跟蹤和60fps視頻流。當(dāng)與Google Meet一起使用時(shí),Beam提供實(shí)時(shí)語音翻譯功能,可保留說話者的聲音、語調(diào)和表情。
四、XR智能眼鏡亮相
谷歌與Xreal、Samsung等品牌合作,推出了集成AI助手功能的Android XR智能眼鏡。這款眼鏡支持實(shí)時(shí)翻譯、導(dǎo)航和信息提示等功能,是谷歌在可穿戴設(shè)備領(lǐng)域的新嘗試,為用戶提供了全新的交互體驗(yàn)和便捷的信息獲取方式。
針對各項(xiàng)AI升級(jí)功能,谷歌推出了每月249.99美元的AI Ultra訂閱計(jì)劃,為用戶提供Gemini 2.5 Pro的Deep Think模式、Veo 3視頻生成工具等高級(jí)AI功能的訪問權(quán)限,并提供更高的使用限制和額外存儲(chǔ)空間。
幫企客致力于為您提供最新最全的財(cái)經(jīng)資訊,想了解更多行業(yè)動(dòng)態(tài),歡迎關(guān)注本站。鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。