瑜伽常識(shí) /MANUAL
j9九游會(huì)一招鮮還是全都要?谷歌開發(fā)者大會(huì)連出22招反擊OpenAI
j9九游會(huì)一招鮮還是全都要?谷歌開發(fā)者大會(huì)連出22招反擊OpenAI面對(duì)OpenAI搞出突然發(fā)布的精準(zhǔn)“狙擊”,北京時(shí)間5月15日凌晨,谷歌在其一年一度的I/O開發(fā)者大會(huì)上一連介紹了22項(xiàng)新功能/產(chǎn)品,意圖使用“多點(diǎn)開花”的戰(zhàn)術(shù)從OpenAI搶回被奪去的用戶注意力。
相比5月14日,OpenAI用一場(chǎng)26分鐘的線o帶來(lái)的驚艷交互能力,谷歌開發(fā)者大會(huì)的現(xiàn)場(chǎng)演講持續(xù)了1小時(shí)52分鐘,各產(chǎn)品線負(fù)責(zé)人輪番登場(chǎng),展示了谷歌在智能助理、視頻生成、圖像生成、音樂創(chuàng)作、AI搜索等多個(gè)方面的能力,相關(guān)的新功能、新升級(jí)多達(dá)22項(xiàng)。
新京報(bào)貝殼財(cái)經(jīng)記者瀏覽整個(gè)發(fā)布會(huì)發(fā)現(xiàn),谷歌本次推出了不乏令人眼前一亮的新功能和新理念,如通過手機(jī)攝像頭或AR眼鏡幫助主人解答問題的智能助手Project Astra;對(duì)標(biāo)Sora的視頻大模型Veo;新的AI搜索方式如ask Photos(問照片)功能,以及將Gemini直接植入安卓底層架構(gòu)等。
不過,作為老牌搜索引擎以及上一屆AI領(lǐng)軍人物,谷歌也沒有忘記自己做搜索的“初心”,谷歌搜索業(yè)務(wù)主管麗茲·里德(Liz Reid)在現(xiàn)場(chǎng)演示了一系列搜索與AI結(jié)合的新功能后留下了一句“問就行(just ask)”“谷歌可以幫你搜索、調(diào)查、計(jì)劃、頭腦風(fēng)暴……你只需要做一件事,就是問?!?/p>
發(fā)布會(huì)現(xiàn)場(chǎng),DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)展示了一段視頻。視頻中,拿著手機(jī)或戴著VR眼鏡的測(cè)試者一邊“看”周圍的景物,一邊對(duì)谷歌AI助手提問,例如“看到能發(fā)出聲音的東西就告訴我?!倍钶d大模型Gemini的智能助手Project Astra對(duì)答如流,如“這是一個(gè)音箱?!睖y(cè)試者直接在屏幕上對(duì)音箱的黑色喇叭上畫出了一道紅色箭頭:“這又叫什么?”“高頻揚(yáng)聲器。”
這段展示中,谷歌AI助手的效果堪比真人專家,甚至當(dāng)用戶看向窗外,智能助手立刻就說(shuō)出了用戶的詳細(xì)地址:“這兒顯然是倫敦的國(guó)王十字路口區(qū)域?!蓖瑫r(shí),其也可以理解繪畫和圖像,如可以對(duì)一個(gè)寫在白板上的系統(tǒng)流程圖給出意見“在服務(wù)器和數(shù)據(jù)庫(kù)間添加緩存可以提高速度”。
德米斯稱,Project Astra是自己期待了幾十年的AI助手的雛形,是通用 AI 的未來(lái),“AI個(gè)人助理可以通過連續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入組合到事件時(shí)間線中,并緩存這些信息以進(jìn)行有效回憶,從而更快地處理信息?!?/p>
谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)表示,谷歌計(jì)劃從今年開始將Astra的功能添加到其Gemini應(yīng)用程序及其產(chǎn)品中。不過,他也強(qiáng)調(diào),雖然最終目標(biāo)是“讓Astra在公司的軟件中實(shí)現(xiàn)無(wú)縫連接”,但該產(chǎn)品將被謹(jǐn)慎推出,并且“商業(yè)化之路將由質(zhì)量驅(qū)動(dòng)”。
不過,Astra似乎并未體現(xiàn)出GPT-4o在前一日展現(xiàn)的能夠讀懂用戶情緒的功能,而且OpenAI的直播為現(xiàn)場(chǎng)演示,而Astra的功能則僅體現(xiàn)在視頻里,當(dāng)然,德米斯信誓旦旦表示,演示視頻沒有經(jīng)過偽造或篡改。
皮查伊表示九游會(huì)j9官方網(wǎng)站,Project Astra的多媒體聊天功能將在今年晚些時(shí)候出現(xiàn)在Gemini聊天機(jī)器人上。
在谷歌智能助手的背后,谷歌大模型Gemini也有所升級(jí)。此次開發(fā)者大會(huì)上,皮查伊宣布了關(guān)于Gemini 1.5 Pro 的重大更新。首先,谷歌將 Gemini 1.5 Pro 的上下文長(zhǎng)度從原有的 100萬(wàn)tokens(語(yǔ)句單位)提升到了200萬(wàn)tokens,這一升級(jí)將極大地增強(qiáng)其數(shù)據(jù)處理能力,使得模型在處理更加復(fù)雜和龐大的數(shù)據(jù)時(shí)更加游刃有余。
升級(jí)后的 Gemini 1.5 Pro 在多項(xiàng)公共基準(zhǔn)測(cè)試中取得了顯著改進(jìn),特別是在圖像和視頻理解方面,展現(xiàn)出了先進(jìn)的性能。這一模型不僅能夠理解文本內(nèi)容,還能夠準(zhǔn)確地解讀圖像和視頻中的信息。
谷歌還推出了針對(duì)速度和效率進(jìn)行了優(yōu)化的Gemini 1.5 Flash,這是能提供最快API(接口)速度的Gemini系列模型,它針對(duì)大規(guī)模、大批量、高頻任務(wù)進(jìn)行了優(yōu)化,服務(wù)更具成本效益,并具有100萬(wàn)tokens的長(zhǎng)文本窗口。
谷歌宣布, Gemini 1.5 Pro 將面向全球開發(fā)者開放。這意味著,無(wú)論是專業(yè)的開發(fā)人員還是業(yè)余的愛好者,都可以更加深入地了解和使用這一強(qiáng)大的模型。
除了對(duì)標(biāo)OpenAI前一日推出的智能助理新功能外,谷歌還展示了一系列AI生成大模型,包括對(duì)標(biāo)Sora的文生視頻大模型Veo,對(duì)標(biāo)Suno的AI音樂創(chuàng)作工具M(jìn)usic AI Sandbox,以及谷歌最高質(zhì)量文生圖模型Imagen 3。
其中,眾人最為期待的當(dāng)數(shù)谷歌的文生視頻大模型,當(dāng)?shù)旅姿剐愠鯲eo的圖標(biāo)時(shí),全場(chǎng)爆發(fā)出了最為熱烈的掌聲。
德米斯介紹,Veo是視頻生成領(lǐng)域技術(shù)的集大成者,包含了多年來(lái)谷歌開發(fā)的生成查詢網(wǎng)絡(luò)的各類技術(shù)。只需一個(gè)文本、圖像或視頻提示,Veo就能生成和編輯70秒以上不同視覺風(fēng)格的高質(zhì)量1080p視頻,并且還可以任意延長(zhǎng)視頻長(zhǎng)度。
谷歌在發(fā)布會(huì)現(xiàn)場(chǎng)展示的Veo生成視頻為一組汽車從賽博朋克風(fēng)格的黑夜行駛至現(xiàn)實(shí)風(fēng)白天的鏡頭,該段視頻在黑夜部分較為模糊,白天部分則足夠清晰,質(zhì)量很高。不過,財(cái)經(jīng)記者注意到,該視頻的大部分時(shí)間都為汽車尾部跟隨視角,視頻的表現(xiàn)質(zhì)量相對(duì)而言不如Sora更精致且有更多不同角度的鏡頭。
根據(jù)宣傳視頻,電影導(dǎo)演也用到了Veo,“Veo幫我們把靈感變成現(xiàn)實(shí)。”電影導(dǎo)演說(shuō),“人工智能可以幫我們快速發(fā)現(xiàn)構(gòu)思中的錯(cuò)誤并快速糾正,提高效率?!惫雀璺矫姹硎荆瑧{借對(duì)自然語(yǔ)言和視覺語(yǔ)義的深入理解,Veo 模型在理解視頻內(nèi)容、渲染高清圖像、模擬物理原理等方面都有所突破。Veo 生成的視頻能夠準(zhǔn)確、細(xì)致地表達(dá)用戶的創(chuàng)作意圖。
從5月15日開始,谷歌會(huì)為一些創(chuàng)作者在 VideoFX中提供預(yù)覽版 Veo,創(chuàng)作者可以加入谷歌的等待名單。谷歌還將把Veo的一些功能引入到了油管短視頻等產(chǎn)品中。
值得注意的是,針對(duì)之前傳出的OpenAI依賴油管視頻內(nèi)容訓(xùn)練Sora模型的消息(谷歌是油管的母公司),皮查伊稱,如果谷歌確定了這一消息的真實(shí)性,谷歌將要“解決這個(gè)問題”。
皮查伊在演講中提到,Gemini帶來(lái)的最令人興奮的變革之一是在Google搜索中?!拔覀冏畲蟮耐顿Y和創(chuàng)新領(lǐng)域之一是我們的創(chuàng)始產(chǎn)品——搜索?!逼げ橐粱仡櫍?5年前谷歌就創(chuàng)建了搜索,如今Gemini時(shí)代,搜索也提升到了全新的水平。
皮查伊在現(xiàn)場(chǎng)展示了新功能“問照片”。當(dāng)用戶在停車場(chǎng)付費(fèi)卻忘記了車牌號(hào)碼時(shí),之前可能會(huì)在手機(jī)照片中搜索關(guān)鍵字,瀏覽大批過往照片來(lái)尋找車牌。但現(xiàn)在,谷歌相冊(cè)足夠聰明,可以根據(jù)位置、多年來(lái)在照片中出現(xiàn)的次數(shù)以及其他數(shù)據(jù)來(lái)確定哪輛車是預(yù)期的車輛,并在文本回復(fù)中返回實(shí)際車牌號(hào)以及驗(yàn)證它的圖像。
另一個(gè)新功能則是AI概述(AI Overview),該功能相比傳統(tǒng)搜索引擎的結(jié)果,能為用戶呈現(xiàn)出完整的包括觀點(diǎn)、見解、鏈接的答案,用戶在搜索框輸入問題,即可得到一個(gè)AI總結(jié)的答案,且能處理超長(zhǎng)問題。
如用戶想找一個(gè)合適的瑜伽或普拉提工作室,需要同時(shí)考慮時(shí)間、價(jià)格、距離等因素。AI搜索就可以幫助用戶提煉整合信息并呈現(xiàn)在AI搜索概述中,最終可以顯示出波士頓最佳瑜伽工作室的優(yōu)惠詳情、從家過去的步行時(shí)間,為用戶節(jié)省數(shù)個(gè)小時(shí)的時(shí)間。這一功能也適用在出行、聚會(huì)等規(guī)劃上,或是餐飲計(jì)劃的制定等。
皮查伊說(shuō),谷歌的AI搜索概述有三大獨(dú)特優(yōu)勢(shì):實(shí)時(shí)信息、排名和質(zhì)量體系、Gemini模型能力。而AI概述功能將陸續(xù)面向美國(guó)及各國(guó)用戶開放。
此外,谷歌還將很快推出視頻搜索功能。搜索產(chǎn)品副總裁姚露絲(Rose Yao)現(xiàn)場(chǎng)演示了通過手機(jī)攝像頭拍攝一個(gè)壞掉的留聲機(jī)后再問谷歌問題的方式,得到了這架留聲機(jī)壞在哪里,如何維修等回復(fù)。
值得注意的是,作為安卓系統(tǒng)的開發(fā)方,谷歌表示要做“系統(tǒng)級(jí)AI”,即把Gemini用在安卓系統(tǒng)的底層。當(dāng)Gemini在系統(tǒng)級(jí)層面運(yùn)行,用戶將不用安裝任何AI應(yīng)用,而是直接在手機(jī)操作系統(tǒng)里享受相關(guān)功能。
比如,用戶在看視頻的時(shí)候,手機(jī)可以彈出提示,詢問是不是想了解關(guān)于這個(gè)視頻的問題,當(dāng)用戶詢問視頻中的細(xì)節(jié)時(shí),Gemini可以直接從視頻中找到答案。
谷歌特別強(qiáng)調(diào),這些體驗(yàn)只在安卓手機(jī)中擁有,似乎在和OpenAI使用蘋果手機(jī)和電腦進(jìn)行演示“針鋒相對(duì)”。谷歌和OpenAI的“神仙打架”將落地到操作系統(tǒng)端繼續(xù)對(duì)抗。
不過,皮查伊在會(huì)后采訪中也表示,谷歌也不排除與保持合作關(guān)系,“我們一直致力于為生態(tài)系統(tǒng)提供出色的體驗(yàn),我相信我們有很多方法來(lái)確保我們的產(chǎn)品是可訪問的。今天,我們看到AI概述已經(jīng)成為iOS上的一個(gè)受歡迎的功能,所以我們將繼續(xù)努力?!?/p>