谷歌向微軟英特爾全面宣戰(zhàn)!首款自研Arm CPU,最強(qiáng)大模型公測(cè),AI視頻對(duì)壘Sora
昨天的谷歌Next大會(huì)可是太精彩了,谷歌一連放出不少炸彈。
- 升級(jí)「視頻版」Imagen 2.0,下場(chǎng)AI視頻模型大混戰(zhàn)
- 發(fā)布時(shí)被Sora光環(huán)掩蓋的Gemini 1.5 Pro,正式開(kāi)放
- 首款A(yù)rm架構(gòu)CPU發(fā)布,全面對(duì)壘微軟/亞馬遜/英偉達(dá)/英特爾
此外,谷歌的AI超算平臺(tái)也進(jìn)行了一系列重大升級(jí)——最強(qiáng)TPU v5p上線、升級(jí)軟件存儲(chǔ),以及更靈活的消費(fèi)模式,都讓谷歌云在AI領(lǐng)域的競(jìng)爭(zhēng)力進(jìn)一步提升。
連放大招的谷歌,必不會(huì)在這場(chǎng)AI大戰(zhàn)中退讓。
圖片
從OpenAI跳槽的研究員Logan Kilpatrick,也在第一時(shí)間轉(zhuǎn)發(fā)了Gemini 1.5 Pro的消息??吹贸鰜?lái),他已經(jīng)是一名真真正正的谷歌員工了
在短短兩個(gè)月內(nèi),谷歌一鍵將多種前沿模型引入Vertex AI,包括自家的Gemini 1.0 Pro、輕量級(jí)開(kāi)源模型Gemma,以及Anthropic的Claude 3。
Gemini 1.5 Pro,人人可用了!
傳說(shuō)中的谷歌最強(qiáng)殺器Gemini 1.5 Pro,已經(jīng)在Vertex AI上開(kāi)放公測(cè)了!
圖片
開(kāi)發(fā)者們終于可以親自體驗(yàn)到,前所未有的最長(zhǎng)上下文窗口是什么感覺(jué)。
Gemini 1.5 Pro的100萬(wàn)token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。
圖片
當(dāng)然,超長(zhǎng)上下文在無(wú)縫處理輸入信息方面,仍然有一定的局限性。
但無(wú)論如何,它讓對(duì)大量數(shù)據(jù)進(jìn)行本機(jī)多模態(tài)推理成為可能。從此,多海量的數(shù)據(jù),都可以進(jìn)行全面、多角度的分析。
自然而然地,我們可以正式用Gemini 1.5 Pro開(kāi)發(fā)新的用例了。比如AI驅(qū)動(dòng)的客戶(hù)服務(wù)智能體和在線學(xué)術(shù)導(dǎo)師,分析復(fù)雜的金融文件,發(fā)現(xiàn)文檔中的遺漏,查詢(xún)整個(gè)代碼庫(kù),或者自然語(yǔ)言數(shù)據(jù)集。
現(xiàn)在,已經(jīng)有無(wú)數(shù)企業(yè)用Gemini 1.5 Pro真實(shí)地改變了自己的工作流。
比如,軟件供應(yīng)商思愛(ài)普用它來(lái)為客戶(hù)提供與業(yè)務(wù)相關(guān)的AI解決方案;日本廣播公司TBS用它實(shí)現(xiàn)了大型媒體檔案的自動(dòng)元數(shù)據(jù)標(biāo)注,極大提高了資料搜索的效率;初創(chuàng)公司Replit,則用它更高效、更快、更準(zhǔn)確地生成、解釋和轉(zhuǎn)換代碼。
加入音頻處理能力
不僅如此,Gemini 1.5 Pro現(xiàn)在還增加了音頻功能。
它能處理音頻流,包括語(yǔ)音和視頻中的音頻。
這直接就無(wú)縫打破了文本、圖像、音頻和視頻的邊界,一鍵開(kāi)啟多模態(tài)文件之間的無(wú)縫分析。
在財(cái)報(bào)電話會(huì)議中,一個(gè)模型就能對(duì)多種媒介進(jìn)行轉(zhuǎn)錄、搜索、分析、提問(wèn)了。
圖片
Imagen 2.0能生視頻了:4秒24幀640p
并且,這次谷歌也下場(chǎng)開(kāi)卷AI模型了!
AI生圖工具Imagen,現(xiàn)在可以生成視頻了。
只用文本提示,Imagen就能創(chuàng)作出實(shí)時(shí)的動(dòng)態(tài)圖像,幀率為每秒24幀,分辨率達(dá)到360x640像素,持續(xù)時(shí)間為4秒。
圖片
谷歌表示,Imagen在處理自然景觀、食物圖像和動(dòng)物等主題時(shí),表現(xiàn)尤為出色。
它不僅能夠創(chuàng)造出一系列多樣的攝影角度和動(dòng)作,還能確保整個(gè)序列的視覺(jué)一致性。
同時(shí),這些動(dòng)態(tài)圖像也配備了安全過(guò)濾和數(shù)字水印技術(shù)。
圖像編輯
并且,谷歌對(duì)Imagen 2.0也升級(jí)了圖像編輯功能,增加了圖像修復(fù)、擴(kuò)展、數(shù)字水印功能。
想把圖中這個(gè)男人去掉?一鍵圈出,他就沒(méi)了!并且模型還自動(dòng)補(bǔ)全了山上的背景。
圖片
想讓遠(yuǎn)處的山高一點(diǎn)?Imagen 2.0也能輕松做到。
圖片
另外,它還可以幫我們擴(kuò)大圖片邊緣,獲得更廣闊的視角。
圖片
而數(shù)字水印功能,由Google DeepMind的SynthID強(qiáng)力驅(qū)動(dòng)。
這樣,用戶(hù)為就可以圖片和視頻生成隱形水印,并且驗(yàn)證它們是否由Imagen所生成。
全新代碼模型CodeGemma發(fā)布,核心團(tuán)隊(duì)華人占6成
最新發(fā)布輕量級(jí)代碼生成模型CodeGemma,采用的是與Gemma系列相同的架構(gòu),并進(jìn)一步在超過(guò)5000億個(gè)代碼Token上進(jìn)行了訓(xùn)練。
目前, CodeGemma已經(jīng)全系加入Vertex AI。
圖片
論文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
圖片
具體來(lái)說(shuō),CodeGemma共有三個(gè)模型檢查點(diǎn)(Checkpoint):
CodeGemma 7B的預(yù)訓(xùn)練版本(PT)和指令微調(diào)版本(IT)在理解自然語(yǔ)言方面表現(xiàn)出色,具有出眾的數(shù)學(xué)推理能力,并且在代碼生成能力上與其他開(kāi)源模型不相上下。
CodeGemma 2B則是一個(gè)SOTA的代碼補(bǔ)全模型,可以進(jìn)行快速的代碼填充和開(kāi)放式生成。
圖片
預(yù)訓(xùn)練數(shù)據(jù)
CodeGemma的訓(xùn)練數(shù)據(jù)包括了來(lái)自網(wǎng)絡(luò)文檔、數(shù)學(xué)和代碼的5000億個(gè)Token(主要是英文)。
2B規(guī)模的模型完全使用代碼進(jìn)行訓(xùn)練,而7B規(guī)模的模型則采用了80%編程代碼外加20%自然語(yǔ)言的方式。
為了確保數(shù)據(jù)的質(zhì)量,谷歌對(duì)數(shù)據(jù)集進(jìn)行了去重和過(guò)濾,移除了可能影響評(píng)估的代碼樣本和一些個(gè)人或敏感信息。
此外,谷歌還對(duì)CodeGemma模型的預(yù)訓(xùn)練采用了一種改進(jìn)的中間填空(Fill-in-the-Middle, FIM)方法,以此來(lái)提升了模型的訓(xùn)練效果。
具體可以分為兩種模式:PSM(前綴-后綴-中間)和SPM(后綴-前綴-中間)。
圖片
圖片
指令微調(diào)
通過(guò)讓模型接觸各種數(shù)學(xué)問(wèn)題,可以提升它在邏輯推理和解決問(wèn)題方面的能力,這對(duì)編寫(xiě)代碼來(lái)說(shuō)是非常重要的。
為此,谷歌選用了多個(gè)主流的數(shù)學(xué)數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),包括:MATH、GSM8k、MathQA,以及合成數(shù)學(xué)數(shù)據(jù)。
在代碼方面,谷歌采用了合成代碼指令的方法來(lái)創(chuàng)建數(shù)據(jù)集,用于后續(xù)的監(jiān)督微調(diào)(SFT)和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)之中。
為了確保生成的代碼指令數(shù)據(jù)既有用又準(zhǔn)確,谷歌采取了以下方法:
- 示例生成:根據(jù)OSS-Instruct的方法,制作一系列獨(dú)立的問(wèn)題與答案對(duì);
- 后期過(guò)濾:利用大語(yǔ)言模型來(lái)篩選這些問(wèn)題與答案對(duì),評(píng)估它們的實(shí)用性和準(zhǔn)確性。
代碼補(bǔ)全
如表2所示,CodeGemma 2B在代碼補(bǔ)全場(chǎng)景下展現(xiàn)出了卓越的性能,尤其是在低延遲的表現(xiàn)上。
其中,推理速度更是比不少模型快了有2倍之多。
圖片
Python
HumanEval和Mostly Basic Python Problems的評(píng)估結(jié)果如表3所示。
與Gemma基礎(chǔ)模型相比,CodeGemma在編程領(lǐng)域的任務(wù)上表現(xiàn)明顯更強(qiáng)。
圖片
多種編程語(yǔ)言
BabelCode通常用來(lái)評(píng)估模型在多種編程語(yǔ)言中的代碼生成性能,結(jié)果如表4所示。
圖片
語(yǔ)言處理能力
圖3展示了多個(gè)領(lǐng)域的性能評(píng)估結(jié)果,包括問(wèn)答、自然語(yǔ)言處理以及數(shù)學(xué)推理。
可以看到,CodeGemma同樣有著Gemma基礎(chǔ)模型的自然語(yǔ)言處理能力,其PT和IT版本在性能上均優(yōu)于Mistral 7B和Llama2 13B——分別領(lǐng)先了7.2%和19.1%。
圖片
進(jìn)一步地,如表5所示,CodeGemma在數(shù)學(xué)推理方面,相比同等規(guī)模的模型有著更出色的表現(xiàn)。
圖片
推理建議
如圖4所示,在進(jìn)行代碼補(bǔ)全任務(wù)時(shí),比如函數(shù)補(bǔ)全、注釋文檔字符串生成或者導(dǎo)入模塊建議,應(yīng)當(dāng)按照一定的格式來(lái)設(shè)計(jì)輸入提示。
圖片
官宣自研Arm架構(gòu)CPU處理器Axion
圖片
此次Next大會(huì)上,谷歌還正式宣布,將自研首款基于Arm的CPU。
據(jù)稱(chēng)這款CPU處理器Axion,將提供比英特爾CPU更好的性能和能源的效率,其中性能提高50%,能源效率提高60%。
據(jù)悉,比起目前基于Arm的最快通用芯片,Axion的性能還要高出30%。
憑著這個(gè)新武器,谷歌也在AI軍備競(jìng)賽中,正式向微軟和亞馬遜宣戰(zhàn)!
圖片
新CPU Axion,顯然是谷歌跟隨亞馬遜AWS和微軟Azure的動(dòng)作——它也想自研處理器了。
Axion將幫助谷歌提高通用工作負(fù)載的性能,比如開(kāi)源數(shù)據(jù)庫(kù)、Web和應(yīng)用程序服務(wù)器、內(nèi)存緩存、數(shù)據(jù)分析引擎、媒體處理和AI訓(xùn)練。
由此,谷歌在開(kāi)發(fā)新的計(jì)算資源方面,又向前邁進(jìn)了一步。在今年晚些時(shí)候,Axion就可用于云服務(wù)了。
AI軍備競(jìng)賽加快,CPU重要性凸顯
對(duì)于AI軍備競(jìng)賽來(lái)說(shuō),像Axion這樣的CPU至關(guān)重要,因?yàn)樗芴嵘?xùn)練AI模型所需的算力。
要訓(xùn)練復(fù)雜的AI模型,就需要處理大型數(shù)據(jù)集,而CPU有助于更快地運(yùn)行這些數(shù)據(jù)集。
要說(shuō)此舉的最大的好處,那無(wú)疑就是——省錢(qián)!
眾所周知,購(gòu)買(mǎi)AI芯片的成本驚人,英偉達(dá)的Backwell芯片,預(yù)計(jì)售價(jià)在3萬(wàn)美元到4萬(wàn)美元之間。
圖片
現(xiàn)在,Axion芯片已經(jīng)在為YouTube 廣告、Google Earth引擎提供加持了。
而且,很快就可以在谷歌計(jì)算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、Cloud Batch等云服務(wù)中使用。
不僅如此,原本在使用Arm的客戶(hù),無(wú)需重新架構(gòu)或者重寫(xiě)應(yīng)用程序就可以輕松地遷移到Axion上來(lái)。
TPU v5p上線,與英偉達(dá)合作加速AI開(kāi)發(fā)
在此次Google Cloud Next 2024年會(huì)上,谷歌宣布:對(duì)自家超算平臺(tái)進(jìn)行大規(guī)模升級(jí)!
升級(jí)列表中的第一位,就是谷歌云的張量處理單元TPU v5p了。如今,該定制芯片全面向云客戶(hù)開(kāi)放。
圖片
谷歌的TPU,一直被用作英偉達(dá)GPU的替代品,用于AI加速任務(wù)。
作為下一代加速器,TPU v5p專(zhuān)門(mén)用于訓(xùn)練一些最大、最苛刻的生成式AI模型。其中,單個(gè)TPU v5p pod包含8,960個(gè)芯片,是TPU v4 pod芯片數(shù)量的兩倍之多。
另外,谷歌云還將和英偉達(dá)合作加速AI開(kāi)發(fā)——推出配備H100的全新A3 Mega VM虛擬機(jī),單芯片搭載高達(dá)800億個(gè)晶體管。
而且谷歌云還會(huì)將英偉達(dá)最新核彈Blackwell整合進(jìn)產(chǎn)品中,增強(qiáng)對(duì)高性能計(jì)算和AI工作負(fù)載的支持,尤其是以B200和GB200提供支持的虛擬機(jī)形式。
圖片
其中,B200專(zhuān)為「最苛刻的AI、數(shù)據(jù)分析和HPC工作負(fù)載而設(shè)計(jì)」。
而配備液冷的GB200,將為萬(wàn)億參數(shù)模型的實(shí)時(shí)LLM推理和大規(guī)模訓(xùn)練提供算力。
雖然現(xiàn)在萬(wàn)億參數(shù)的模型還不多(少量幾個(gè)選手是SambaNova和谷歌的Switch Transformer),但英偉達(dá)和Cerebras都在沖萬(wàn)億參數(shù)模型硬件了。
顯然,他們已經(jīng)預(yù)見(jiàn)到,AI模型的規(guī)模還會(huì)迅速擴(kuò)大。
軟件
在軟件方面,谷歌云推出了JetStream,這是一款針對(duì)LLM的吞吐量和內(nèi)存優(yōu)化了的推理引擎。
這個(gè)新工具可以提高開(kāi)源模型的單位美元性能,并與JAX和PyTorch/XLA框架兼容,從而降本增效。
存儲(chǔ)大戰(zhàn)
此外,谷歌的存儲(chǔ)解決方案也在不斷升級(jí)——不僅加速了AI訓(xùn)練和微調(diào),優(yōu)化了GPU和TPU的使用,還提高了能效和成本效益。
此次,谷歌推出的Hyperdisk ML,顯著縮短了模型加載時(shí)間,提高了吞吐量,并對(duì)AI推理和服務(wù)工作負(fù)載進(jìn)行了優(yōu)化。
不僅支持每個(gè)存儲(chǔ)卷承載2,500個(gè)實(shí)例,而且還提供了高達(dá)1.2TiB/s的數(shù)據(jù)吞吐量,性能直接超越微軟和AWS。
已發(fā)布的Cloud Storage FUSE,可將基礎(chǔ)模型的訓(xùn)練吞吐量提高2.9倍,性能提高2.2倍。
高性能并行文件系統(tǒng)Parallelstore可將訓(xùn)練速度提高到3.9倍,并將訓(xùn)練吞吐量提高到3.7倍。
而專(zhuān)為AI模型量身定制的Filestore系統(tǒng),允許在集群中的所有GPU和TPU之間同時(shí)訪問(wèn)數(shù)據(jù),將訓(xùn)練時(shí)間縮短56%。
總之,此次谷歌超算的大規(guī)模更新表明,谷歌在努力為客戶(hù)帶來(lái)實(shí)際的商業(yè)利益,創(chuàng)建無(wú)縫集成、高效可擴(kuò)展的AI訓(xùn)練和推理環(huán)境。
參考資料:
https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
https://www.businessinsider.com/google-ramped-up-ai-competition-against-microsoft-amazon-2024-4
https://www.theverge.com/2024/4/9/24125074/google-axion-arm-cpu-ai-chips-cloud-server-data-center
https://blogs.nvidia.com/blog/nvidia-google-cloud-ai-development/
https://venturebeat.com/ai/google-upgrades-its-ai-hypercomputer-for-enterprise-use-at-cloud-next/