搶先OpenAI發(fā)布Her,馬斯克圍觀的端到端實(shí)時(shí)音頻模型,前FAIR團(tuán)隊(duì)創(chuàng)業(yè)打造
就在剛剛,法國創(chuàng)業(yè)團(tuán)隊(duì)搶先OpenAI發(fā)布端到端實(shí)時(shí)音頻模型——Moshi。
官方直接秀了段現(xiàn)場演示:
好家伙,感覺語速比真人還快!甚至還學(xué)會了搶答:
很多時(shí)候我甚至還沒問完它就回答了我的問題!
圖片
Moshi主打發(fā)布即公開(免費(fèi)),PyTorch之父也來祝賀,并透露團(tuán)隊(duì)成員來自他在FAIR的前同事。
圖片
是的,Moshi也將走開源路線,網(wǎng)友們齊聚一堂吶喊:
圖片
終于有了能直接上手的東西,網(wǎng)友們自然也是火速開啟試玩。
這不,有網(wǎng)友就發(fā)現(xiàn)打工人Moshi竟主動抱怨:
工作太忙了,我累了
圖片
看來天下的打工人都一樣。[doge]
所以,喊累的Moshi究竟都會干啥?干的咋樣?
Moshi技能拉滿
首先,Moshi能夠帶著70種情緒和風(fēng)格講話。
比如,用濃重的法國口音朗誦詩歌、假扮船長冒險(xiǎn),或者涼颼颼地講鬼故事……
而且谷歌DeepMind研究員、ViT作者Lucas Beyer還觀察到:
Moshi基本沒有延遲,甚至還打斷了演講者幾次
圖片
不過Beyer也指出,在蘋果電腦(MacBook)上的模型偶爾會錯(cuò)誤地拒絕一些實(shí)時(shí)請求。
也許Kyutai對安全調(diào)整有點(diǎn)太急切了。
然而,這也證實(shí)了演示確實(shí)是實(shí)時(shí)的,甚至可能是自由發(fā)揮的。
圖片
另外,Moshi作為一款完全端到端的音頻模型,能在普通筆記本上使用。
Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf點(diǎn)出了其中關(guān)鍵:
模型訓(xùn)練流程和架構(gòu)設(shè)計(jì)簡單且極具可擴(kuò)展性,像Kyutai這樣只有8人以上的小團(tuán)隊(duì)也能在4個(gè)月內(nèi)建成。合成數(shù)據(jù)在這里起到了巨大的推動作用。
專注于本地設(shè)備,Moshi將無處不在。前沿模型構(gòu)建者沒有動機(jī)讓你在本地運(yùn)行較小的模型(按令牌計(jì)價(jià)……),但像Kyutai這樣的非營利組織有著非常不同的動機(jī)。
在保持Llama 8B或以上答案質(zhì)量的同時(shí),將延遲降至300毫秒以下,是提升交互性的關(guān)鍵因素,這是顛覆性的。
圖片
Kyutai的CEO Patrick Pérez也提到:
Moshi可以“邊說話邊思考”。
我們相信Moshi具有巨大潛力,可以改變我們與機(jī)器交流的方式。
不過也有網(wǎng)友試過后“質(zhì)疑”發(fā)布會是否造假:
圖片
在他的演示中,Moshi已處于“精神崩潰”邊緣,一直在向小哥抱怨壓力大,導(dǎo)致小哥完全插不進(jìn)話。
,時(shí)長02:31
這一抱怨也引來馬斯克的圍觀:
圖片
在小哥的評論區(qū),網(wǎng)友竟紛紛對Moshi表示同情。
圖片
好的,只有小哥受傷的世界達(dá)成了。
誰發(fā)布了Moshi?
Moshi背后的團(tuán)隊(duì)是Kyutai,一家位于巴黎的人工智能研究實(shí)驗(yàn)室(非營利)。
Kyutai成立于2023年11月,致力于研究通用AI,投資主要來自歐洲實(shí)業(yè)資本。
公開資料顯示,Kyutai由Xavier Niel(法國億萬富翁、法國電信集團(tuán)Iliad首席執(zhí)行官)、Rodolphe Saadé (法國物流巨頭達(dá)飛集團(tuán)CEO)和Eric Schmidt (前谷歌CEO)各出資1億歐元共同創(chuàng)立。
圖片
關(guān)于Moshi,官方介紹它由該實(shí)驗(yàn)室的8人研究團(tuán)隊(duì)耗時(shí)6個(gè)月從零開發(fā)。
圖片
在Kyutai官網(wǎng),其團(tuán)隊(duì)顯示有6位成員。
圖片
首席執(zhí)行官Patrick Pérez,曾在微軟擔(dān)任研究員,谷歌學(xué)術(shù)主頁顯示其文章被引用4w+,研究領(lǐng)域包括計(jì)算機(jī)視覺、圖像處理、機(jī)器學(xué)習(xí)和人工智能。
圖片
Edouard Grave,職位名稱為Chief Scaling Officer(CSO),可能是一個(gè)專為大模型時(shí)代設(shè)置的職位了。谷歌學(xué)術(shù)顯示,他的主要研究領(lǐng)域包括機(jī)器學(xué)習(xí)、自然語言處理和人工智能。
圖片
首席科學(xué)家Hervé Jégou,加入Kyutai前先后在Facebook AI(8年3個(gè)月)和Meta(4年)擔(dān)任研究科學(xué)家,其研究領(lǐng)域涉及機(jī)器學(xué)習(xí)、人工智能、計(jì)算機(jī)視覺等。
圖片
首席技術(shù)官Laurent Mazaré,GitHub收獲了1.9K關(guān)注者,曾在DeepMind工作過1年,研究領(lǐng)域涉及深度學(xué)習(xí)、金融數(shù)學(xué)、理論計(jì)算機(jī)科學(xué)、密碼學(xué)和安全等。
圖片
Neil Zeghidour,職位名稱為Chief Modelling Officer(CMO),這也不是一個(gè)常見的企業(yè)高層管理職位。加入Kyutai前,他先后在Facebook(3年5個(gè)月,語音識別方向)和谷歌(4年9個(gè)月,一開始是Google Brain團(tuán)隊(duì)的研究科學(xué)家)工作,研究領(lǐng)域包括機(jī)器學(xué)習(xí)、語音識別和音頻理解等。
圖片
Alexandre Défossez,職位名稱為Founding Scientist,加入Kyutai前是巴黎FAIR的一名研究科學(xué)家。研究重點(diǎn)是多模態(tài)LLMs,領(lǐng)導(dǎo)了音樂生成研究,并共同領(lǐng)導(dǎo)了AudioCraft框架(涉及Meta開源的一系列音頻模型和訓(xùn)練方法)開發(fā)。他還與Jean Rémi King博士合作,研究非侵入性腦成像的腦活動解碼。
圖片
One More Thing
當(dāng)Moshi已經(jīng)飛入百姓家時(shí),鴿王OpenAI再次推遲上線ChatGPT語音助手。
OpenAI表示,需要確保它能安全有效地處理來自數(shù)百萬用戶的請求,還需要一個(gè)月才能達(dá)到公司的發(fā)布標(biāo)準(zhǔn)。
圖片
嗯,估計(jì)要到7月底了!對此網(wǎng)友打趣道:
Kyutai推出Moshi基本上等于,把OpenAI還沒公開發(fā)布的客戶產(chǎn)品開源了,向Kyutai致敬。
圖片
愣著干啥?
試玩地址:https://moshi.chat/?queue_id=talktomoshi參考鏈接:
[1]https://x.com/soumithchintala/status/1808593284010213422[2]https://x.com/Thom_Wolf/status/1808532365720834085[3]https://x.com/benhylak/status/1808611023123067357[4]https://x.com/giffmana/status/1808482848808010149