8人小團隊單挑OpenAI,半年仿出GPT-4o,還開源了
最近,一個對標 GPT-4o 的開源實時語音多模態(tài)模型火了。
這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai,模型名為 Moshi,具備聽、說、看的多模態(tài)功能。圖靈獎得主 Yann LeCun 轉發(fā)說道:「Moshi 能聽懂帶有法國口音的英語?!箵?,該團隊開發(fā)這個模型僅用了 6 個月。
的確,在研究團隊演示的視頻中,我們發(fā)現(xiàn) Moshi 可以非常流利地回答人們提出的問題,進行日常對話交流,甚至可以猜出提問者的意圖。
例如,當提問者說「下個月打算去攀登珠穆朗瑪峰,我在想......」,提問者話說到一半,Moshi 就說道:「太了不起了,你需要帶些什么裝備呢」,提問者則表示:「這正是我想討論的話題,你覺得我需要帶些什么呢」。于是,Moshi 給出了一些攀登設備的專業(yè)建議,并回答了關于注意事項的問題:
我們發(fā)現(xiàn) Moshi 還會開些小玩笑:「你肯定不想穿著涼鞋去爬山」。
研究團隊還用各種說話風格展示了 Moshi 表達和理解情緒的能力。例如,讓 Moshi 用法國口音誦讀詩句:
不過這首詩太長了,研究人員打斷了 Moshi 的朗誦,Moshi 立即停了下來。
作為一個多模態(tài)大模型,Moshi 的角色扮演能力也是很強的,以海盜身份講述海上冒險故事,那也是張口就來:
當提問者問道海盜船叫什么名字,Moshi 還反客為主,反問提問者:「你叫什么名字,是什么讓你過上了海盜生活?」不得不說,提問者此時顯得有些被動了。
最后,研究人員還讓 Moshi 用低聲細語講一個神秘的故事:
不過,Moshi 講的有些陶醉,研究人員多次打斷未果。最后還是研究人員壓低聲音,用跟 Moshi 類似的語氣提出下一個問題,才讓 Moshi 繼續(xù)回答了下一個問題,這大概就是用魔法打敗魔法吧。繼續(xù)回答問題時,研究人員表示對一些細節(jié)沒有興趣,Moshi 還是自顧自地繼續(xù)講,直到在大家的掌聲中,它才真的停止。
Moshi 的背后:合成數據立大功
Moshi 的設計目的是理解和表達情感,具有諸如用不同口音(包括法語)說話的能力。它可以聆聽和生成音頻和語音,同時保持文本思維的無縫流動。Moshi 的一個突出特點是能夠同時處理兩個音頻流,使其可以同時聆聽和說話。這種實時交互基于文本和音頻混合的聯(lián)合預訓練,利用來自 Helium 的合成文本數據,這是一個由 Kyutai 開發(fā)的 70 億參數語言模型。
Moshi 的微調過程涉及使用文本到語音 (TTS) 技術轉換的 100,000 個「口語風格」的合成對話。模型的語音在一個單獨的 TTS 模型生成的合成數據上進行訓練,實現(xiàn)了令人印象深刻的 200 毫秒端到端延遲。值得注意的是,Kyutai 還開發(fā)了一個可以在 MacBook 或消費級 GPU 上運行的 Moshi 小型版本,使其可以被更廣泛的群體使用。
Kyutai 強調負責任的 AI 使用,通過嵌入水印來檢測 AI 生成的音頻,這一功能目前仍在開發(fā)中。將 Moshi 作為開源項目發(fā)布,彰顯了 Kyutai 對透明度和 AI 社區(qū)內協(xié)作開發(fā)的承諾。
Moshi 的核心是一個處理語音輸入和輸出的 70 億參數多模態(tài)語言模型。該模型采用雙通道輸入 / 輸出系統(tǒng),同時生成文本 token 和音頻編解碼器。基礎文本語言模型 Helium 7B 從零開始訓練,然后與文本和音頻編解碼器聯(lián)合訓練。語音編解碼器基于 Kyutai 內部的 Mimi 模型,具有 300 倍的壓縮系數,可捕捉語義和聲音信息。
訓練 Moshi 涉及嚴格的過程,微調了 100,000 個高度詳細的帶有情感和風格注釋的轉錄結果。文本轉語音引擎支持 70 種不同的情緒和風格,是根據一位名叫 Alice 的有執(zhí)照的聲音達人錄制的 20 個小時的音頻進行微調的。該模型具有適應性,可以在不到 30 分鐘的音頻中進行微調。
Moshi 的部署展示了其效率。演示模型托管在 Scaleway 和 hug Face 平臺上,可以在 24 GB 的 VRAM 上處理兩個 batch size。它支持各種后端,包括 CUDA、Metal 和 CPU,并受益于 Rust 對推理代碼的優(yōu)化。增強的 KV 緩存和提示緩存有望進一步提高性能。
展望未來,Kyutai 對 Moshi 有雄心勃勃的計劃。團隊計劃發(fā)布技術報告和開放模型版本,包括推理代碼庫、7B 模型、音頻編解碼器和完整的優(yōu)化堆棧。未來版本如 Moshi 1.1、1.2 和 2.0 將根據用戶反饋改進模型。Moshi 的許可旨在盡可能寬松,促進廣泛采用和創(chuàng)新。
總之,Moshi 體現(xiàn)了小型專注團隊在 AI 技術方面取得非凡進展的潛力。這個模型為研究輔助、頭腦風暴、語言學習等開辟了新途徑,展示了 AI 在端側部署時的變革力量。
LeCun 坐鎮(zhèn),三十年 AI 老兵帶隊,
這是一支小而精的歐洲團隊
Kyutai 是歐洲首個致力于人工智能開放研究的私人倡議實驗室,由 iliad 集團、CMA CGM 集團和 Schmidt Futures 于 2023 年 11 月共同創(chuàng)立,初始資金近 3 億歐元。
Kyutai 定位為人工智能開放科學實驗室,是一個非營利組織,其使命是解決現(xiàn)代人工智能的基本挑戰(zhàn)。Kyutai 專注于開發(fā)包含文本、聲音、圖像等的大型多模態(tài)模型,旨在發(fā)明新的算法來增強這些模型的能力、可靠性和效率。借助 iliad 集團子公司 Scaleway 提供的計算能力,Kyutai 將歐洲最高性能的超級計算機用于人工智能應用。
該實驗室堅決致力于人工智能的民主化,并將自己定位為人工智能開放科學的領導者。Kyutai 的野心不僅限于科學進步,還旨在與全球人工智能生態(tài)系統(tǒng)分享其進展。
Kyutai 組建了一支由具有杰出學術和商業(yè)背景的優(yōu)秀研究人員組成的團隊,在巴黎設有辦事處。其創(chuàng)始團隊包括:
- 首席執(zhí)行官 Patrick Pérez:在計算機視覺和機器學習領域擁有三十多年經驗的專業(yè)人士;
- 首席擴展(scaling)官 Edouard Grave:在大語言模型和自然語言處理方面擁有專業(yè)知識;
- 首席科學官 Hervé Jégou:因對計算機視覺和壓縮域搜索算法的貢獻而聞名;
- 首席技術官 Laurent Mazaré:在應用數學、密碼學和機器學習方面經驗豐富;
- 首席建模官 Neil Zeghidour:前 Google DeepMind 研究員,專門研究生成音頻;
- 創(chuàng)始科學家 Alexandre Défossez:專門研究機器學習應用數學。
其中,前三人都是 Google Scholar 被引量高達 40000 + 的學術大牛。
CEO Patrick Pérez 碩士畢業(yè)于巴黎中央理工學院,博士在雷恩大學攻讀信號處理專業(yè)。在創(chuàng)辦 Kyutai 之前,他是法資世界 500 強企業(yè)法雷奧(valeo)公司人工智能副總裁兼 valeo.ai 的科學總監(jiān),valeo.ai 是一個專注于法雷奧汽車應用尤其是自動駕駛汽車的人工智能研究實驗室。在加入法雷奧之前,他還曾在 Technicolor (2009-2018)、Inria (1993-2000、2004-2009) 和微軟劍橋研究院 (2000-2004) 擔任研究員。他的研究范圍包括多模態(tài)場景理解和計算成像。
首席擴展官 Edouard Grave 之前在 Facebook AI Research(FAIR)擔任研究科學家。他的研究目標是設計能夠理解自然語言的計算機系統(tǒng)。更確切地說,他的研究重點是為自然語言處理開發(fā)強大的機器學習算法,這種算法只需要最少的監(jiān)督。他的工作的另一個重要方面是設計計算效率高的方法,從而將 AI 模型擴展到大規(guī)模數據集。
首席科學官 Hervé Jégou 曾在 FAIR 擔任高管,研究方向是大規(guī)模索引、人工智能、機器學習及應用。他最出名的發(fā)明是「產品量化(product quantization)」搜索,它為最流行的矢量搜索庫 FAISS 和 ScanNN 提供了動力。此外,他還啟動了 FAISS 庫并編寫了它的第一個實現(xiàn)。
Kyutai 的科學委員會由三名國際知名人工智能專家組成:韓國科學家 Yejin Choi,專門研究自然語言處理和計算機視覺;Yann LeCun(法國研究員、深度學習先驅、Meta 首席人工智能科學家)和 Bernhard Sch?lkopf(以機器學習領域的工作而聞名的德國研究員)。
iliad 集團董事長兼創(chuàng)始人 Xavier Niel 表示:「歐洲擁有贏得人工智能競賽所需的一切。通過在巴黎創(chuàng)建人工智能開放研究實驗室,我們進一步加快了步伐。Kyutai 將為我們提供超高性能、可靠的人工智能模型,整個歐洲人工智能生態(tài)系統(tǒng)都將能夠從中受益。」