自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

合成數(shù)據(jù):解鎖通用人工智能的“關(guān)鍵之鑰”? 原創(chuàng) 精華

發(fā)布于 2024-6-26 10:26
瀏覽
0收藏

編者按: 人工智能技術(shù)的發(fā)展離不開高質(zhì)量數(shù)據(jù)的支持。然而,現(xiàn)有可用的高質(zhì)量數(shù)據(jù)資源已日漸接近枯竭邊緣。如何解決訓練數(shù)據(jù)短缺的問題,是當前人工智能領(lǐng)域亟待解決的一個較為棘手的問題。

本期文章探討了一種經(jīng)實踐可行的解決方案 —— 合成數(shù)據(jù)(Synthetic Data)。如 AlphaZero、Sora 等已初步證實了合成數(shù)據(jù)具備的巨大潛力。對于語言模型來說,雖然要生成高質(zhì)量的合成文本存在一定難度,但通過優(yōu)化現(xiàn)有數(shù)據(jù)、從多模態(tài)數(shù)據(jù)中學習等策略,或許能夠大幅降低對新數(shù)據(jù)的需求量。

如果合成數(shù)據(jù)真的能解決訓練數(shù)據(jù)匱乏的難題,其影響必將是極其深遠的。文章進一步分析了可能產(chǎn)生的影響:如互聯(lián)網(wǎng)行業(yè)可能會被重塑、反壟斷審查可能進一步加強、公共數(shù)據(jù)資源會獲得更多投資等。不過現(xiàn)在做出這些預測或許還為時尚早,我們需要保持冷靜,耐心觀察合成數(shù)據(jù)這一技術(shù)在未來會取得何種突破性進展。

本文直指人工智能發(fā)展面臨的一大瓶頸 —— “高質(zhì)量數(shù)據(jù)的日益枯竭”,并提出了一種有爭議但值得探索的解決方案,極具啟發(fā)意義。我們后續(xù)會持續(xù)關(guān)注這一技術(shù)領(lǐng)域的最新進展,敬請期待!

作者 | Nabeel S. Qureshi

編譯?|?岳揚

合成數(shù)據(jù):解鎖通用人工智能的“關(guān)鍵之鑰”?-AI.x社區(qū)

::: hljs-center
大語言模型是在海量數(shù)據(jù)上完成訓練的,數(shù)據(jù)集規(guī)??氨缺姸鄨D書館的藏書總和。然而,如果有一天我們用盡了所有可用的數(shù)據(jù),該怎么辦呢?圖片來源:Twitter[1]
:::

01 數(shù)據(jù)不夠用?

現(xiàn)代大語言模型(LLMs)的一個關(guān)鍵事實可概括總結(jié)為:數(shù)據(jù)為王。人工智能模型的行為很大程度上取決于其訓練所用的數(shù)據(jù)集;其他細節(jié)(諸如模型架構(gòu)等),只是為數(shù)據(jù)集提供計算能力的一種手段。擁有一份干凈的、高品質(zhì)的數(shù)據(jù)集,其價值不可估量。[1]

數(shù)據(jù)的重要地位在人工智能行業(yè)的商業(yè)實踐(AI business practice)中可見一斑。OpenAI?近期宣布與 Axel Springer、Elsevier、美聯(lián)社及其它內(nèi)容出版商和媒體巨頭達成數(shù)據(jù)合作;《紐約時報》(NYT)最近起訴 OpenAI,要求停用利用 NYT 數(shù)據(jù)訓練的 GPT 模型。與此同時,蘋果公司正以超過五千萬美元的價格,尋求與內(nèi)容出版商(publishers)的數(shù)據(jù)合作。在當前的邊際效益(譯者注:邊際效益(Marginal Benefit)是一個經(jīng)濟學概念,指的是在增加一單位的某種投入(如生產(chǎn)中的勞動力、原材料或者服務(wù)中的員工時間)時,所獲得的額外收益或價值的增加。)下,模型從更多數(shù)據(jù)中獲取的利益遠超單純擴大模型規(guī)模帶來的收益。

訓練語料庫(training corpora)的擴容速度令人咋舌。世界上首個現(xiàn)代 LLM 是在維基百科這一知識寶庫上訓練完成的。GPT-3 在 3000 億個 tokens(包括單詞、詞根或標點等)上進行訓練,而 GPT-4 的訓練數(shù)據(jù)量更是達到了驚人的13萬億個 tokens 。自動駕駛汽車是在數(shù)千小時的視頻錄像資料中學習、掌握駕駛技巧的;在編程輔助方面,OpenAI 的 Copilot,依托的是來自 Github 上數(shù)百萬行人類編寫的代碼。

這種情況會一直持續(xù)下去嗎?2022 年發(fā)表在 arXiv[2]?上的一項研究表明:我們正逼近耗盡高質(zhì)量數(shù)據(jù)的邊緣,這一轉(zhuǎn)折點預計會在2023年至2027年間到來。 (這里所謂的“高質(zhì)量數(shù)據(jù)”,涵蓋了維基百科(Wikipedia)、新聞(news)、代碼(code)、科學文獻(scientific papers)、書籍(books)、社交媒體對話內(nèi)容(social media conversations)、精選網(wǎng)頁(filtered web pages)以及用戶原創(chuàng)內(nèi)容(如 Reddit 上的內(nèi)容)。)

研究估計,這些高質(zhì)量數(shù)據(jù)的存量約為 9e12 個單詞,并且每年以 4 %到 5 %的速度增長。 9e12 具體有多大?舉個例子,莎士比亞全集的字數(shù)約為 90 萬(即9e5),相比之下,9e12 這個數(shù)量足足是莎翁作品字數(shù)總和的 1000 萬倍之巨。

據(jù)粗略估計,要達到真正意義上的人類級人工智能(human-level AI),所需數(shù)據(jù)量可能是當前數(shù)據(jù)量的 5 到 6 個數(shù)量級之上,換言之,至少需要 10 萬至 100 萬倍的數(shù)據(jù)量擴充。

回顧一下,GPT-4 使用了 13 萬億個 tokens 。不過還有很多尚未充分開采的領(lǐng)域里潛藏著豐富的數(shù)據(jù)等待挖掘,比如音頻與視頻資料、非英語數(shù)據(jù)資料、電子郵件、短信、推特動態(tài)、未數(shù)字化的書籍,以及企業(yè)私有數(shù)據(jù)。通過這些渠道,我們或許能再獲得比目前有用數(shù)據(jù)多 10 倍甚至 100 倍的數(shù)據(jù),然而,要再獲得多 10 萬倍的數(shù)據(jù)卻如同天方夜譚。

一句話,我們手中的數(shù)據(jù)還遠遠不夠。

除此之外,還有一系列現(xiàn)有的不利因素可能讓獲取優(yōu)質(zhì)數(shù)據(jù)變得更加棘手:

  • 那些依賴用戶來生成內(nèi)容(User-generated content, UGC)的網(wǎng)站,比如Reddit、Stack Overflow、Twitter/X等,紛紛關(guān)上了免費獲取數(shù)據(jù)大門,對數(shù)據(jù)使用權(quán)開出了天價的的許可費。
  • 作家、藝術(shù)家,甚至像《紐約時報》這樣的媒體巨頭,都在維權(quán)路上高歌猛進,抗議其作品未經(jīng)許可就被大語言模型拿去“學習”。
  • 有人擔憂,互聯(lián)網(wǎng)正逐漸被大語言模型生成的低質(zhì)內(nèi)容所淹沒,這不僅可能引發(fā)模型的“drift”(譯者注:在模型持續(xù)學習或微調(diào)的過程中,如果新增數(shù)據(jù)質(zhì)量不高,可能引導模型產(chǎn)生不理想的變化。),還會直接拉低模型響應(yīng)的質(zhì)量。

02 合成數(shù)據(jù):超級智能的新曙光?

基于前文的分析,我們或許會得出一個比較悲觀的結(jié)論:我們目前擁有的數(shù)據(jù)不足以訓練出超級智能(superintelligence)。然而,現(xiàn)在做出這樣的判斷未免操之過急。解決這一問題的關(guān)鍵可能就在于合成數(shù)據(jù)的創(chuàng)造——即機器為了自訓練(self-training)而自主生成的數(shù)據(jù)。

盡管聽上去像是天方夜譚,但事實上,一些前沿的現(xiàn)代 AI 系統(tǒng)都是通過合成數(shù)據(jù)訓練出來的:

  • 專攻棋類的?AlphaZero[3]?就是使用合成數(shù)據(jù)訓練出來的。具體而言,AlphaZero?通過與自身對戰(zhàn)來生成數(shù)據(jù),并從這些對局中汲取教訓,不斷優(yōu)化策略。(這種數(shù)據(jù)之所以被稱為合成數(shù)據(jù),是因為它完全不需要借鑒真實人類的棋局記錄。)
  • 再來看看 OpenAI 的最新成果之一 ——?Sora[4],這款視頻生成模型能夠依據(jù)簡單的文字指令,創(chuàng)造出長達 1 分鐘的虛擬視頻。它的訓練很可能是基于電子游戲引擎(大概率是Unreal Engine 5)生成的合成數(shù)據(jù)。也就是說,Sora 不僅通過 YouTube 視頻或現(xiàn)實世界的電影來學習,游戲引擎構(gòu)建的虛擬環(huán)境同樣成為了它的學習素材。

所以,這項技術(shù)已在棋類博弈與視頻生成應(yīng)用中得到了證實;真正的問題在于它能否同樣適用于文本處理。 在某些方面,制作供訓練使用的高質(zhì)量視頻數(shù)據(jù),比生成文字訓練數(shù)據(jù)容易得多:只需一部 iPhone,就能拍攝視頻捕捉現(xiàn)實生活的真實面貌。然而,要想讓合成的文本數(shù)據(jù)成為有效的訓練數(shù)據(jù),它必須是高質(zhì)量、有趣的,而且在某種意義上是 “真實的”。

關(guān)鍵的一點是,創(chuàng)造有價值的合成數(shù)據(jù),不僅僅就是從無到有的創(chuàng)作文本那么簡單。比如,一份最新發(fā)表的論文[5](2024年1月)指出,利用大語言模型改進抓取到的網(wǎng)絡(luò)數(shù)據(jù)的表達方式,不僅能優(yōu)化訓練效果,還能提升訓練效率。有時,僅通過篩選并移除數(shù)據(jù)集中質(zhì)量最差的數(shù)據(jù)(這一過程稱為“數(shù)據(jù)集剪枝”),就能大幅增強大語言模型的表現(xiàn)。有一項針對圖像數(shù)據(jù)的研究更是驚人地發(fā)現(xiàn),要達到模型的峰值性能(peak model performance),甚至需要舍棄數(shù)據(jù)集中高達90%的非關(guān)鍵信息!

如今,我們已擁有能像孩童般從視頻中觀察與學習的大語言模型。當我們弄清楚如何獲取更高質(zhì)量的多模態(tài)數(shù)據(jù)(包括視頻、音頻、圖像及文本)的技巧,我們可能會驚喜地發(fā)現(xiàn),大語言模型填補其世界觀缺失部分所需的訓練數(shù)據(jù)量,遠比原先設(shè)想的要少得多。

03 解決合成數(shù)據(jù)生成問題將帶來的影響

  1. 攻克合成數(shù)據(jù)的生成這一難題將極大加速人工智能領(lǐng)域的進步:考慮到當前研究者們對合成數(shù)據(jù)開發(fā)的投入、解決這一問題的巨大動力以及這一難題在其他領(lǐng)域已取得的成功,我們有理由相信,在未來幾個月至數(shù)年內(nèi)合成數(shù)據(jù)的生成將取得重大進展,進一步推動 AI 技術(shù)的飛速發(fā)展。而這一方面的技術(shù)突破,很可能會被各大企業(yè)嚴密保護為商業(yè)機密。
  2. 互聯(lián)網(wǎng)行業(yè)或?qū)⒅厮?,減少對廣告的依賴程度:傳統(tǒng)上嚴重依賴廣告收入的互聯(lián)網(wǎng)企業(yè),可能轉(zhuǎn)向一種全新的商業(yè)模式,聚焦于訓練數(shù)據(jù)的生成、創(chuàng)造。如 Reddit 這家近期申請 IPO(S-1) 的互聯(lián)網(wǎng)巨頭,其收入的 10%(即約 6000 萬美元)來源于數(shù)據(jù)銷售,且預計這一比例將持續(xù)上升?;ヂ?lián)網(wǎng)上的用戶數(shù)據(jù)源源不斷(包括 reviews、tweets、comments 等),獲取這些新鮮數(shù)據(jù)將非常有價值。如果這一點正確,各大企業(yè)將競相采取措施,收集更多高價值的人工生成數(shù)據(jù),助力人工智能模型的訓練。
  3. 反壟斷審查將趨嚴:獨占如 Reddit、Elsevier 這類高價值數(shù)據(jù)源所引發(fā)的反壟斷問題,預期將受到更為嚴格的審查。大型科技公司憑借其雄厚的財力和龐大的數(shù)據(jù)集,將進一步鞏固其市場主導地位,加劇小規(guī)模企業(yè)參與競爭的難度。
  4. 開源項目可能會落后:監(jiān)管部門需思考如何確保數(shù)據(jù)集的公平獲取途徑,可能會將數(shù)據(jù)集視作公共基礎(chǔ)設(shè)施,或在特定條件下強制執(zhí)行數(shù)據(jù)共享相關(guān)要求。構(gòu)建更多高質(zhì)量、經(jīng)過篩選和整理的數(shù)據(jù)集,對學術(shù)界和開源社區(qū)維持競爭力尤為重要。各國政府也許會主動建立中央數(shù)據(jù)資源庫,供所有大語言模型(LLM)開發(fā)者使用,從而幫助創(chuàng)造公平的競爭環(huán)境。不過短期內(nèi),開源項目開發(fā)者只能繼續(xù)在 private labs?(譯者注:由私營企業(yè)或非公有實體運營的研究實驗室,它們的工作成果、研發(fā)的技術(shù)和產(chǎn)生的數(shù)據(jù)往往被視為公司的知識產(chǎn)權(quán),對外保密。)制作的優(yōu)秀模型基礎(chǔ)上對其進行微調(diào),這意味著開源項目在可預見的未來仍可能落后于 private labs 。
  5. 數(shù)據(jù)被共享為公共資源:某些類型的數(shù)據(jù)具備公共屬性,往往因投資不足而未得到充分開發(fā)。比如,一個匯集人類倫理道德偏好(human ethical preferences),通過對比分析形成的公共數(shù)據(jù)集,便是一個適宜公開資助或 AI 慈善項目投資的對象。類似的案例不勝枚舉。

在科幻小說《沙丘》中,迷幻劑 melange(小說中俗稱“香料”),被譽為銀河系中的無價之寶。基于以上種種,埃隆·馬斯克(Elon Musk)不久前在推特上的言論[6]——“數(shù)據(jù)即是香料(data is the spice.)”——便顯得極為意味深長。AI 實驗室都對此心領(lǐng)神會,正緊鑼密鼓地“搗鼓”數(shù)據(jù)。

【注釋】有一篇由 OpenAI 研究員撰寫的題目為《the ‘it’ in AI models is the dataset(AI模型的核心在于數(shù)據(jù)集)》( https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/ )的精彩博客文章,作者一針見血地指出:

“AI 模型的行為特征并非取決于其架構(gòu)設(shè)計、超參數(shù)設(shè)置或是優(yōu)化器算法的選擇。真正起決定作用的是數(shù)據(jù)集本身,除此之外別無他物。所有的架構(gòu)、參數(shù)和優(yōu)化方法,歸根結(jié)底都是為了更高效地處理數(shù)據(jù),逼近數(shù)據(jù)集的真實表現(xiàn)?!?/strong>

Thanks for reading!

Nabeel S. Qureshi?is a Visiting Scholar at Mercatus. His research focuses on the impacts of AI in the 21st century.

https://nabeelqu.co/

END

參考資料

[1]https://twitter.com/dieworkwear/status/1757203606221340858/photo/2

[2]https://arxiv.org/pdf/2211.04325.pdf

[3]https://en.wikipedia.org/wiki/AlphaZero

[4]https://openai.com/sora

[5]https://arxiv.org/pdf/2401.16380.pdf

[6]https://twitter.com/elonmusk/status/1727813282377957433

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。

原文鏈接:

https://digitalspirits.substack.com/p/is-synthetic-data-the-key-to-agi

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關(guān)推薦