比OpenAI的Whisper快50%,最新開(kāi)源語(yǔ)音模型
生成式AI初創(chuàng)公司aiOla在官網(wǎng)開(kāi)源了最新語(yǔ)音模型Whisper-Medusa,推理效率比OpenAI開(kāi)源的Whisper快50%。
aiOla在Whisper的架構(gòu)之上進(jìn)行了修改采用了“多頭注意力”機(jī)制的并行計(jì)算方法,允許模型在每個(gè)推理步驟中預(yù)測(cè)多個(gè)token,同時(shí)不會(huì)損失性能和識(shí)別準(zhǔn)確率。
開(kāi)源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
傳統(tǒng)的Transformer架構(gòu)在生成序列時(shí),是遵循逐個(gè)token的順序預(yù)測(cè)過(guò)程。這意味著在生成新序列時(shí),模型每次只能預(yù)測(cè)下一個(gè)token,然后將這個(gè)預(yù)測(cè)的token加入到序列中,再基于更新后的序列預(yù)測(cè)下一個(gè)token。
這雖然能夠確保生成序列的連貫性和上下文相關(guān)性,但也有一個(gè)非常明顯的缺陷——極大限制了模型的推理效率。
此外,由于每次只能處理一個(gè) token ,模型難以捕捉到數(shù)據(jù)中的長(zhǎng)程依賴關(guān)系,可能會(huì)忽略一些重要的全局信息,從而影響模型的整體性能和準(zhǔn)確性。
而Whisper-Medusa使用了10頭的多注意力機(jī)制, 能各自獨(dú)立地計(jì)算注意力分布并行地處理輸入,然后將各自的輸出通過(guò)拼接的方式組合起來(lái),形成一個(gè)多維度的向量。
隨后向量被送入全連接層進(jìn)行進(jìn)一步的處理,以生成最終的token預(yù)測(cè)。這種并行的數(shù)據(jù)處理方式不僅加快了模型的推理效率,還增加了模型的表達(dá)能力,因?yàn)槊總€(gè)注意力頭都可以專注于序列的不同子集,捕捉到更豐富的上下文信息。
為了使多頭注意力機(jī)制在Whisper-Medusa模型中更高效地運(yùn)行,aiOla采用了弱監(jiān)督的方法,在訓(xùn)練過(guò)程中凍結(jié)了原Whisper模型的主要組件,使用該模型生成的音頻轉(zhuǎn)錄作為偽標(biāo)簽來(lái)訓(xùn)練額外的token預(yù)測(cè)模塊。
使得模型即便沒(méi)有大量手動(dòng)人工標(biāo)注數(shù)據(jù)的情況下,依然能夠?qū)W習(xí)到有效的語(yǔ)音識(shí)別模式。
此外在訓(xùn)練過(guò)程中,Whisper-Medusa的損失函數(shù)需要同時(shí)考慮預(yù)測(cè)的準(zhǔn)確性和效率。一方面,模型需要確保預(yù)測(cè)的token序列與實(shí)際轉(zhuǎn)錄盡可能一致;
另一方面,通過(guò)多頭注意力機(jī)制的并行預(yù)測(cè),模型被鼓勵(lì)在保證精度的前提下,盡可能地加快預(yù)測(cè)效率。
aiOla使用了學(xué)習(xí)率調(diào)度、梯度裁剪、正則化等多種方法,確保模型在訓(xùn)練過(guò)程中能夠穩(wěn)定收斂,同時(shí)避免過(guò)擬合性。
業(yè)務(wù)場(chǎng)景方面, Whisper-Medusa能理解100多種語(yǔ)言,用戶可以開(kāi)發(fā)音頻轉(zhuǎn)錄、識(shí)別等多種應(yīng)用,適用于翻譯、金融、旅游、物流、倉(cāng)儲(chǔ)等行業(yè)。
aiOla表示,未來(lái)會(huì)將Whisper-Medusa的多注意力機(jī)制擴(kuò)展至20個(gè)頭,其推理效率將再次獲得大幅度提升。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
