Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集
引言
在自然語言處理(NLP)的眾多應(yīng)用場景中,大型語言模型(Large Language Model, LLM)展現(xiàn)了其卓越的文本理解與生成能力,不僅在傳統(tǒng)的文本任務(wù)上成績斐然,更在生物學(xué)、計算化學(xué)、藥物研發(fā)等跨學(xué)科領(lǐng)域證明了其廣泛的應(yīng)用潛力。盡管如此,生物分子研究領(lǐng)域的特殊性—比如專用數(shù)據(jù)集的缺乏、數(shù)據(jù)標(biāo)注的高復(fù)雜度、知識的多元化以及表示方式的不統(tǒng)一—仍舊是當(dāng)前面臨的關(guān)鍵挑戰(zhàn)。針對這些問題,本文提出Mol-Instructions,這是一個針對生物分子領(lǐng)域各項研究任務(wù)定制的指令數(shù)據(jù)集。
Mol-Instructions的構(gòu)建
Mol-Instructions的構(gòu)建流程如下:
- 借助LLM的能力,生成多樣化的任務(wù)描述,模擬人類需求和表達(dá)的多樣性。
- 采用多種預(yù)處理策略,將現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)化為可用的指令數(shù)據(jù)。
- 利用模版將結(jié)構(gòu)化的功能注釋轉(zhuǎn)換為易于理解的文本。
- 對小分子和蛋白質(zhì)序列進(jìn)行嚴(yán)格的質(zhì)量控制,以排除化學(xué)無效和冗余的序列。
Mol-Instructions概覽
Mol-Instructions數(shù)據(jù)集共計含2043K條指令數(shù)據(jù),覆蓋了小分子、蛋白質(zhì)以及生物分子文本三大領(lǐng)域的17個關(guān)鍵任務(wù),包含了不同復(fù)雜度和結(jié)構(gòu)的生物分子及豐富的文本描述。
- 小分子指令:深度探索小分子的固有屬性與行為,研究化學(xué)反應(yīng)和分子設(shè)計的核心挑戰(zhàn)。理解和預(yù)測小分子的化學(xué)特性,優(yōu)化分子設(shè)計,提高化學(xué)反應(yīng)預(yù)測的準(zhǔn)確性和效率。其目標(biāo)是在化學(xué)和藥物設(shè)計領(lǐng)域加速藥物的研發(fā)進(jìn)程,同時降低研發(fā)成本。
- 蛋白質(zhì)指令:主要解決蛋白質(zhì)設(shè)計和功能相關(guān)的問題。旨在預(yù)測蛋白質(zhì)結(jié)構(gòu)域、功能及活性,通過文本指令推動蛋白質(zhì)設(shè)計。對于疾病的診斷、治療以及新藥的研發(fā)工作具有一定的價值。
- 生物文本指令:側(cè)重于生物信息學(xué)和化學(xué)信息學(xué)領(lǐng)域的自然語言處理任務(wù)。旨在從生物醫(yī)學(xué)文獻(xiàn)中提取和解析關(guān)鍵信息,支持研究人員快速獲取知識、便于進(jìn)行查詢。
- 圖(a-d)揭示了分子的多維特征。Bertz復(fù)雜度是評估分子復(fù)雜度的關(guān)鍵指標(biāo)。分子量反映了分子的大小和復(fù)雜性,對眾多化學(xué)反應(yīng)具有決定性影響。原子計數(shù)揭示了分子的規(guī)模和復(fù)雜度,進(jìn)而影響其穩(wěn)定性和反應(yīng)性。環(huán)計數(shù)則提供了結(jié)構(gòu)復(fù)雜度和潛在穩(wěn)定性的視角,對理解化學(xué)反應(yīng)性和生物活性潛力至關(guān)重要。圖(e-j)探究了蛋白質(zhì)的特性。圖(e-g)體現(xiàn)了蛋白質(zhì)序列長度的不同分布。根據(jù)NCBI分類,這些蛋白質(zhì)覆蓋了豐富的物種和實驗菌株,包括13,563個蛋白質(zhì)家族和643個超家族。圖(h-j)關(guān)注功能特征,如結(jié)構(gòu)域、基因本體和催化活性的注釋。這些數(shù)據(jù)表現(xiàn)出顯著的長尾分布,凸顯了推斷特定蛋白質(zhì)功能的挑戰(zhàn),尤其是那些罕見功能的蛋白質(zhì)。
- 如表格所示,分子設(shè)計和蛋白質(zhì)設(shè)計的文本描述提供了多維度的視角,涵蓋從基本屬性到特定應(yīng)用場景的廣泛特性。
實驗分析
為評估Mol-Instructions對大型語言模型(LLMs)在理解和預(yù)測生物分子方面的助益,本文對LLaMA-7B模型進(jìn)行了指令微調(diào),并從多個角度進(jìn)行了定量實驗分析。實驗結(jié)果顯示,經(jīng)Mol-Instructions微調(diào)的LLM在多種任務(wù)上的表現(xiàn)超越了其他大型模型,證明了Mol-Instructions在提升LLMs處理生物分子信息能力方面的關(guān)鍵作用。然而,由于輕量微調(diào)過程的局限性,經(jīng)過微調(diào)的LLM在分子生成任務(wù)上的表現(xiàn)并未超越現(xiàn)有的專用小型模型。這反映了LLM在追求廣泛任務(wù)處理能力時,可能會犧牲掉某些專用小模型的專業(yè)性。
總結(jié)
Mol-Instructions能夠有效評估和提升通用LLM從人類語言到生命語言的跨模態(tài)理解能力,顯著增強了LLM對生物分子的認(rèn)知。為后續(xù)更深入地研究生物分子設(shè)計與解決復(fù)雜生物學(xué)問題提供了重要的數(shù)據(jù)來源。由于文本與生物分子表示空間的本質(zhì)差異以及LoRA訓(xùn)練策略的局限性,當(dāng)前LLM在理解生物分子語言方面的熟練度還未能與其掌握人類語言的能力相媲美。未來,通過擴展模型詞表或?qū)⑸锓肿诱Z言視為一種新的模態(tài)進(jìn)行集成,可能是進(jìn)一步提升LLM在生物分子領(lǐng)域的理解深度和性能表現(xiàn)的關(guān)鍵。
本文轉(zhuǎn)載自:??ZJUKG??
作者:方尹
