David Baker 團隊最新研究,利用蛋白質序列生成模型實現(xiàn)重疊基因設計,成功率極高 原創(chuàng)
1977 年,英國生物化學家弗雷德里克·桑格(Frederick Sanger)在解析 ΦX174 噬菌體基因組時,首次發(fā)現(xiàn)了一個顛覆認知的現(xiàn)象:這個僅 5.4kb 的 DNA 分子編碼的蛋白質總長度,遠超其物理容量限制。測序結果揭示,兩對基因通過不同閱讀框架共享同一 DNA 區(qū)域——這種被稱為重疊基因(OLG)的現(xiàn)象,在病毒世界中極為普遍。例如,乙型肝炎病毒 3.2kb 基因組中,50% 區(qū)域被多對重疊基因覆蓋,超過半數(shù)已知病毒至少含有一個 OLG。
這種突破直覺的基因組設計,暗藏著病毒的生存智慧:當病毒在宿主細胞內(nèi)爭奪有限空間時,OLG 通過「基因疊羅漢」策略,讓單個核苷酸同時參與兩個密碼子編碼,在緊湊序列中實現(xiàn)功能疊加。桑格團隊的發(fā)現(xiàn)開啟了相關研究,后續(xù)研究表明,OLG 編碼的蛋白質常具有高序列簡并性(degenerate),其氨基酸序列容錯性使兩種功能蛋白能在同一 DNA 鏈共存。更關鍵的是,即使需要形成明確三維結構的蛋白質,也能通過序列編排,在不同閱讀框架中實現(xiàn)折疊兼容。
然而,核心疑問始終存在:標準遺傳密碼下,氨基酸序列簡并性能否支持任意功能蛋白對在重疊框架中折疊?當核苷酸需兼顧雙重編碼時,蛋白質折疊的序列空間是否被嚴重限制?
美國華盛頓大學 David Baker 團隊近期利用先進生成模型,通過合成 OLG 設計研究,從工程化角度驗證其可行性。研究團隊針對兩個蛋白家族設計重疊序列,編碼高度有序的從頭設計蛋白結構,計算機模擬與實驗驗證均顯示出極高成功率:在重疊約束下,可變閱讀框架(alternative reading frames)不僅能容納明確三維折疊,同時其結構穩(wěn)定性與功能完整性與非重疊序列相當。
相關研究成果以「Design of overlapping genes using deep generative models of protein sequences」為題,已在 bioRxiv 發(fā)表預印本。
論文地址:
??https://doi.org/10.1101/2025.05.06.652464??
開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
???https://github.com/hyperai/awesome-ai4s??
數(shù)據(jù)集:整合多維度數(shù)據(jù)資源與分析方法
為解析遺傳密碼可塑性及其在蛋白質設計中的應用,研究整合多維度數(shù)據(jù)資源與分析方法,構建從理論設計到實驗驗證的完整研究鏈條。
在遺傳密碼隨機化研究中,該研究基于氨基酸置換(amino acid permutation)與密碼子重排(Codon shufflers)策略,生成 1,000 種替代密碼子組合。這一數(shù)據(jù)集通過明確的算法設計保障了樣本多樣性與均勻性,為評估密碼子重排的功能影響提供了統(tǒng)計學基準。
同時,研究選取 3 個具有代表性的二級結構目標蛋白,構建 9 組成對組合,在控制變量的前提下實現(xiàn)實驗條件的標準化,有效連接遺傳密碼變異與蛋白質結構功能的關聯(lián)性分析。
在蛋白質結構域序列分析環(huán)節(jié),該研究從 Pfam 37.0 數(shù)據(jù)庫提取種子序列,通過隨機抽樣截取長度 100 氨基酸的子區(qū)域,并利用馬爾可夫模型生成保留 k-mer 分布的合成蛋白序列。該方法融合生物信息學篩選與統(tǒng)計建模,既保留天然蛋白質的序列特征,又通過引入可控隨機變量創(chuàng)建對照樣本,為后續(xù)分析提供了兼具自然屬性與人工設計特征的創(chuàng)新數(shù)據(jù)集。
在蛋白質語言模型嵌入分析中,研究人員提取 ESM2、ESM3 和 ProstT5 的隱藏層特征,經(jīng)位置平均后通過 UMAP 算法投影至二維空間。通過精準設定 n_neighbors = 15 等參數(shù),高維序列特征被轉化為直觀的拓撲圖譜,在保留序列相似性結構的同時,為跨模型比較提供了統(tǒng)一的可視化框架,展現(xiàn)了計算生物學與數(shù)據(jù)可視化的前沿結合。
在實驗驗證階段,研究人員對 192 個重疊基因進行克隆重組,生成 384 種框架位移蛋白變體。實驗嚴格控制關鍵參數(shù):37°C 培養(yǎng) 20 小時確保大腸桿菌表達系統(tǒng)穩(wěn)定,6M 鹽酸胍梯度復性方案保障包涵體蛋白正確折疊。這種從分子設計到純化表征的全流程量化控制,不僅提升了研究結論的可重復性,更為蛋白質工程提供了標準化實驗范式。
OLG 的克隆重組示意圖
基于生成模型的 OLG 設計:多框架兼容的序列同步優(yōu)化方法
該研究開發(fā)了一種計算算法,有效應對重疊基因(OLG)設計中因編碼框架相互依賴導致的序列空間受限難題,實現(xiàn)了兩個蛋白序列適應性的同步優(yōu)化。
在算法設計層面,研究整合了 EvoDiff-MSA 和 ProteinMPNN 等生成模型。前者基于 MSA Transformer 架構,通過自回歸擴散目標訓練,能以目標蛋白多序列比對(MSA)為條件生成設計序列;后者作為結構條件生成模型,可在給定三維結構時設計對應蛋白序列。兩類模型均采用逐位置掩蔽與約束采樣策略,生成了涵蓋多種偏移量和框架排列的重疊序列庫。
如下圖 A 所示,針對 5 種可變閱讀框架(+1、+2、-0、-1、-2)的相位約束,該研究提出逐幀(Frame)迭代采樣策略。
在同一核苷酸序列中編碼一對蛋白質的 5 種可能的可變閱讀框架
如下圖 B 所示,通過分析 -0 框架的氨基酸兼容性矩陣發(fā)現(xiàn),參考框架中單個位置平均存在 2.6 種兼容氨基酸選擇,形成 52?(n 為序列長度)種潛在重疊序列對,凸顯遺傳密碼簡并性帶來的設計空間。借助蒙特卡洛近似(Monte Carlo approximation)量化其他框架自由度(degrees of freedom),如下圖 C 所示,結果顯示 +1 和 -1 框架自由度較高(分別約 2.8 和 2.9),而 -2 框架因密碼子簡并性利用效率低,自由度顯著受限(約1.4)。
二維兼容性矩陣和蒙特卡洛近似圖
最終,如下圖 D 所示,算法通過系統(tǒng)掃描序列位置(Scan order),在每次掃描中結合相鄰氨基酸約束動態(tài)更新聯(lián)合概率(joint probability)矩陣,經(jīng)多輪迭代后確保生成的重疊序列對滿足框架的兼容性(compatibility)。該策略可擴展至含相位偏移的復雜框架,通過偏置掃描順序優(yōu)化設計質量,為生成模型的迭代解碼(iterative decoding)提供了關鍵約束條件。
設計 OLG 的約束迭代采樣算法示意圖
超越天然模板限制:高效生成任意蛋白質對的合成 OLG
實驗設計涵蓋了多個方向,包括基于同源性的 OLG 設計評估、高度有序蛋白質主鏈結構的重疊可行性分析、OLG 序列的進化可及性研究以及實驗驗證。
在基于同源性的 OLG 設計評估中,如下圖 A 所示,研究團隊選取細菌莽草酸突變酶(CM)與翻譯起始因子 1(IF1)為目標,借助 EvoDiff-MSA 生成模型,以多序列比對(MSA)作為條件上下文,經(jīng)逐位置掩蔽與約束采樣,生成 3,307 個完全重疊序列(Overlapping sequence)設計。
如下圖 B 所示,盡管設計序列與天然序列同源性僅 38.9%(CM)和 42.3%(IF1),但蛋白質語言模型嵌入分析顯示,其在二維空間分布與天然序列高度契合,表明這些設計序列是目標蛋白家族的可信成員,驗證了算法對天然蛋白家族的設計能力。
基于同源性的 OLG 設計評估
在探究高度有序蛋白質主鏈結構的重疊可行性時,如下圖 A 所示,研究人員利用 ProteinMPNN 結構條件生成模型,針對 15 種從頭生成的主鏈結構(覆蓋 α、β 及混合折疊類別),分別生成 56,250 個重疊設計與 33,000 個非重疊設計。如下圖 B 所示,AlphaFold2 評估數(shù)據(jù)顯示,重疊設計的平均 pLDDT 值為 90.2,與非重疊設計的 92.0 接近。
高度有序蛋白質主鏈結構的 OLG 序列設計分析
進一步分析發(fā)現(xiàn),如下圖 C-D 所示,僅 -2 框架因密碼子(codons)簡并性利用效率低導致表現(xiàn)欠佳。隨機化遺傳密碼分析表明,天然遺傳密碼(SGC)在編碼 OLG 時優(yōu)勢顯著,除 -2 框架外均表現(xiàn)良好,且對高簡并性氨基酸存在組成偏好,揭示了 SGC 結構對重疊序列可行性的影響機制。
pldts 分布和 AlphaFold2 預測
在進化可及性研究中,研究團隊以固定突變數(shù)量的種子蛋白序列為起始。如下圖 G-F 所示,研究發(fā)現(xiàn)即便在零突變的極端條件下,仍有約 1% 的設計能達到高結構穩(wěn)定性(pLDDT>85,TM>0.7);以天然 Pfam 序列作為親本時,成功率提升至 3%,且該結果與保留一階組成偏差的隨機序列一致。這充分表明,高度優(yōu)化的天然蛋白無需大幅序列改變,即可在替代框架中容納新蛋白,驗證了 OLG 在進化層面的可行性。
OLG 序列的進化可及性研究結果
最終的實驗驗證部分,研究團隊對 192 個重疊序列進行了重組表達和結構表征。結果表明,如下圖 B 所示,54% 的單個蛋白質成功表達,并且大多數(shù)具有預期的二級結構和高熱穩(wěn)定性。
成功表達的蛋白概述
此外,如下圖 D-F 所示,成功率因蛋白質的二級結構含量而異,其中 α 螺旋蛋白的成功率最高。此外,31% 的重疊對成功純化,且一個框架的成功并不影響另一個框架的成功。這些結果進一步支持了 OLG 序列的高可行性和實驗驗證率,證明了該算法在設計功能性和結構穩(wěn)定重疊蛋白方面的有效性。
從頭設計 OLG 蛋白對的實驗表征
合成生物學領域的前沿探索,OLG 工程化應用逐步深入
在合成生物學領域,全球多地的研究團隊與企業(yè)正投身于對重疊基因(OLG)工程化應用的深入探索之中。
例如,來自清華大學朱聽課題組在鏡像生物學系統(tǒng)研究方面取得了顯著進展,成功實現(xiàn)了全化學合成的鏡像 Pfu DNA 聚合酶,這不僅使得千堿基長度的鏡像 DNA 組裝成為現(xiàn)實,還開發(fā)出了基于鏡像 DNA 的信息存儲技術。這種技術運用鏡像基因的編碼策略,為 OLG 的雙向功能疊加提供了全新的思路。當鏡像 DNA 的雙螺旋結構同時承載天然與鏡像遺傳信息時,序列空間的利用率得到了顯著提升,為人工基因組的緊湊設計提供了重要的基礎。
* 論文鏈接:??https://www.nature.com/articles/s41587-021-00969-6??
此外,美國麻省理工學院的 Christopher Voigt 團隊開發(fā)了基于基因線路設計的合成生物學平臺。他們通過重構原核生物基因簇的調控邏輯,成功實現(xiàn)了代謝途徑的模塊化組裝。這種技術路徑與 OLG 的設計理念緊密契合。當多個功能基因通過重疊序列形成緊密的遺傳模塊時,既能減少基因組的冗余,又能通過協(xié)同表達提升系統(tǒng)的穩(wěn)定性。例如,該團隊設計的人工固氮基因簇采用 OLG 策略,將多個關鍵酶的編碼序列壓縮至同一 DNA 區(qū)域,在保證催化效率的前提下,顯著降低了宿主細胞的代謝負擔。
* 論文鏈接:??https://www.nature.com/articles/s41467-022-33272-2??
需要關注的是,這些研究不僅揭示了 OLG 在自然進化中的廣泛存在,還通過工程化手段驗證了其生物物理上的可行性。在本文所介紹的研究中,David Baker 團隊利用深度學習模型設計的合成 OLG,在計算機模擬中展現(xiàn)出了與天然序列相當?shù)慕Y構穩(wěn)定性。實驗驗證的高成功率進一步證明了重疊編碼的生物學兼容性。這種從基礎研究到應用轉化的完整閉環(huán),正在重塑合成生物學的設計邏輯,有望在創(chuàng)新藥物研發(fā)、精準診斷、細胞治療等多個領域帶來全新突破。
參考資料:
1.??https://www.tsinghua.edu.cn/info/1181/86148.htm??2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.??https://news.bioon.com/article/4161e88572ad.html??
