2021年12月,北京林業大學生物科學與技術學院聯合安諾優達在國際期刊Cell(IF:41.582)在線發表了題為“The Chinese pine genome and methylome unveil key features of conifer evolution”的研究文章,研究者對油松進行了染色體水平的基因組組裝和注釋,繪制了油松基因組的染色體甲基化圖譜,為油松獨特適應性和發育研究、生殖生物學研究及基因組輔助育種進化和基因組學研究提供了重要參考。安諾優達深度參與了本次研究,包括PacBio三代測序、Hi-C輔助組裝以及RNA-seq、WGBS等多組學測序及該基因組的組裝、注釋等研究。
研究背景
針葉樹在世界森林生態系統中占主導地位,是種植廣泛的樹種之一。針葉樹基因組屬于大型基因組,存在高度重復序列(70%-80%),因此基因組組裝難度較高。
研究者利用PacBio測序、Hi-C輔助組裝等技術,組裝獲得了25.4 Gb染色體水平的油松基因組。通過使用來自760個生物樣本的大規模RNA-seq數據來輔助基因結構注釋,揭示油松基因組擴展、生殖過程和適應性進化的多重基因組特征和分子機制,給針葉樹進化研究提供了新思路,為今后進一步開展針葉樹適應與發育研究提供了數據參考。
材料選擇
35年生無性系優良油松的新芽
測序策略
DNA測序策略
Illumina NovaSeq 6000,DNA小片段文庫,103 X
PacBio Sequel II基因組測序,103 X
Illumina NovaSeq 6000,Hi-C文庫
RNA測序策略
Illumina測序,構建RNA文庫
技術路線
研究結果
油松染色體基因組組裝和注釋
研究者首先通過Illumina測序,對油松基因組大小進行評估,隨后利用PacBio測序數據進行自校正和組裝,成功構建出24.4 Gb(96.1%,12條染色體)的油松高質量的染色體水平基因組。
針葉樹中的基因通常多于二倍體被子植物,基因復制導致了許多基因家族的擴張。在基因復制的不同類別中,油松的旁系同源主要來源于分散重復(DSD),很少來自全基因組復制(WGD),油松發生近期全基因組復制事件概率較低。
圖1 油松高質量基因組組裝
長內含子的獨特基因空間結構
油松的基因組存在大量的長內含子,總內含子/外顯子長度與基因組的大小呈正相關,基因表達水平的差異與基因長度和內含子數有關。長基因的RNA剪接和DNA甲基化檢測結果表明,幾乎所有CG和CHG位點都發生了甲基化,DNA甲基化可能參與了長內含子的準確識別。
圖2 油松基因組的基因空間結構和復雜性展示
油松的適應進化
通過功能富集分析發現了3,623個顯著擴張的家族基因,主要參與生物和非生物脅迫反應。通過鑒定油松中的轉錄因子(TF)和轉錄調節因子(TR)家族,發現對低溫高度敏感的AP2/ERF基因家族成員可能在油松的低溫適應中發揮關鍵作用。在候選基因編碼酶鑒定中,萜烯合成相關基因在不同樹齡的油松中有明顯的表達模式,新形成的針葉可能是萜烯的主要合成部位。
圖3 油松中萜烯的合成途徑
針葉樹生殖發育的獨特調控網絡
被子植物中具有很多調節開花的關鍵基因,但油松中缺少很多同源基因。FT/TFL1-like基因是被子植物中調節開花的關鍵基因,但油松中僅有2個拷貝,但在其他針葉樹中一般有4-6個拷貝。研究者在擬南芥中做了轉基因驗證,過表達了這兩個基因,轉基因植株表現出明顯的晚開花表型。
通過對油松基因組中12個高表達的MADS-box基因的酵母雙雜交檢測,發現兩個AGL6-like基因(PtDAL1和PtDAL14)在油松中有不同的表達模式,其中PtDAL14在生殖器官中特異性表達,與其他MADS-box轉錄因子蛋白相互作用,表明AGL6-like基因可能作為MADS-box轉錄因子之間相互作用的橋梁,從而形成互作網絡。最后研究者提出了一個控制油松雌雄球果發育的模型,為今后針葉樹生殖發育研究提供了一張藍圖。
圖4 油松中12個MADS-box家族轉錄因子的表達及蛋白互作模型
油松近期的LTR-RT的爆發和穩定的甲基化維持系統
從染色體層面看,基因組甲基化水平與油松的TE覆蓋率顯著相關,研究發現攜帶TE的基因區域的平均甲基化水平遠高于不攜帶TE的基因區域,但TSS和TES區域的平均甲基化水平始終較低。DNA甲基化對于TE基因組的擴張產生了影響,但未有證據表明,油松甲基化程度隨樹齡的增加而下降。LTR-RTs代表了大部分TEs,不平等重組(UR)是植物中一種重要的LTR-RT清除機制,針葉樹的UR率可能比被子植物小型基因組低得多,SGS3-RDR6-RdDM通路可能是針葉樹中主要的DNA甲基化途徑。
圖5 油松中DNA甲基化及轉座子擴張
研究結論
研究者構建了當前大型基因組中連續性較好的高質量染色體水平的油松基因組。研究發現轉座子的不斷擴張和緩慢清除是導致針葉樹基因組巨大的重要原因,具有超長內含子的大基因往往表達水平較高。與被子植物相比,油松具有獨特的生殖系統。油松基因組的構建為其獨特適應性和發育研究、生殖生物學研究及基因組輔助育種進化和基因組學研究提供了重要參考。
參考文獻
[1] Niu S.H., Li J., Bo W.H., Yang W.F., Zuccolo A.,Giacomello S., ChenX., Han F.X., Yang J.H., Song Y.T., Nie Y.M., Zhou B.,Wang P.Y., Zuo Q., Zhang H., Ma J.J., Wang J., Wang L.J., Zhu Q.Y., ZhaoH.H., Liu Z.M., Zhang X.M., Liu T., Pei S.R., Li Z.M., Hu Y., Yang Y.H., LiW.Z., Zan Y.J., Zhou L.H., Lin J.X., Yuan T.Q., Li W., Li Y., Wei H.R. & WuX.The Chinese pine genome and methylome unveil key features of coniferevolution[J]. Cell, 2022, 185(1):1-14.