長鏈非編碼 RNA 功能分類 基因體暗物質將邁向光明

0

人類基因數量約 20000-25000 個左右,僅 1-2 % 的 DNA 能被轉錄成編碼胺基酸的 RNA,98% 的 DNA 被轉錄成不編碼胺基酸的 RNA,又其中長度超過 200 個核苷酸的不編碼 RNA 被歸類為長鏈非編碼 RNA(long non-coding RNA, lncRNA)。關於 lncRNA 人體內的具體功能,科學家仍不甚清楚,因此科學家將它們比喻為基因體的暗物質。

目前最著名的 lncRNA 為 Xist,它對於女性的正常發育非常重要。另外 MALAT 和 THOR 過度表現與具侵襲性和轉移性癌症有關。因此,生物學家確信其他 lncRNA 都有其特定關鍵的調節功能,若表現異常,將導致疾病。

由 Mauro Calabrese 博士所領導的北卡羅來納大學醫學院的研究團隊開發了一種 SEEKR 演算法,來探索 lncRNA 的特性,並且依其功能快速分類,並且試圖釐清 lncRNA 序列和功能之間的模糊關係。他們先從證明 lncRNA 主要透過與蛋白質結合而發揮其功能,然後再去證明 RNA 在其整體結構內使用短序列連接蛋白質。該研究於 9 月 17 日被刊登於《Nature Genetics》。

該團隊推測 lncRNA 中蛋白質結合序列的存在比它們在 lncRNA 中的相對定位更為重要,然後他們也近一步證實該假設。他們首先透過 SEEKR 演算法搜尋和比較 lncRNA 中的“k-mer”結合序列,而且不受 k-mers 本身位置限制。他們接著發現,由於 50% 人類和小鼠各自的 k-mer 含量是接近的,而且二者的 lncRNA 可以分為 5 個不同的群落。該演算法還有助於預測在細胞內發現 lncRNA 的位置以及它們結合的蛋白質類型。

令人驚訝的是,他們發現人和小鼠 lncRNA 群落彼此非常相似,但是某些哺乳動物的 lncRNA 群落,甚至在遠緣動物中,也有明顯的對應物。例如在哺乳動物 HOTTI (一種 lncRNA)群落似乎在其他脊椎動物甚至海膽中都有表親 lncRNA 群落。

在其研究的最終測試中,他們合成了完全人工的 lncRNA,設計它們包括在 Xist 中發現的 k-mers,同時確保分子的整體序列不同於任何已知的 lncRNA。接著,他們再透過 SEEKR 演算法分類人工 lncRNA,然後發現與 Xist 具有最高預測功能相似性的那些 lncRNA,在Xist 類活性測試中也仍有具有最高的實際功能相似性。

最後且重要的是,該研究團隊希望使用 kmer 方法來研究和癌症等疾病中的重要lncRNAs。此外,他們也期望不斷改進該研究方法,以更好地從序列訊息預測lncRNA 的功能。

延伸閱讀:基因也環保 ?! 長鏈非編碼 RNA 的誕生

參考資料:
1. https://www.sciencedaily.com/terms/human_genome.htm
2. http://news.unchealthcare.org/news/2018/september/scientist-reveal-way-to-map-vast-unknown-territory-of-long-non-coding-rna
3. Nature Genetics, 2018; DOI: 10.1038/s41588-018-0207-8

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。合作請聯繫:[email protected]