长链非编码 RNA 功能分类 基因体暗物质将迈向光明

0

人类基因子量约 20000-25000 个左右,仅 1-2 % 的 DNA 能被转录成编码胺基酸的 RNA,98% 的 DNA 被转录成不编码胺基酸的 RNA,又其中长度超过 200 个核苷酸的不编码 RNA 被归类为长链非编码 RNA(long non-coding RNA, lncRNA)。关于 lncRNA 人体内的具体功能,科学家仍不甚清楚,因此科学家将它们比喻为基因体的暗物质。

目前最著名的 lncRNA 为 Xist,它对于女性的正常发育非常重要。另外 MALAT 和 THOR 过度表现与具侵袭性和转移性癌症有关。因此,生物学家确信其他 lncRNA 都有其特定关键的调节功能,若表现异常,将导致疾病。

由 Mauro Calabrese 博士所领导的北卡罗来纳大学医学院的研究团队开发了一种 SEEKR 算法,来探索 lncRNA 的特性,并且依其功能快速分类,并且试图厘清 lncRNA 序列和功能之间的模糊关系。他们先从证明 lncRNA 主要透过与蛋白质结合而发挥其功能,然后再去证明 RNA 在其整体结构内使用短序列连接蛋白质。该研究于 9 月 17 日被刊登于《Nature Genetics》。

该团队推测 lncRNA 中蛋白质结合序列的存在比它们在 lncRNA 中的相对定位更为重要,然后他们也近一步证实该假设。他们首先透过 SEEKR 算法搜寻和比较 lncRNA 中的“k-mer”结合序列,而且不受 k-mers 本身位置限制。他们接着发现,由于 50% 人类和小鼠各自的 k-mer 含量是接近的,而且二者的 lncRNA 可以分为 5 个不同的群落。该算法还有助于预测在细胞内发现 lncRNA 的位置以及它们结合的蛋白质类型。

令人惊讶的是,他们发现人和小鼠 lncRNA 群落彼此非常相似,但是某些哺乳动物的 lncRNA 群落,甚至在远缘动物中,也有明显的对应物。例如在哺乳动物 HOTTI (一种 lncRNA)群落似乎在其他脊椎动物甚至海胆中都有表亲 lncRNA 群落。

在其研究的最终测试中,他们合成了完全人工的 lncRNA,设计它们包括在 Xist 中发现的 k-mers,同时确保分子的整体序列不同于任何已知的 lncRNA。接着,他们再透过 SEEKR 算法分类人工 lncRNA,然后发现与 Xist 具有最高预测功能相似性的那些 lncRNA,在Xist 类活性测试中也仍有具有最高的实际功能相似性。

最后且重要的是,该研究团队希望使用 kmer 方法来研究和癌症等疾病中的重要lncRNAs。此外,他们也期望不断改进该研究方法,以更好地从序列讯息预测lncRNA 的功能。

延伸阅读:基因也环保 ?! 长链非编码 RNA 的诞生

参考资料:
1. https://www.sciencedaily.com/terms/human_genome.htm
2. http://news.unchealthcare.org/news/2018/september/scientist-reveal-way-to-map-vast-unknown-territory-of-long-non-coding-rna
3. Nature Genetics, 2018; DOI: 10.1038/s41588-018-0207-8

©www.geneonline.news. All rights reserved. 基因线上版权所有 未经授权不得转载。合作请联系:[email protected]