您当前的位置: 首页» 动态信息» 学术之光» 中国农业科学院博士后开发基于人工智能的DNA顺式调控元件设计新方法

中国农业科学院博士后开发基于人工智能的DNA顺式调控元件设计新方法

文章来源:院博管办 | 作者:  点击数: 次 | 发布时间:2024-11-11 | 【 字体:    

近年来,基于人工智能进行蛋白质结构预测和蛋白编码序列的从头设计为整个生命科学领域带来了巨大的变革,今年的诺贝尔化学奖也授予了该领域做出开创性工作的三位科学家。然而,相比于只占基因组3%-5%的编码区序列,利用人工智能设计基因组中非编码顺式调控元件序列(CREs)的研究还非常少。CRE在基因表达的时空模式中扮演着关键角色,决定了细胞和组织的身份和功能。因此,无论是在合成生物学生物反应器中提高目标产物的表达、基因治疗中精准控制药物蛋白的表达,还是在生物育种中通过微调功能基因的表达量提升经济性状的表现,都迫切需要利用人工智能设计全新的CRE序列。

增强子是CRE中最为重要的一类元件,控制着基因的时空特异性表达。然而,由于增强子调控语法的复杂性,传统的增强子设计方法通常依赖于繁琐的迭代突变以及已知DNA基序的组合操作,精准设计符合需求的增强子序列面临巨大的局限性。去年12月,Nature发表的两篇文章首次利用深度学习算法进行了增强子的从头设计,但是其计算模型还存在优化的空间,且设计的增强子在活性上相对于自然序列提升非常有限,并没有完全释放从头设计DNA序列在合成生物学领域的巨大潜力。

为进一步探索增强子设计的解决方案,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)刘毓文团队和清华大学倪建泉团队合作在《核酸研究(Nucleic Acids Research)》上在线发表了题为“A novel interpretable deep learning-based computational framework designed synthetic enhancers with broad cross-species activity”的研究论文。该研究开发了DNA顺式调控元件的可控活性设计平台,简称DREAM(DNA cis-Regulatory Elements with controllable Activity design platforM),旨在彻底变革增强子等顺式调控元件的设计方式。DREAM具有高度的可扩展性和解释性,能够自动从头设计具有用户理想性质的启动子、增强子、沉默子。

image.png

图1 DNA顺式调控元件的可控活性设计平台。

通过基于Squeeze-and-Excitation注意力机制的深度学习技术 (SENet),DREAM自动学习和识别与调控活性相关的DNA“词汇”,并基于这些知识精确预测增强子的活性。研究表明,与现有的其他基于序列预测功能的模型相比(包括Nature中首次增强子设计用到的DeepSTARR算法),DREAM的增强子活性预测模块在准确性和性能上有显著提升。

image.png

图2 DREAM具有超高的元件活性预测性能。

此外,DREAM兼具超高的元件活性性能预测能力以及良好的生物学可解释性,因此DREAM可以将学习到的增强子的调控语法用于后续的元件设计任务之中。在PCC、MSE等四项指标上,DREAM均超越目前主流的顺式调控元件预测模型。同时DREAM能够有效地捕获调控元件相关的DNA motif的特征。同时基于该框架,研究人员揭示了增强子元件中motif具有的位置效应以及距离依赖的上位性效应。由于其透明性,用户可以明确地了解在调控元件的设计和优化过程中,元件活性有关的重要的DNA特征是如何被利用和组织的。

image.png

图3 DREAM可以捕获增强子相关的DNA motif并揭示motif的位置效应以及距离依赖的上位性效应。

研究人员利用DREAM模拟了果蝇基因组中发育增强子和持家增强子进化动态,并成功设计出具有超强活性的增强子元件。这些元件的序列分析表明设计序列在motif的数目,空间排布、多样性、结合力以及GC含量等方面具有与自然元件截然不同的性质。研究人员合成了增强子DreaMer001,通过双荧光素酶实验测定其活性达到了果蝇基因组中最强天然增强子的3.6倍,同时构建了转基因果蝇在体内测量了该元件元件的活性,结果表明该元件在果蝇体内可以提高报告基因转录活性约10000倍,进一步证明了该元件具有极强的增强转录活性的能力。更为重要的是,这些经过DREAM设计的高活性合成增强子不仅在果蝇S2细胞中表现出超高的活性,还在包括人类、小鼠、猪在内的多种物种的不同细胞系中具有超强的活性(平均为CMV增强子活性的2倍以上),在SF9细胞中DREAM设计的增强子活性是Hr5增强子活性的15.7倍,另外该人工设计元件在鸡(DF1细胞)以及鱼(精原细胞)分别是CMV增强子活性的7.6倍和26.6倍。这表明DREAM有能力通过计算设计比自然进化产生的更高效的基因调控元件,也揭示了增强子调控语法的跨物种保守性。另外,DREAM框架具有的良好可扩展性,研究人员进一步展示了细胞特异性的强增强子,高AT含量超强增强子,具有固定酶切位点强增强子,以及强沉默子元件的设计。值得注意的是,研究人员利用DREAM获得了能够降低基因表达44.7倍的超强沉默子DreaMer002。这些结果证明了DREAM的设计成果在实际应用中具有广泛的应用场景和可靠性。

image.png

图4 DREAM设计的高活性增强子在多物种的不同细胞系中具有超强的调控活性。

基因组所(大鹏湾实验室)刘毓文研究员和清华大学医学院倪建泉教授为本研究的共同通讯作者;基因组所(大鹏湾实验室)博士后李昭宏、博士生张圆圆、清华大学博士生彭博、和基因组所(大鹏湾实验室)硕士生秦胜华为本文的共同第一作者。刘毓文研究员长期从事非编码CRE的高通量定量和调控语法解析,并应用于复杂性状遗传机制解析;倪建泉教授长期从事果蝇中基因编辑技术的开发和应用。该研究工作获得了十四五重点研发项目和国家自然科学基金项目的支持。