但真实情况下确实是这样吗?并非如此,为什么?
诱导契合学说(induced- fit hypothesis)谈到,在对接过程中,不仅小分子自身改变pose(构象),结合空腔中的氨基酸残基位置也会改变,有时候可能会导致蛋白质loop区域的位移,即配体和受体双向奔赴的过程。
所以,我们现在能不能用一种更好的建模方式,同时把这两种分子作用在一起?
实际上,AlphaFold2-Multimer(专长于蛋白复合物特别是结合界面结构预测的模型)已经初步尝试co-folding的方式,效果非常好。
那么类似的理念用到蛋白质-小分子的相互作用上,会不会也有奇效?答案是肯定的。
我们这次参赛的方法就是利用了类似理念。把AlphaFold2的这套方法,在蛋白序列后面再加上小分子frame,通过frame再构造成一个整体相互作用的模拟。我认为,未来这条路径一定大家都选择的方向,因为它更加偏向真实的物理过程。
郑伟:在蛋白质-小分子的binding问题上,早些年CASP其实一直在关注这个问题。在CASP10之前一直有一个赛道---蛋白质功能预测(protein function prediction),用于预测蛋白质ligand binding site。当然它没有特异性,只让你预测蛋白质的哪个位点可以绑定小分子,选手只要给出该预测信息即可。
但在CASP11之后,这条赛道就一直被取消,直到本届CASP15又重新设置基于Pose的蛋白质-小分子结构预测赛道。
因此,我觉得蛋白质-小分子赛道重新提上日程,而且是以更加精细的预测项目出现,一个重要原因是蛋白质单体或者蛋白质复合物的结构预测精度已经非常高。
我们有了蛋白质结构、小分子的具体的binding位点,binding pose、以及具体的小分子信息之后,你可以预测工作就更多了。整体来看, CASP的赛道设置不是特别割裂,每条赛道之间都相互促进。另外,我非常同意王晟师兄的意见。我们确实应该系统考虑蛋白质-小分子的折叠问题,而不是先折叠蛋白质,再让小分子“打配合”。
实际上,PDB数据库中解析的真实实验结构,很多蛋白质可以配合小分子,也可以不配合小分子;甚至一些蛋白质和小分子配体后,但它的侧链结构,甚至主链结构都会发生小范围的变构。
所以蛋白质本身在折叠过程中,或者和小分子配体去做联合折叠时,它不应该是一个彼此割裂,或者“先有鸡还是先有蛋”的问题,它肯定是一个联合发展的折叠问题。
因此,如果我们利用类似于共进化信息,控制蛋白质-小分子的体系,是更有预测优势的。当然,具体怎么构建这种蛋白质和-小分子共进化,可能比较难。
因为即使在结构预测领域,共进化也不是百分之百都解决透了的。而且在蛋白质复合物里面,共进化要比单体更难。所以推广在蛋白质-小分子问题上,我们怎么设计共进化,或者是怎么发现潜在的共进化就更难了。具体的药物落地这一方面,我研究得不是特别多,张贵军、常珊两位老师已经总结得很好。
熊鹏:关于蛋白质-小分子的相互作用,我研究比较少,也就不发表太多的评论。我主要跟大家谈一谈RNA-小分子结合的问题。
RNA结构和蛋白质结构有很大差别,因为蛋白质的最小折叠单元是domain,每个domain有一个疏水折叠核心(hydrophobic folding core),那些小分子结合的口袋,都是位于domain内部或者domain之间的空腔,预测蛋白质和小分子的结合,需要先预测蛋白质的整体结构。
但RNA所有的基团都是极性基团,在折叠过程中并没有类似的疏水核心。所以RNA的最小折叠单元并不是domain,而是motif(少数碱基形成的结构模块),由motif组装后形成RNA的三维结构以及小分子接口。
CASP15上有好几个target,都涉及RNA和小分子的相互作用。但这些相互作用并不牵涉到整个RNA结构,只是牵涉了其中一些motif。比如R1117 target,就是小分子结合到差不多十来个碱基左右的motif口袋中;还有一个是人工设计RNA,其来源也是将一个结合小分子的天然motif,拼接到人工设计的框架上。
也就是说,对于和RNA结合的小分子而言,它与RNA的结合并不牵扯到RNA的整体三维结构,而只是作用于结构中的特殊motif。因此,如果我们要针对RNA的小分子做药物设计,问题的关键并非RNA的整体形状预测,而是RNA内部功能motif的预测。
这也是我之前一直非常强调的问题。可能我们并不需要过度关注RNA的端对端预测、overall fold预测,如果能够把RNA的一些关键结构的motif预测好,那么对于理解RNA的功能,比如说如何结合小分子就已经足够了。
王晟:熊老师讲了一个非常深刻的观点。因为我们知道RNA结构中,很多地方它是飘在那里的,类似于蛋白质里的intrinsically disordered regions (IDR) 。
熊鹏老师希望我们抓住问题的本质,也就是说,RNA跟蛋白质是类似的,都有一些motif组成的区域,只不过相对来说,蛋白质的这种刚性区域多一些,IDP相对少一点;RNA的非刚性区域可能会更多,但如果RNA要和小分子等结合形成结构,一定会有motif的存在,把它们给咬合在一起。
因此,从RNA的这点特性出发,对于我们理解RNA功能,如何设计把靶标于RNA的小分子抑制剂都至关重要,而且对于我们今后如何去预测RNA结构也提供了全新思路。
ChatGPT在生命科学领域的前景如何
王晟:再谈一下时下最火热的话题——ChatGPT。这段时间,以ChatGPT为代表的AIGC概念相当火爆。不少生物计算实验室也拿出了一些成果。 能否站在您的角度,谈谈AIGC在AI生命科学领域的应用前景?
常珊:ChatGPT的放在生命科学领域来说再合适不过了。因为我们去表述生命科学中的一些分子,不管是核酸、蛋白还是小分子,都是以类似于语言“序列”的方式去表示,比如DNA 序列,蛋白序列、小分子SMILES。所以我觉得ChatGPT背后的语言模型天然适合生命科学研究,生命科学研究者也要尽快训练大型语言模型理解蛋白质、分子、DNA和RNA。
刚才王晟提到几个程序,我之前看过文献,但没有深入地去看这方面的算法细节,但GPT和ChatGPT出来后,我发现它的算法可以直接用在生物上,但是我们也要注意两个潜在问题。
ChatGPT在训练过程中,数据有很多,而且处理得比较干净。但对于生物学数据来说,哪怕在PDB数据库中的数据也可能有错误,而且这些错误数据可能没法通过简单方式做清洗。只有通过大量的实验才能做精确筛选。因此,在当前的生物学数据现状之下,训练完成的算法/模型都会有一些影响。
二、模型公开试用加大负反馈风险。
模型如何做验证,最常用的方法就是开放做公开试用。对于ChatGPT这种通用型模型来讲,大家会担心广泛且公开的试用,如果反馈学习可能会把模型“教坏”。但对生物学模型来说,判断一个模型好坏还是需要一些实验的方法,但是反馈可能会慢一些,导致模型迭代优化的速度会相对缓慢。
我们最近也用语言模型做了一个抗菌肽的序列设计,核磁解析的结构发现和设计一致,所以我觉得语言模型天然具有优势,只是在数据、模型后续迭代上需要进一步完善。
一、AIGC等生成式AI技术现在确实非常火,我们已经看到ChatGPT技术、扩散模型等技术在小分子三维构象、蛋白质复合物预测等生命科学领域的潜力,未来可能会引领下一场变革。
三年前,我对人工智能的态度是,这个技术是生物信息研究中的一个必要条件,但不是充分条件,不是我们做什么都要用人工智能。但经过几年发展,我的想法也在不断改变。因为人工智能可以建立了强大的能量模型拟合函数,甚至包含上千亿个参数的大模型。在这种基于数据的模型表达下,或许AI真的能够充分表征生命系统。
刚才大家讲到的生命系统,有蛋白质、核酸等发分子表达,这些都可以想象成是通过 “生命语言”来进行调控。蛋白质序列本质上类似于自然语言:氨基酸以多种组合排列形成具有功能的结构,就像字母构成单词、单词形成句子所具有的含义一样。因此,在自然语言处理(NLP)技术应用到蛋白质结构建模问题也就不足为奇。
但人工智能进行蛋白质研究时,我们应该如何规避潜在问题?
一、围绕蛋白质做系统性研究。
人类基因组编码的蛋白质数量不少于20万个,但目前已知的只有2万多个,但由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍是个谜。但可以确定的是,其余大部分蛋白质编码基因都在做调控。因此,未来需要进一步协同考虑蛋白质跟小分子、DNA、 以及RNA等相互作用,从而进行相关设计。
二、从生命本质出发研究问题。用AI研究生命系统,实际上是人工智能模拟生命系统。因此,回到最本质的问题上,什么是智能?生命能够被完全模拟吗?
实际上,现在进行的蛋白质结构预测和设计,以及RNA研究、复合体研究等,它们即便能够通过语义、语法与规则被表达出来,但它们如何形成“生命”?事实上,蛋白质本身是没有生命的,通过蛋白质之间的互作以及细胞之间的协作,最终才形成生命活动,这是需要思考的一个方面。
就预测而言,现有挑战在于揭示蛋白质的折叠机理和活体状态的多态问题。目前AI模型拟合出来的还是一个静态的蛋白质结构;
就设计而言,脱离实验室条件,人工设计的蛋白质安全性、稳定性、耐药性(人工设计蛋白进入体内,白细胞可能会把它当成一个病毒来处理,马上产生抗体,蛋白质就可能会失效)如何都不得而知,而能否适合工业生产又有很多不确定性。
因此,回到问题的源头,为什么人是有生命的?因为人体存在一系列的群体连锁反应,最后组成了一个复杂的、拥有智能和意识的生命体。
在前不久的第11届全国生物信息学会议上,来自军事医学院的李昊称,“最近的模型可解释性方法将使我们能够打开“黑匣子”,从而增强对折叠原理的理解。”足以看出生成语言模型在设计功能序列方面的巨大潜力。
目前我们课题组也在不断深入研究,从最初采样到现在的能量模型,接下来我们就考虑蛋白质整体结构预测、多域、复合物模型,以及相应的模型质量评估技术。
郑伟:AI生成内容最近特别火,我也在关注,ChatGPT和stable diffusion都试玩了一下,从AI产生的内容质量来看,确实蛮令人惊叹。
相关阅读 >>
openAI推出新版图像生成器dall-e 3,10月份开发
对话柏视医疗总裁徐晨阳:让中国的AI肿瘤治疗,成为一张「世界级名片」
大众贷客服电话大全已更新2023(实时/更新中)担心过于依赖openAI被卡脖子 软件开发商纷纷寻
中国联通网络AI平台获中国信通院人工智能开发平台全能力域“四级”认证
广东联通与华南理工、琶洲实验室战略合作 共同推进“大湾区AI与安全研究中心”落地
AI搜索之战被指反应迟缓 谷歌ceo:“迟到也能赢”是公司传统
更多相关阅读请进入《AI》频道 >>