本文摘自雷锋网,原文链接:https://www.leiphone.com/category/healthai/cSjOyP1rbNlxUBzM.html,侵删。
过去,一个博士生直到毕业,恐怕并未见过蛋白质设计出来的样子--需要一段一段敲掉某些天然蛋白质片段,再人工设计、拼补上去。现在科研人员通过AI模型一次性提交几十个蛋白质设计需求,几个小时后便马上收到一份设计结果和分析报告。生命科学的下一个时代,似乎来了。
ChatGPT引发的新一轮AI浪潮,正在席卷生命科学界。
2023年初,ChatGPT大火。继去年1月30日上线第5天用户获增100万,如今短短两个月时间,ChatGPT日活用户已超1亿,成为历史上增长最快的消费级应用程序。直到今天,与之相关的讨论仍层出不穷。
伴随着ChatGPT的火热,国内市场也很难平静。
百度、阿里、腾讯、网易、京东、360、字节等耳熟能详的大厂接连入局,一度将“AI大模型”推向主流;不少小型企业借助这一概念抬高股价,就连求职榜上的算法、NLP、AIGC等相关岗位,也涌入了一波又一波的年轻人。
ChatGPT再次将AI技术推向幕前,最令人惊喜的莫过于生成式AI与生命科学的深度融合。
近日,国内AI公司天壤智能发布了基于扩散的生成模型TRDiffusion,这是一种蛋白质设计的新方法。
TRDiffusion从零开始创造,生成全新的蛋白质结构,而非自然界中已经存在的天然蛋白质。在相同计算资源配置和时间内,TRDiffusion完成的设计数量提升了2倍以上,设计结果与之前方法的结果表现出更强的多样性。
实际上,早在2022年9月,天壤就上线了蛋白质工作台xCREATOR,实现“一键设计满足描述的蛋白质”等需求。
“相比较而言,新模型将蛋白质设计周期从两天缩减为几小时,改变了过去‘延迟满足’的设计模式。”
天壤创始人,CEO薛贵荣对雷峰网&《医健AI掘金志》表示,“换句话说,一个分秒必争的蛋白质设计时代正在悄悄拉开帷幕。”
基于扩散的蛋白质生成模型,或成第四代蛋白质设计新方向
蛋白质是一种含有特定氨基酸序列的分子,因其空间结构的不同,决定了生物学功能的差异。
因此,当天然蛋白结构功能,不能满足工业或医疗应用需求时,想要得到特定的功能蛋白,就需要对其结构进行设计。
然而,自20世纪80年代以来,蛋白质设计却一直受限于人类对蛋白质折叠的理解不足而停滞不前。
苗洪江来自天壤XLab,是该实验室的负责人。
他表示,蛋白质设计最早出现在20世纪80年代,共经历三个阶段:
第一代蛋白质设计通过简单化学原理指导二级结构片段的组装。
第二代蛋白质设计加入了专家经验,通过序列-结构关系指导结构片段组装。
第三代有了明显突破,一方面借助更大的天然蛋白质数据库增加结构片段多样性,同时借助从已知结构中终结的物理及知识能量函数,寻找能量最小的目标蛋白质。
但总体来说,前三代设计方法都存在极大限制,比如过度依赖专家经验或者天然蛋白质。直到21世纪,随着蛋白质三维结构数据的快速增长,尤其是2020年底,AlphaFold2在高精度蛋白质结构预测上取得了革命性进展,获得了蛋白质序列与结构之间的高纬关联,以AI主导的蛋白质设计也随之爆发。
正如深圳湾实验室周耀旗教授所言,“在后AlphaFold时代,大家自然而然地想要解决一个实用的反问题:根据某个功能的结构,设计出相应的、能够折叠成这样结构的蛋白质序列。现在,几乎每隔一小段时间就有一篇AI蛋白质设计的预印论文出现。”
2022年,AIGC绘画爆火,普通人只要用语言给出描述、或者几个关键词,就可以用AI程序生成一张媲美专业画师的作品。
与此同时,AIGC背后的关键技术--“扩散模型”也成功出圈,一度启发了计算生物学家。
2022年12月1日,蛋白质设计领域的领军人物David Baker、波士顿的蛋白质设计公司Generate Biomedicines,同天宣布“将AI绘画领域的扩散模型融入蛋白质设计中”。
然而问题随之而来,“基于扩散的蛋白质生成模型”究竟有何优势?
据苗洪江介绍,“相比其它模型,基于扩散的生成模型更接近人的思维模式,也是AIGC拥有开放性创造力的原因之一。其工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转噪声过程来学习恢复数据。”
通俗来讲,在环境中,气体分子会高浓度区域扩散到低浓度区域。这一过程也类似噪声逐步扩散,最终导致声场充满噪音。如果这一原理逆用,则是不断“去噪”,露出事物“真面目”的过程:
首先,生成一张充满大量噪声的图片; 再基于 AI 能力,一边猜测哪些对于最终的图像而言是“噪点”,将其去除,那么剩下的便是所需的“信息”; 通过迭代,在噪声中反复提取出“信息”,最终生成被指定的图片。
事实上,天壤此次带来的TRDiffusion模型,正是采用的扩散模型。
苗洪江进一步介绍,“当TRDiffusion模型生成蛋白质时,是将蛋白质中每个残基的主链结构,看成可以自由移动的刚体,生成结构的初始坐标为随机噪声。再通过‘去噪模型’,逐步地将随机分布的残基,移动及组装成合理的蛋白质三维结构。”
天壤TRDiffusion的原理图示:不断去噪,设计出新的蛋白质
值得一提的是,蛋白质设计是结构预测的逆向问题。有人形容道,“两者像是「序列——结构」这道题的正反求解。已知序列、求解三维结构,是结构预测;设定某个三维结构、求解序列,便是蛋白质设计。”
因此,此前天壤自研的蛋白质结构预测模型TRFold,也顺势被TRDiffusion二次利用。
苗洪江解释道,“TRDiffusion中的‘去噪模型’,继承了结构预测模型TRFold的主体网络结构,并利用TRFold权重作为初始化,满足空间旋转平移等不变性。”
目前测试结果显示,在相同计算资源配置和时间内,TRDiffusion完成的设计数量较之前模型提升了2倍以上,设计结果与之前方法的结果表现出很强的多样性,比如自由设计、复合体设计、对称性设计、局部多样性优化、功能蛋白质设计、结合配体设计等设计需求,更能针对用户设定的目标蛋白质局部或整体结构、蛋白质分类、种属及功能标注等进行调控和设计。
天壤 TRDiffusion 生成的全新的蛋白质结构
据苗洪江介绍,该模型将在2023年2月下旬上线蛋白质工作台xCREATOR。届时,用户只需在平台输入目标蛋白质的简单描述,如序列长度、结构对称性、目标功能motif、结合配体结构、化学计量等,即可“一键生成”满足描述的蛋白质。
蛋白质设计风口已来,业界比拼大模型热情不减
实际上,在2023年当下这个时间点,蛋白质设计领域早已暗潮汹涌。
相关阅读 >>
90年代「最好基因测序算法」发明人徐鹰:AI生命科学的30年快意人生
国产oled掌机ayaneo AIr发布会定档5月14日:价格亲民
google cloud和高通合作开发vertex AI nas 实现AI模型的自动创建
更多相关阅读请进入《AI》频道 >>