GAIR Live | 五位学者大论道:AI生命科学的哪些命题,才是ChatGPT的主战场? |(上篇)


当前第2页 返回上一页

AIGC出现之前,我们已经用计算机在生物学上做了很多工作,也产生了很多内容。现在AIGC突然之间红火起来,实际上是对CGC的重新包装。

我们以前做分子动力学,用计算机模拟的方法研究蛋白质的运动、功能等等,这些都属于CGC的范畴。

现在的AIGC和以前计算机生成内容不一样的地方在于,AI主要是利用大数据进行训练,产生一个新的content。这个概念可以跟以往相区分,因为AIGC与以往用户、专家、计算机产生的content有完全不同的系统错误率和偏好。把它们区分开有利于我们进一步的分析和研究。

AIGC的一个特殊之处在于,它产生内容的速度非常快,估计其产生的内容会很快超过人类产生的内容。

AIGC在生物科学中的成果早在ChatGPT之前就已经出现了很多,AlphaFold2可能是其中最亮眼的一个成果,它在不久前就预测了所有的蛋白质结构,并且形成一个数据库,供大家下载和研究,我觉得这就是一个标准的AIGC,刚才潘老师也提到了。

所以在某种意义上,AlphaFold2已经走在ChatGPT前面了,带动了生物领域的革命。

其实不仅仅是AlphaFold2,我们以前用AI方法算了很多东西,包括蛋白质结构预测、蛋白质功能预测等等,虽然当时的准确度还不够高,但本质上也是用计算机产生的content。AIGC刚开始的时候准确度也并不高,比如现在的ChatGPT的准确度还不高,会有很多错误的地方。

我认为通过AI产生的生物学相关的科学文章、综述报告、文章摘要,以及生物学相关的图片、科普音频、视频等等,都属于生物学领域。AIGC和ChatGPT等工具已经开始进入生命科学这一领域。

由于现在的精确度还不够,还没有真正大规模地开始,未来AIGC应该会成为生物学方面很重要的应用。

前几天我测试了一下ChatGPT对生物学专业的内容了解程度怎么样,发现它对基本的知识面了解得很清楚,比如我问它RNA的二级结构,回答是比较精准的。

但是涉及到比较深入的新知识面时,ChatGPT的回答就经常出错。比如我问它AlphaFold2是靠什么成功的,它要么给一个很肤浅的回答,要么给一个完全不正确的回答。

这和ChatGPT的训练数据中的内容有很大的关系,因为训练数据中基础知识比较多,ChatGPT对这方面的知识回答就会比较准确;如果新的知识尚未收录或者少量收录到训练数据中,ChatGPT回答的准确率就会低一些。所以在相当长一段时间里,ChatGPT在专业程度非常高的生物学等领域中应用时,需要小心验证。

薛贵荣:正如刚刚周耀旗老师所讲,如果训练数据足够丰富,ChatGPT就可以生成一个相对专业的答案,当训练数据不够充分时,它生成的答案就不够好了。

一方面,我认为AIGC,特别是ChatGPT对目前已有信息的组织起到了关键作用,它能够将专业的内容组织起来,生成一个较好的答案,但是要依赖于基础库的数据质量与全面性。

另一方面,我认为AIGC的优势在于其创造性,它在图像领域取得的效果很令人惊讶,这表示着AI可以更具创造性地产生一些我们没有见过的知识,相对于更偏重组织的文本内容,对图像领域来说,创造性则更为重要。

就像我们做蛋白质研究,TRDesign设计出的蛋白质结构中,有很多我们没有见过,甚至自然界中也不存在,但是借助TRDesign我们就能够设计生成这些未知的蛋白质。

这些功能将会使AIGC大放异彩,既能将已有的高质量内容组织起来进行内容生产,又能生产未知的内容。

AIGC应用在AI生命科学中所产出的成果也可以分为两个方面,一方面是生成新的药物或材料;另一方面则可以积累大量专家的问诊经验,将其组织起来形成一套寻医问药系统,解决医疗资源匮乏的问题,为普通病人答疑解惑。

但前提是要将AI生命科学领域内大量的数据组织起来,才能推动进一步的研究。

许锦波:AIGC在生命科学领域中的应用比较广泛,比如我们做AI蛋白质设计就是用AI设计自然界中不存在的蛋白质,所使用的底层深度学习模型与ChatGPT的底层技术是一样的。

在这个过程中,可以将蛋白质序列理解为一个句子,将每个物种的蛋白质序列的集合理解为一种语言,所以我们也可以使用自然语言处理领域的深度学习模型来处理蛋白质氨基酸序列。比如用现在大家都在用的transformer对蛋白质序列进行建模,生成新的蛋白质序列。

当然,用AI生成蛋白质和生成自然语言也有不一样的地方,比如除氨基酸序列之外,每个蛋白质都有其特定的三维结构,所以在生成蛋白质时,要综合考虑其序列信息与结构信息进行设计。

此外,ChatGPT中的强化学习部件目前还没有应用在蛋白质设计之中,因为自然语言获得反馈的速度比较快,但蛋白质设计的结果通常需要实验验证才能得到比较正确的反馈,因此不那么容易获得。

除用AI设计蛋白质以外,运用不同的生成算法,AI技术也可以生成DNA、RNA和小分子,在这一领域内也早有人在进行研究。

术业有专攻:生命科学的哪些任务,适合ChatGPT做?

龚新奇:AIGC概念与蛋白质设计或哪些其他任务有天然的契合度?换句话说,什么样的任务适合ChatGPT来做?

薛贵荣:从去年年底到今年年初,国外的David Baker实验室、Generate Biomedicines、Profluent等机构,都发布了蛋白质设计的平台,天壤也在开放平台上发布了蛋白质设计模型TRDiffusion。

蛋白质设计已经经历过几代技术变革,从一开始天然蛋白的改造,到蛋白质定向进化,再到利用大量算力拟合蛋白质。

如今我们开始考虑能不能从头开始设计蛋白质,其难点在于如何做到可控,是完全从头开始设计一个蛋白,还是根据已有的核心片段,将蛋白质补全为符合一定长度的结构,或是对蛋白质序列中的某个片段进行替换,这些任务将来都会变成与系统的交互。

例如将蛋白质中某一个口袋拉大、替换某个片段、添加对称性展示、进行溶水性优化等等,这些原本需要具备多年研究经验的操作,都将在一个系统中表达出来,从而进行可编程、可控的蛋白质设计。

其次,我们也希望从交互上做一次变革。在以往的蛋白质设计工作中,几个小片段的设计都需要花费大量成本进行湿实验做验证。将来我们可以先在计算领域通过干实验的方式进行交互,快速迭代,改变传统实验中复杂的验证方式,将蛋白质设计需要花费的时间从几年、几个月缩短为几天、几个小时。当然最终还是要到实验室中验证我们设计的结果是否满足条件。

我们希望通过交互的变革与可控的设计,在未来的蛋白质设计研究中快速、高效地生产更多的蛋白质,加速工业制造,为人们的生命健康做贡献。

宋乐:在产生新的蛋白质序列、蛋白质结构,以及对蛋白质的可设计空间进行探索的过程中,AI是一个非常好的工具。百图生科做的大规模蛋白质预训练模型、加速版的结构预测模型,都是在AIGC的空间之中,这一技术起到了非常重要的作用。

但其实现在训练的这些生成模型,大多属于非条件的生成。

例如我们使用一个模型生成一张新图片时,要求图片满足画面中有三个人、两条狗,在玩某种特定的游戏,彼此之间有特定的距离等条件,如果要将这一系列的条件生成模型,还需要额外的模型对其进行引导,控制生成我们想要的东西。这些工作目前还非常具有挑战性。

将这些条件转换到蛋白质设计中后,相当于需满足抗体与病毒的抗原在某一个特定的位置结合、结合的亲和力达到某个强度、蛋白质本身比较稳定、蛋白质合成后的可开发性等诸多条件,利用生成模型控制生成满足需求的蛋白质。

为了符合上述各项指标,需要有一个额外的模型对生成模型进行训练,即AIGC模型除了要生成一个具备多样性的先验分布之外,还需要一个给定先验分布到想要的属性之间的预测模型,才能够通过这两个模型的叠加,控制生成一组非常好的后验样本,使生成模型既具备多样性和创造性,同时也能满足对规格的要求。

这个过程中还有很多算法上的工作需要进行,目前已经完成了部分生成模型的模块,以及从生成的序列和结构连接到我们最感兴趣的结构或蛋白质本身属性的模型,AlphaFold2也属于这种连接序列和结构的模型。

还需要对每个模块都进行下一轮的工程与模型效果的提高,才能将其连接起来,达到在AI层面设计很多不同的、满足属性要求的蛋白质的效果。这些工作完成后,可以大大减少湿实验。

通过AI设计的模型,可以先找到最有可能满足规格的蛋白质进行合成,将实验的数据反馈给AI模型,在进行下一轮的迭代设计,从而对蛋白质设计进行加速。

这是百图生科正在前进的方向,我们将构建出一个非常强大的模型,从而减少湿实验的次数,为蛋白质及其相关的药物设计提速。

周耀旗:我们课题组是世界上第一个用AI神经网络来做蛋白质设计的,也是第一个用深度学习来改进蛋白质设计的,这是2014年和2018年做的工作,在当时一直是冷门,最近几年因为AI红了才开始变成热门,突然冒出来很多方法,我们的这两篇最早的论文最近关注度也特别高。

举个例子,新AI设计方法Progen是一个比较好的工作,但是媒体夸大了它的价值。它实际上做的事情就是从大批量的同源序列中学习到了因为结构和功能的需求而必须保留的氨基酸,生成了一个保留了这些关键氨基酸的新同源序列,从而有类似的功能也毫不惊奇了。

这项工作其实还是有很多问题的,比如不能预测所生成的蛋白质活性的强弱,以及蛋白质的活性在不同的pH、温度等条件下会产生的变化,因为这些变化才是我们想用定向进化来达成目标。

返回前面的内容

相关阅读 >>

relx 报告:95% 的企业高管认为一流 AI 人才缺口在加大

openAI:我们正努力减少chatgpt偏见和不良行为

高通公司中国区董事长孟樸:5g和AI融合将加速各

当街霸角色变成3d真人,AI制图赏析

英特尔计划销售sonoma creek软件 简化和加速计算机视觉AI训练

共建AIot生态,旷视2022企业业务合作伙伴大会北京站首站圆满成功

AI开发“众筹模式” 为矿山行业找场景和应用――第一届全国煤炭行业矿山AI大模型大赛决赛暨颁奖典礼在京举行

AI上海范】为千行百业打造AI数字底座

以疾病模型平台+AI赋能创新靶向药研发,希格生科再获近千万美金天使+轮融资

idc:2026年中国AI市场规模将超264.4亿美元

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...