GAIR Live|五位学者大论道:ChatGPT,能否重构中国生命科学界的底层逻辑?|(下篇)


当前第2页 返回上一页

另一方面,无论是AlphaGo还是AlphaFold2,都是某一领域的专业软件,但ChatGPT更像一款平民版AI,能够承载几个亿的用户一起测试,因此,它在覆盖面、影响力上,都远超AlphaGo和AlphaFold2。未来,大家肯定希望像ChatGPT这样的技术能够应用在生命科学场景中。

比如,现在的医疗问题是大家有问题找专家,但在医疗资源分配不均、医疗供给量不足的情况下,这一问题始终得不到解决。那么ChatGPT就可以发挥出“消费级应用”的特长,渗透入看病、制药等环节,降低专家依赖,一步讲清所有深奥的“病理、药理”。而经历过疫情三年后,大家更关注健康问题,我们也更加期待ChatGPT能够联姻生命科学,实现跨越式发展。

许锦波:从AI的角度来说,ChatGPT的出现意义可以和AlphaGo、AlphaFold2相提并论。它们都是重大技术突破,激发的讨论突破了业界的范畴,外溢到公众层面,可见影响力巨大。但是从生命科学角度来讲,在蛋白质设计等方面,ChatGPT并不专精。实际上用AI进行蛋白质设计或预测蛋白质结构,两年前甚至三年前就发生了,只是模型比ChatGPT更小,当时的算力也比较小。

因此,如今AI领域面临的重要问题是,现在的算法跟两年前的AI算法,到底有没有本质上的区别?

至少目前来说,我没看到本质上的区别。当然,在蛋白质设计上,现在的算法相比于传统算法确实取得了进步,很多人也在讨论,我们是不是要研发出一个ProtGPT,大幅度提高蛋白质设计的成功率?但要明白一点,所有通过AI设计出来的蛋白质都要有湿实验验证。如果未来AI能够大幅度降低对湿实验的要求,降低实验成本和时间,甚至用计算验证来替代实验验证,那将是更大的进步。

技术不确定性,成为最大隐忧

当ChatGPT/AIGC大展拳脚,生命科学领域最明显的变化会是什么?另一方面,这种概念对于生命科学行业,是否有不确定性或者危机?

周耀旗:我觉得AI已经为生命科学带来了很大变化,特别是AlphaFold2对大部分蛋白质结构的预测,与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平。这一重大成果虽然没有引起媒体和广大民众的关注,但生物领域的科学家反应强烈。

可以说,AlphaFold2对生物机制的理解,对药物设计都带来了正面影响。当然,未来AIGC一定为生命科学带来更大的变化,比如AI设计的蛋白质会越来越多,进一步补充PDB蛋白质结构数据库、功能库,推动人类对生命科学的理解进入到一个新的高度。

与此同时,ChatGPT对于生命科学行业也有很大的不确定性:

一、预测是否错误,错误率是多少,以及是否误导用户。因为AI是通过海量数据训练出来的,因此这一缺点也与大数据的问题一样:数据很精确但错得离谱。相比而言,AlphaFold2有一个plDDT打分函数,但是打分函数并不一定完全正确,有时候还是错的;

同时,我们也不可能对每个设计结果都做验证,所以有时候还是很受误导,得出一些错误的结论。但目前我觉得是可以忍受的,因为模型训练本身就是在纠错,除了蛋白质设计以外,其他生物高分子的应用也是会越来越多,不仅仅DNA、RNA、代谢组、糖等各方面都会大展宏图。

二、鉴于ChatGPT会把原来一篇文章重新编辑,那么我认为未来最大问题是出现假论文、编造假实验数据、甚至用这个技术做坏事,比如产生新病毒、新细菌,都是潜在风险。

所以长期来讲,AIGC会随着时间更加成熟,这种不确定性和危机也会更加隐蔽,可能十几年、三十年左右就会来临。我们需要在科学研究能力和风险管理上提前做好准备。

宋乐:我可以想象,随着数据量越来越多,算力越来越强,AIGC模型本身的生成能力,以及各种外挂功能(亲和力、稳定性、表达量)的加持,或许未来非常多的蛋白质设计工作都是在计算机里进行,后端的湿实验数量就会大大减少。

那么当ChatGPT/AIGC大展拳脚,生命科学领域最明显的变化,我认为有几点:

一、实验人员减少,要求也因此下降,未来或许也不需要那么多的人体临床实验;

二、实验工作者也要学习数据分析,朝AI的方向走,以及一些高校会将计算机课程设立为药物、生物等专业学生的基础课;

三、一些新的工作机会也会创造出来,比如如何更好地衔接外挂和AIGC模型,如何真正地推动AIGC模型加速药物设计。

但从我的感受来,生物的复杂程度各不相同,比如目前数据量最大的蛋白质序列,那么“AIx蛋白质设计”会最快落地,可能是未来3~5年。但是复杂度更高的领域,比如蛋白质相互作用、细胞设计及相互作用、器官设计以及相互作用,它们需要更多的数据,更大的算力、更长的时间打造AI模型。

总体来说,AI在朝着那个方向走,只不过是时间长短的问题。

薛贵荣:可能我们最快感受到的变化,是药物研发速度大大提高,比如以前研发一款新药究竟有多难?医药界有个“双十定律”:一款新药从研发到上市,平均需要10年时间和10亿美元的投入。

那么AIGC的发展,时间、资金可能都会缩短,准确度还会有比较大幅度的提升。

当然周教授也提到,或许不同目的的人会加速制造一些病毒细菌,那么未来监管局既要推动优势药物上市,也要防范生化危机,需要尽快建立系统性的管控制度和规范。

潘毅:刚才几位教授都讲得非常好,那么我认为,ChatGPT/AIGC这种技术应用在生命科学领域,第一大危机是什么?

因为生命信息领域有诸多基因数据库,假设有人放入一万个有攻击性的数据,并将某些基因数据跟疾病关联,最终预测结果失准。目前我们还没有看到这样的事情,因为ChatGPT刚刚出现,大家普遍想用它写出“好文章”,前后衔接、逻辑连贯、辞藻优美。但如果你的目的是生成有破坏力的内容,就会拿“烂文章”训练它,甚至ChatGPT也可能被引诱去做坏事。

二、巨大的算力和电力消耗量。

从技术原理来看,ChatGPT基于Transformer技术,随着模型不断迭代,层数也越来越多,对算力的需求也就越来越大。从运行条件来看,ChatGPT完美运行的三个条件:训练数据+模型算法+算力,需要在基础模型上进行大规模预训练,存储知识的能力来源于1750亿参数,需要大量算力。

要知道,一个参数要很多数据支撑,近2000亿的参数中需要多少数据,要消耗多少电?假如每个国家每个地区都这么做,能源可能就是一个问题。所以规模也不能这么扩大,我还是强调打造专业领域的BioGPT。

三、用户沉湎、数据隐私、版权伦理。

用户过分依赖于AI从事内容创作,可能导致内容非原创,缺乏创造力,引发版权问题,甚至隔绝物理世界,影响身心发展,社会整体运作效率反而降低。

许锦波:ChatGPT带来的好处,至少让AI蛋白质设计领域的从业者更有信心。最近一两年,由于AI的深入发展,蛋白质结构及功能研究取得了巨大的突破,从传统的物理和统计方法快速走向机器学习,乃至深度学习;分子生物学界的研究范式,也从基于序列的研究转向基于结构的研究,极大提高了蛋白质从头设计的效率。

而在产业界,AI蛋白质发现和设计也乘势而起,成为全球瞩目的热门赛道。

但目前来说,大家还无法确定:AI设计蛋白到底能做得多好?相比于传统方法效率能提高多少?实验要求能够降低多少?这些都还需要继续探索。

手握ChatGPT入场券,中国能否「弯道超车」?

龚新奇:黄民烈教授接受采访及近年的现象所示,美国在AI的基础研究上积累深厚,中国则是强于AI的场景应用。在ChatGPT之后,百度将于3月上线ChatGPT产品,名为文心一言。当AIGC用于生命科学领域,中国在技术落地、产业转化上,是否具备“弯道超车”的机会?

薛贵荣:最近AIGC和ChatGPT的讨论特别多,国内又兴起了一波AI热潮。但就像刚才潘毅教授讲到的一个关键问题:必须建设各领域的专业版GPT。

在各块专业领域,中国已经积累了大量知识库,或许我们有机会做到弯道超车。尤其是在生命科学领域,中国的蛋白质设计技术与国际基本上处于同一水平,已经实现了核心技术的原始创新,为工业酶、生物材料、生物医药等功能蛋白的设计奠定了基础。

举个例子,去年12月1日,华盛顿大学David Baker团队发布了RFDiffusion、同日波士顿蛋白质设计公司Generate Biomedicines发布了扩散蛋白生成模型Chroma、同月Meta发布基于150亿参数的ESM2语言模型,实现全新的非天然蛋白质设计。今年年初,加州伯克利的一家初创公司Profluent也称采用类似ChatGPT的蛋白质工程深度学习语言模型——Progen,首次实现了AI预测蛋白质的合成。目前我们也自研了一款扩散模型TRDiffusion,设计多种多样与天然蛋白质截然不同的全新单链蛋白质及复合体,目前已进入实验验证阶段。

实际上,无论是中国也好,美国也好,最大的优势是大家都能利用蛋白质设计技术,撬开生命科学的窗口。那么后续大家会更加重视生命科学的产业环境,无论是创新药环境、环保能源环境、食品安全环境等等,都会跟上技术研发的速度。所以我觉得,无论是科技研发、产业落地、还是风险投资,我们一定要对未来的产业环境有足够的信心和投入。

对于天壤而言,未来在算法升级,干湿实验室搭建、平台开发上都需要很大的投入;

其次,大家都知道,蛋白质被称为“生命的基石”,在已知的天然蛋白质的背后,蕴藏着一个隐密而巨大的“蛋白质矿山”。大家都想最先找到那块金矿,这方面特别考验团队的算力、算法、人才队伍,以及下游的产业合作。所以这是一个联动的工作,研发做快了,后面也得跟着快。

因此,回到刚才讲到的中国能否弯道超车的问题,我认为这是一个非常具有挑战性的事情,但最根本的一点,我们不能从一直follow别人的技术,而是要从中国本土的产业转化和人民需要上找问题,这才是我们弯道超车的机会。

周耀旗:我认为如今的ChatGPT有点像新一波AI热潮。

2020年AlphaFold2出来的时候,大家对AI的兴趣特别大,很多投资方出手,但很快发现AI公司并没有那么快出效果,所以去年AI热度又降了下来。如今ChatGPT让AI再次回热,但也有人发现它距离SOTA (state-of-the-art model,最先进的模型)还有一段距离,所以我估计大部人很快又会失望。

另一方面,从公司的角度来说,OpenAI公司成立于2015年,8年时间才产生了ChatGPT这样的轰动项目。但国内有多少家投资商和公司,有耐心等8年?

有人说,中国会发展出更好的ChatGPT,认为中文内容的广度、深度远远超过英文内容。实际上,如今即使是中国人所发表的前沿知识,大部分都是以英文的方式呈现。英文知识库扩大的速度很快,而中文很慢。因此,只有把中英知识全部结合起来,才能充分利用全人类的积累的知识。

返回前面的内容

相关阅读 >>

中科院 AI 团队最新研究发现,大模型可通过自我验证提高推理性能

AI如此动听,讯飞智能助听器试用

英伟达gtc大会上黄仁勋主题演讲将聚焦AI

得印pos机全国官方客服电话热线大全已更新2023(实时/更新中)微软专为网络安全专家推出AI聊天机器人

meta 发布全新 AI 模型 seamlessm4t

夸克举办“AIgc与场景化应用创新”主题研讨会 探讨大模型应用新趋势

openAI ceo回应chatgpt作弊担忧:将协助开发检

openAI ceo:chatgpt周活用户数达到1亿、囊括92

AI开发“众筹模式” 为矿山行业找场景和应用――第一届全国煤炭行业矿山AI大模型大赛决赛暨颁奖典礼在京举行

meta开启长期AI研究项目 欲让人工智能像大脑一样处理语音和文本

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...