GAIR Live | 五位学者大论道:AI生命科学的哪些命题,才是ChatGPT的主战场? |(上篇)


本文摘自雷锋网,原文链接:https://www.leiphone.com/category/aihealth/z9IFCKciZbNjmi6n.html,侵删。

以ChatGPT为代表的AIGC技术,彻底点燃了市场热情。

前不久,腾讯研究院发布《AIGC发展趋势报告2023:迎接人工智能的下一个时代》指出,AIGC的商业化应用将快速成熟,市场规模会迅速壮大,预测将率先在传媒、电商、医疗等数字化程度高、内容需求丰富的行业取得重大发展。

与此同时,诸多国外商业咨询机构更是直接给出数据:未来五年10%-30%的图片内容由AI参与生成,2030年AIGC市场规模将达到1100亿美元。

星星之火,可以燎原。早在五年前,AIGC还籍籍无名。它有一个相当拗口的名字--AI生成虚拟内容。以2018年的视频换脸技术Deepfake为代表,“AI伪原创”一词,便从那时传开。

随着深度学习的发展,AIGC逐渐渗透在图像、视频、CG、AI训练数据等各类领域,人们对于这一技术的期望也逐渐丰满。

时至今日,AIGC技术能否用于计算生物领域的新引擎,医疗健康赛道何时迎来新型基础驱动力,成为时下产学研各界的共同关切。

近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《ChatGPT的一把火,能否烧到AI生命科学界?》线上圆桌论坛落幕。

GAIR Live | 五位学者大论道:AI生命科学的哪些命题,才是ChatGPT的主战场? |(上篇)

本次论坛,由中国人民大学数学学院龚新奇担任主持,中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长潘毅、百图生科首席AI科学家宋乐、深圳湾实验室系统与物理生物学研究所资深研究员周耀旗、分子之心创始人许锦波,天壤创始人薛贵荣参与讨论。

在上篇中,几位嘉宾共同辨析“AIGC”这一概念,探讨生命科学界中的哪些成果属于AIGC,以及ChatGPT在生命科学领域中可能实现的任务。

在下篇中,将分别探讨AIGC为生命科学带来的可能性与其自身局限,以及中国能否在应用场景上快人一步,实现技术落地与产业转化。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网(公众号:雷峰网)旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理:

AIGC+生命科学”的热度,不能随便蹭

龚新奇:继UGC、PGC等形态之后,你们如何看待AIGC的概念?在这一概念走红之后,不少团队都在宣称入局AIGC。在各位看来,AI生命科学的哪些成果,可以称之为AIGC?

潘毅:PGC,是指专业人员队伍产生的内容;UGC,是使用者生产内容;AIGC是用AI系统来产生的内容,也就是软件产生的东西。GPT,Generative Pre-trained Transformer,相当于一个专门的、特殊的AI系统,应用性更广泛的general系统。

比如,我们告诉它几个关键词,小桥、流水、春天、树叶,它就能生产一篇美妙的文章;告诉它画里面有古堡、城市,有桥有山有水,它就产生相关的画面。因此,目前由AI生成的内容已经比较广泛。

实际上,很多公司可能以前就已经介入AIGC。

举个例子,AlphaFold也属于AIGC。因为AlphaFold无非是输入一个序列,据此生成一个预测结构,其原理与ChatGPT根据输入的词汇生成一篇文章是相似的。

此外,网络关联技术也属于AIGC,比如基因与疾病的关联、药物与疾病的关联、数字与target(靶标)的关联等等,很多人就是利用图神经网络找出其中的关联性、规律。目前最典型的就是旧药新用,找出旧的药物与新的疾病之间的关联。

其中的原因是什么?我们可以通过输入旧数据产生新的图像,使节点之间产生新的连接,这就是AIGC。

现在很多研究团队要进入AIGC的想法是可以理解的,但是如果要利用GPT来阐释内容,我觉得还很多小公司还做不到,目前来看还早了一步。

因为只有技术和算法是不够的,还需要有“三部曲”作为支撑:大数据是否能拿到,资金是否足够,算力是否充足。三者缺少任意一样都无法做到。

所以我更倾向于,大家不一定马上实现GPT的应用。当然,我们在生物信息中用现有的GPT来完成一些任务是可行的。

比如在生物信息中,我们原来用的是text mining(文本挖掘),但是无法得知癌症等疾病具体与哪个基因有关系,只能依赖于手工操作完成许多工作。

但使用GPT,在其中输入一个基因词和一个疾病的名称,就可以挖掘出其中的关联,每一种疾病与每一个基因词之间的关联度都能够在GPT中反映出来。

现有的ChatGPT主要是为对话服务的,暂时还做不到为专业的生物信息领域的问题服务,所以我们今后要研究自己的GPT,技术、算法采用GPT的idea来做,但数据范围要缩小,专注于Bio,即BioGPT。

我们的数据要集中在疾病、蛋白质、基因、RNA等范围内,研发基于生物信息的算法,从而减少存储器与算力的需求,降低企业的开发门槛。

宋乐:首先从模型上来说,我也同意潘老师的见解。很多情况下我们在做深度学习的时候,预测的是一个比较简单的分类或是一个回归的任务,也就是一个值或一个概率。

但Generative model预测的是一个更大的东西,可能是整个图片或整个句子,而且它不仅仅是预测一张图片、一个句子,而是通过采样的方式生成一组图片、一组的句子,不断地生成新的内容。

生成模式实际上是基于条件生成内容,比如输入某些元素之后,根据这些元素生成一个对应的图像。其特殊之处在于可以不断地采样,从而每次输出不同的结果。

AIGC需要依赖大量的数据和算力,目前在生物领域中,成本上也达到了临界点。

从数据的层面来看,我们现在有亿级甚至更多的蛋白质序列,可以基于十亿、百亿甚至千亿级规模的数据进行训练,同时采样新的蛋白质,就可以生成各种各样的蛋白质。

同理,除蛋白质之外,其他生物领域的数据也达到了这一规模,例如,单细胞测序每次能将一个细胞中的两万个基因的表达量都测出来,借助这一技术,人们对几亿个细胞都做了测序,上亿规模的数据都可以作为细胞内基因表达的预训练模型。

基于预训练模型进行自然语言等下游任务的预测,甚至是基于一部分的基因表达恢复或生成另一部分的基因表达,都达到了数据的临界点。

刚刚我提到的这些模型,其参数也可能是亿级、十亿级甚至更大级别,所以需要很多的GPU,以并行训练的方式进行长达数周甚至数月的训练,模型拟合大量数据之后,生成的东西特别自然,像是原数据集里的东西,这对蛋白质设计、细胞表征、细胞扰动的反应、制药问题等等都是很大的推进。

从模型的提升到具体落地还有一段距离,但是我们已经看到了曙光,看到一个清晰的前进方向,可以将其与湿实验结合落地,进行AI药物研发。

阅读剩余部分

相关阅读 >>

《真人快打》系列之父ed boon入选AIas名人堂

全新骁龙x70调制解调器及射频系统发布,引入全球首个5g AI处理器

meta宣布测试生成式AI广告工具

灯塔票房预测正式上线,AI大模型首次应用于电影

风平智能创始人林洪祥:AI数字人播放收益单日gm

消息称鸿海集团旗下工业富联向苹果独家供应 AI 服务器

AI产业助力中国经济高质量发展(专家解读)

vAIo sx12 笔记本勝 (shèng) 色特别版亮相:日本工艺

AI与数字孪生技术融合 全面切入元宇宙业务

前谷歌AI伦理专家宣布成立自己的研究所 防范AI伤害

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...