可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021


本文摘自雷锋网,原文链接:https://www.leiphone.com/category/healthai/CIeOmsPoB1YlP0An.html,侵删。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

近日,第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕,140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入,以理性分析与感性洞察为轴,共同攀登人工智能与数字化的浪潮之巅。

在医疗科技高峰论坛上,AIMBE Fellow、深圳理工大学计算机科学与控制工程院院长潘毅以《人工智能在生物医疗学工程中的应用》为题,分别讲述了医药研究中的数据特征、AI应用生物医学的研究案例,以及知识和数据对医疗AI的重要性。

今年2月,潘毅教授当选为美国医学与生物工程院院士。

他同时是英国皇家公共卫生学院院士、乌克兰国家工程院外籍院士、英国工程技术学会会士,在计算机和生物信息领域已发表250多篇SCI期刊论文,其中100多篇发表于顶尖期刊。

潘毅教授表示,当大家关注到事物之间的关系,用万物互联的思路解决问题,用AI探索万物互联,不仅能输出定量化病理诊断和疾病预后,还能推动病理研究向着更加自动化、更加精准的方向发展。

“今天很多的医药进步,已经不仅是通过临床实验做出来的,还是用数据分析出来的。人工智能的解释是逆向工程,这个工作非常复杂,但是非常值得研究。如果可以实现,那么,我们就可以找到压抑癌症、压抑肺病的某一个蛋白质,从而以靶标精准用药。”

以下为潘毅的现场演讲内容,雷峰网(公众号:雷峰网)&《医健AI掘金志》作了不改变原意的编辑及整理。

今天,我的演讲题目是《人工智能在生物医疗学工程中的应用》。人工智能是个大课题,生物医疗工程也很大。话题缩小一点,我们来谈谈AI制药。

01 生物医学研究已进入大数据时代

生物医学进入大数据时代,但是很多人处理数据的水平不高。原因在于计算机专家不懂生物,生物学家不懂编程,成果都不是很好。

对研究人员来说,常常面临工程上的“够用”和研究上的“低智”的矛盾。比如刚开始花了五百万提高到97%,如果还要再花五百万推进1%的进步,就会面临技术边际效应递减的问题。

很多人就放弃了,这是研究界很头痛的问题。

归根溯源,是什么在阻挠技术的进步?首先是数据。

计算机数据的结构巨大,我们耗用了大量的硬件和软件。大家熟知的超算中心、云计算平台、存储器,因为存储数量大、运算速度快、可以共享资源。

国家基因库里面放了很多基因数据,现在深圳理工大学也成为国家的生物中心之一(北上深各有一个)。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

这个基因库不光是存储,还要提供很多工具和软件,即平台库,输入一个数据就出来结果,无需下载软件。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

数据量大不是难题,难题是数据的异构性、多样性、增加速度快。

在医疗数据里,有影像数据、特征数据、医生诊断报告数据、病历数据,它们不仅是多模态数据,也是非结构化数据。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

另外,医学数据还存在天然的不完整性、保密性、冗余性、时许性、多态性等特征。如何在浩瀚的数据原油里提炼转化,是非常重要的一点。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

02 人工智能助力生物医学大数据研究

人工智能在大数据领域已经有很广泛的应用,比如用基因组学预测疾病,研究新冠病毒变异。

我的一位学生创立了一家公司,可以用一滴血或者唾液,预测人一辈子将会发生的疾病。

此外,在智能化时代,精准医药也变得十分重要,今天的主题是药,我着重讲一下AI在制药方面的应用,比如针对每个人的个体特征而控制药量。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

回溯一下AI在医疗方面的应用。2017年,斯坦福大学教授做了一个研究,给皮肤照相来预测皮肤癌症,这也是今后我们要做疾病预测的一个方向。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

2020年,哈佛大学成功用机器学习实现药物筛选,带动深圳几个药物筛选的AI公司发展起来。

我们的魏彦杰团队与药物所万晓春团队,与深圳市三院刘映霞团队合作,针对RdRp靶点,用人工智能技术筛选新冠病毒药物,发布了论文并应用到社区疫情预防中。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

同样在疫情期间,尹凌研究员团队研发传染病时空预测与精准防控系统,基于大数据做疫情防控研究,形成了十余份内参文档和政策建议,为政府决策提供依据。

他们团队的方法是基于大规模手机信令数据、居民出行调查记录等多源时空大数据,对传染病时空传播过程进行城市级别的高分辨率模拟与预测,得出病毒的变种归规律、传播规律、感染规律等等。

• 新型冠状病毒2019-nCoV动物宿主朔源、及分子遗传变异规律研究

• 本地家庭、社区人群中传播效能、传播规律和驱动因素研究

• 人群大样本感染水平研究,确定病例隔离周期、评估隐性感染情况

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

所以,我们总是能够看到很多人工智能技术发挥医学价值的例子。但说到人工智能,Artificial intelligence,它到底是什么?

“假智能”?“伪智能”?还是“人造的智能”?

不管大家如何定义,我要说的一点是,我们不要神化AI

第一代人工智能出现在三、四十年前。

在我求学时,我学习的“专家系统”是一个最典型的AI例子。它和中医诊断系统中的“因果说”很相似。比如说舌苔发黄,眼睛发红,很可能是得了感冒。专家系统也是一样的逻辑,就是用知识驱动知识。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

那么,专家的知识从何而来?从老师那学,从书本上学,从经验里学。

那时候的AI技术为什么不成功?原因很简单,它只是一个很小的“玩具”。专家们只能搞点小玩意儿,发点小文章。在60年代到90年代,如果你说你是搞人工智能,是找不到的工作的。

那么,为什么现在的人工智能会被大家熟知?关键节点是出现了第二代AI系统。

如果说第一代AI系统是“照葫芦画瓢”,那么第二代AI系统是“无师自通”。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

第二代系统由数据驱动,无需阐明数据之间的逻辑性,只需要放进大量的数据,利用深度学习就能找到数据背后的统计规律。

说得好听一点是深度学习,说得不好听就是算法,算法里面就是统计规律。

但是这时候的AI系统没有逻辑、也没有可解释性。

举个例子,AlphaGo第一次在围棋上打败人类,掀起了人工智能研究的热潮,但其实AlphaGo只是把五千年来所有的棋谱输入系统,然后在博弈的时候搜索最可能获胜的招数,以数据、算力和算法获胜。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

当时我们也推出了一款新产品,命名为ShouZhuo,成功打败了AlphaGo,并尝试继续迭代算法,一举写出一篇好论文。不幸的是,两周以后Alpha Zero出来了。它不断跟自己对弈,不需要五千年的棋谱,练到最后棋法越来越好,把所有人类都打败了。

我们的想法是类似的,但是我们为什么不能成功呢?我们发觉,假如我们的算法也像Alpha Zero这样无休止对弈、训练,凭借我们实验室的硬件,大概要用1000多年的时间,1000多年之后这个算法肯定就没用了。

说到底,人工智能还不聪明,还是依靠“数据+硬件”驱动。在拼设备的年代,还能拼什么?

所以,这时出现了第三代AI系统。它将知识和数据结合起来,融汇了第一代AI系统和第二代AI系统。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

举个例子,什么叫知识驱动?我女儿两岁的时候被蜜蜂蛰了一个大包,以后再见到蜜蜂就会跑开,这是数据驱动。什么是知识驱动呢?从小你家里人告诉你,猫不能碰、狗不能碰、蜜蜂不能碰、蛇不能碰,以后你见到这些东西就会远离。

但是知识驱动是有缺点的,因为图片是有限的,以后你遇到老虎、遇到大象还是会碰,因为没有先验知识。数据驱动也是有问题的,需要通过大量的数据完成“原始学习”,过程很慢。

如何将两种学习方式结合起来,将知识嵌入到机器脑中,这是第三代AI系统的问题。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

举个例子,假如现在用100万张猫和狗图像训练好了一个神经网络,也就是设置好了参数,它会很轻松地分辨猫还是狗,但是准确性如何升高,如何再调整参数?

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

这时候就要用到梯度调节,这就是神经网络的概念。但是如何通过知识驱动,就是嵌入一个概念:比如我把“狗的耳朵比较大,猫的鼻子比较小”的概念放进去,这个算法就可以学得更好、更快。

所以,如何将知识图谱注入神经网络是很重要的课题。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

举个例子,用神经网络抠出图片中的人。左边的图为无监督分隔,没有嵌入足够的知识图谱,所以分隔得十分粗糙。而右边的图为半监督分隔,事先学习了天是蓝的、云是白的、人脸是黄的,人的衣服是黑色的知识,图像识别的效果非常好。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

同样的知识学习还体现在AI识别手写0—9这10个数字的实验中。

尽管每个人的笔迹都不同,写字风格千差万别,但假如我事先编写一组规则:有圆圈就是0、6、8、9,有一竖的就是1、4、7等等,这样AI的识别结果会好很多。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

另一个方法是融合多模态数据,是把所有数据融合起来决策。

要预测什么菜好吃,我们说闻起来很香,炒起来看着很好吃,味道很甜美,口感很滑,颜色很漂亮,这就是好菜。

但是我要给你一个融合的算法,告诉你这个菜是臭的(臭豆腐),吃起来是很香的,颜色也是很糟糕的,你说是好还是不好?这个决策就很难了。

所以,这里面的融合,要决定哪个因素有多少的比例,大家投票说臭豆腐好不好,来训练这个神经网络。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

比如应用在自闭症预测时,多模态融合的分析方法诊断率极高。

可解释AI先驱、深理工潘毅教授:AI制药,要多做「用结构找小分子」的逆向工程 | GAIR 2021

具体来说是三管齐下:

第一管,行为学分析;

第二管,基因分析,抽点血找到生物标记;

第三管,建立MRI影像,找到病灶。

相关阅读 >>

AI工程师薪资神话走向终结

科学家利用AI技术获取到更清晰的月球环形山图像

夸克举办“AIgc与场景化应用创新”主题研讨会 探讨大模型应用新趋势

openAI宣布组建新团队 以控制“超级智能”人工

海信发布中国首颗全自研8k AI画质芯片:双路cpu

大众贷客服电话大全已更新2023(实时/更新中)担心过于依赖openAI被卡脖子 软件开发商纷纷寻

艾菲战略合作百度AI营销创想季,全面赋能2022新赛季!

AI与数字孪生技术融合 全面切入元宇宙业务

蚂蚁财富理财客服电话大全已更新2023(在实时/更新中)idc:2026年中国AI市场规模将超264.4亿美元

微软支持的行业组织推动AI监管:呼吁在立法基础

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...