「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者


本文摘自雷锋网,原文链接:https://www.leiphone.com/category/shengwuyiyao/mfO3n35tRUyJKen9.html,侵删。

许锦波的人生分水岭是2016年秋天。

他提出的RaptorX-Contact方法,首次证明深度学习可以大幅提升蛋白质结构预测精度。

长期原地徘徊、进步有限的研究领域终于迈出实质性的一步,各界掀起了AI预测热潮,无数公司获得了进入生命科学的时代入场券。

外界给他加封了一个头衔:AI预测蛋白质结构全球第一人。

从2005年开始,许锦波就在芝加哥大学附属的丰田技术研究所开展科研和教学工作。

这是一所受慈善捐助而成立的独立计算机科学研究所。许锦波时间宽裕,每年的教学工作只有两个月,很少受科研经费困扰。能静下心来做研究,是他留在那儿的重要原因。

2021年9月,许锦波回国创业。2022年1月,他的公司成立,取名为“分子之心”(MoleculeMind)。此后,由许锦波牵头,分子之心在国内组建了一支25人左右的团队,其中不乏生物计算、计算机科学、生物化学物理等多学科背景的研究人员和工程师。

4月份,公司完成数千万美元天使轮融资。

关于许锦波和他二十多年来的研究故事,被凝练成一句话:从冷清走向热闹,从象牙塔走向聚光灯。

「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者

1990年下半年,还在读高三的许锦波,在全国高中数学联赛中获江西赛区第一名,成为江西临川县获得该类奖项的第一人。竞赛结果出来后 ,许锦波收到了国内最好的五、六所大学发来的入学通知书。其中一封,就来自中国科学技术大学(下称“中科大”)。

彼时,中科大经过一系列的教学改革创新,在中外合作培养事业上取得了长足进步,在国内外声誉鹊起,被《Nature》杂志撰文称为“招风的大树”。

出生在安徽合肥的杨振宁更是多次访问中科大,并担任理学院名誉院长,倡导在中科大少年班中设立计算机软件专业,推动中国计算机科学发展与国际水平接轨。

在老师和亲朋的建议下,许锦波思索再三,对数学的热爱转移到理论研究上,便将志愿定为“中科大计算机科学技术系”,并选择了更偏向理论研究的“计算机算法”专业。

虽然专业偏向理论,但许锦波先于多数同学上手代码和实际项目。大三下学期(五年制),他在校外找了一份工作,在一家做金融服务软件的美国公司(合肥办公室),主要做美国股票分析系统的用户界面。

90年代初,许锦波用的还是元老级的编程语言——Borland C/C++来开发项目,写了多少行代码,他已经记不清,但写代码的能力却得到了锻炼。

他回忆道,“那时还没有实习的想法,更多是想打工挣钱。当然学校机房确实没几台电脑,学校更强调把基础打牢,四大力学是必修课。”

抱着深造的目的,许锦波决定硕士研究计算机的另一分支——计算机系统 。用他自己的话讲,“当时想学怎么造计算机。”

1996年,许锦波进入中国科学院计算技术研究所(下称“中科院计算所”)。在那里,许锦波结缘中科院一支高性能计算研究组——曙光组。

90年代初,时任国家智能计算机研究开发中心主任的李国杰,带着一支没有设计经验的队伍,承担了研发“超级计算机”的重任。就在许锦波到来的前一年,曙光组做出一个重要决定:863计划下一个目标产品曙光2000,不再沿着计划原定的“超级计算机”方向走,而是转向研制“超级服务器”。

「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者

李国杰(身穿深色衬衣者)

两者区别在于,超级计算机主要用于科学工程计算,从计算速度上追赶国际先进水平。而超级服务器是更加通用的高端计算机,除科学计算外,更多地用于事务处理与网络服务。

这一决策也影响了许锦波后面的研究方向。

三年里,许锦波的重心放在了“分布式系统以及计算机安全”,陆续参与了曙光组的前沿项目,如虚拟主机系统、高可靠性系统等工程化项目。

他的朋友以及合作者对他的评价是:无需助手,能独立进行一项课题,独立用算法实现一系列想法。这种能力,很大程度上得益于这段工作经历。

许锦波说,“代码能力将成为不可忽视的底层能力,不仅是计算机专业要这么做,每一个理工人都要视其为基本功。”

一悟归身处,何山路不通

1999年,南斯拉夫大使馆事件让中美关系陷入僵局。转去加拿大,成了当时很多人求学和任教的共同选择。许锦波也是如此。

这一年,他去往加拿大南部腹地的大学——滑铁卢大学(临近多伦多),继续攻读计算机科学系。

在许锦波入校前,学校指派了一位做并行算法的印度裔教授Prabhakar Ragde为其导师。这位导师指导宽松,第一年,许锦波涉猎各个领域的论文,找感兴趣的科研方向。

「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者

2001年上半年,人类基因组计划(HGP)比原计划提前两年完成,历时11年的多国合作项目落下帷幕,随即进入了“功能基因组学”时代,研究的重心由基因组的“结构”向基因的“功能”,也就是向蛋白组学转移。

学术界一个明显趋势是,越来越多的学者愿意用计算机科学解决一些实际的生物学问题。两个学科的结合越来越紧密,直至融合形成一个新兴学科——计算生物学。

许锦波深受鼓舞,抱着试试看的心情,他毛遂自荐转入方向更为契合的滑铁卢大学李明教授组里。

实际上,许锦波本硕就读时,李明曾先后到中科大和计算所做过两次讲座,当时李明已凭借Kolmogorov复杂性、不可压缩方法、信息距离理论等研究,享誉计算机科学界。

1990年,李明做出了长度为O(n log n) 的超串来逼近长度为n的最短超串,成果发表至计算机科学领域的顶级会议期刊FOCS。

一年后,李明找到在加拿大麦克马斯特大学任教的姜涛,以及从荷兰来的访问学生John Tromp,合作钻研最短超串(shortest superstring)解决法。

后来,这一证明被收录至众多计算生物教科书中。

因此,在许锦波转入其门下时,李明已经成为生物信息学的一位大家。

按理说,李明在停薪留职期间不收学生,但他欣赏这位后生,两人都毕业于中科院计算所,说起来师出同门。于是,李明从Prabhakar Ragde那里要来了许锦波,算是合作培养。

2001年,许锦波正式做起了计算生物学。初次接触,李明对许锦波说,“有一个很难的问题,研究蛋白质折叠,想不想做?”

「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者

那时候,学界已经研究了四十年的蛋白质结构问题,一直难有大突破。李明也从未将此课题向任何学生提及,甚至他自己也未涉足这一课题。

许锦波为什么愿意接手?

多年后,他回忆起这个决定:“我们选择研究课题的时候,通常要选择一些比较重要和困难的问题,如果问题不重要,就没必要花时间研究;如果问题不难,几年之内就被别人做出来,也没有多大意义。”

对27岁的许锦波来说,接下导师抛过来的这一选题,也意味着他要进行一次大范围的自我转变。不过,许锦波也不觉得这是明显的换方向,仍然是用计算的方法解决问题,只不过对象换成了生物学。

不过,紧接着他又补了一句,“就算博士几年一点结果都做不出来也没关系,大不了去硅谷写代码、当码农。”

许锦波说的不无道理。

加拿大最早成立计算机科学系,就在滑铁卢大学。而该系所属的二级学院,正是加拿大唯一且全球最大规模的独立数学院——滑铁卢数学院。作为数学院最具传奇色彩的计算机科学系,微软、谷歌、Facebook早早就来抢未毕业的学生。

决定从一个非常热门的领域跳出来,去做生物学研究,无论对谁来说都需要很大的勇气。

许锦波也没想到,这次转变将影响他一生的科研方向:在此后的二十余年时间里,他的任务就是开发和优化算法,去无限缩小蛋白质结构预测结果和真实构型之间的差距。

不过,开始研究生物学问题的半年时间,许锦波就很痛苦,“论文专业术语都看不懂,也没人可以问。”

许锦波坦言,当时他只有高中的一点点生物知识。滑铁卢大学是强理工科背景,仅有一个很小的生物系,他跟生物系教授没有很多交流。此外,导师李明还在加州学术休假,不像现在发个微信就可以交流,师生二人两个月才能见一次面。

那段时间,许锦波只能靠自己去啃论文,除了吃饭睡觉全是做科研。

“可能和大家印象中的科研形象不一样”,许锦波笑着说到,“一个生物学家的实验室是各种试管和试剂,但作为计算生物学家,全部的科研工作都在一台电脑上完成。”

「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者

左图为生物学家实验室,右图为许锦波实验室

这也诠释了计算生物学领域的研究手段,既有传统的生物实验,即湿实验;也有包括计算手段在内的数学建模、数值仿真、数据分析,或是机器学习,即干实验。

和传统的湿实验相比,干实验最大优势即不需要特别大的经费投入,其次是比较灵活,可以随时开展一个新的研究项目。

那段时间,许锦波沿用一种干实验方法研究蛋白质折叠——能量优化。

他解释到,安芬森法则是蛋白质结构预测的基石。在安芬森这个假设和理论基础之下,科学家们去做蛋白质折叠预测,都是从能量优化的角度去做。如果将这种方法教给计算机,就可以一步步优化能量,从而达到预测蛋白质结构的目的。

2002年,李明学术休假结束,回到滑铁卢,许锦波马上告诉了他一个好消息,“马上要开始今年的CASP(全球蛋白质结构预测比赛)了,我们也去参加。”

结果是,许锦波在全自动高通量蛋白质结构预测的评比中一举夺冠。

不过,许锦波认为,“虽然排名最好,但不是大的突破,因为预测结果并不比以前的方法好很多。”

他重新梳理那一年来的工作,发现这一思路有着天然缺陷。

“第一,一个蛋白质是一个非常大的体系,由成千上万个原子组成,对应一个非常巨大的搜索空间,构型是千变万化的。第二,虽然说大家普遍接受蛋白质折叠到最小能量状态,但能量函数到底是什么样的?我们本身就对能量函数的理解还不是特别好。”

在当时一大批学者纷纷比拼更好的能量优化方法之际,许锦波站在了这一方法的对面:把生物学问题当成纯粹的算法问题,或许并不能从根本上解决问题。

“传统的能量优化方法可能不是一个很好的路径。”

十年磨一剑,霜刃未曾试

2003年,许锦波博士毕业后计划赴美,开启博士后工作。

然而,受2001年9月11日恐怖袭击影响,美国政府一度收紧了赴美学生签证,许锦波的签证一直处于被审查状态。

无奈之下,许锦波选择暂留本校任教,一边做助理教授,一边等待签证过审。

这也让许锦波错失了拜入徐鹰(时任佐治亚大学生物信息系主任)门下的重要机会。而导师李明曾推荐他去哈佛,最终也不了了之。

等待的时间里,许锦波做了一个新问题——蛋白质的侧链结构预测。

那时,学术界对蛋白质结构预测的研究重心是主链蛋白,许锦波博士期间的精力便集中于此。

为何从侧链下手?这是因为,蛋白质三维结构由主链和侧链共同搭建而成,算法预测蛋白质结构的步骤,是先以蛋白质主链建模,再根据主链的构象为侧链建模。

自然界中的蛋白质含有20种氨基酸,它们的主链几乎完全相同,而侧链差异很大。因此,精准的蛋白质侧链建模对蛋白质折叠和蛋白质设计至关重要。

签证背调用了近一年时间,许锦波也在这个方向上投入了近一年时间。

他并没有沿用当时学界的主流方法,通过SCWRL软件做近似优化,而是将图论算法引入侧链结构预测,成功地将侧链结构预测的时间,从十几个小时缩短至几分钟。除了速度提高了上百倍外,新方法还可用于构象复杂性更高的蛋白结构。

“这算得上是侧链结构预测中,第一个不需要完全暴力运算的算法。”

2004年,许锦波将成果投递于RECOMB(国际计算分子生物学大会)。这是与ISMB(国际计算生物学会)齐名的计算生物学两大顶级会议之一,会议从1997年开始举办,自2003年后投稿数量开始增加,接收率降低到20%左右。

此后很多年,许锦波陆续在RECOMB会议上分享过多次研究成果,并获得了诸多奖项,如2009年最佳海报奖、2014年最佳论文奖、2019年时间检验奖。

许锦波印象最深的,还是2004年第一次投递RECOMB。他记得,2004年上半年,自己的签证终于过审。于是马上动身前往MIT,开始了博士后生涯。2005年,该论文被RECOMB顺利接收,许锦波被邀请前往波士顿做会议报告。

相关阅读 >>

宾大最新研究:AI产生创意的效率比人类高7倍

商汤扯下AI行业遮羞布

openAI发布插件帮助chatgpt连网 内容质量、安全

福州市台江区:社区医生有了AI帮手,人工智能赋能医疗与公卫服务

AI能有效简化量子问题任务量,10万个方程减为4个

美媒:印度500万程序员将面临AI冲击

AI上海范】为千行百业打造AI数字底座

微软自曝花数亿美元为openAI组装超算开发chatgp

AI进军财务领域,cfo们面临被淘汰的风险,该如

商汤科技切入消费级AI市场

更多相关阅读请进入《AI》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...