智峪生科创始人王晟:全生态生物合成元件计算设计平台峪云ZClou玩加电竞d

  新闻资讯     |      2023-08-22 10:13

  本专栏文章以观者角度阐释视频内容,凝练核心知识,以期帮助合成生物学爱好者更好地理解合成生物学前沿热点。

  4 月 27~28 日,第四届工程生物创新大会暨第二届中国合成生物学学术年会暨首届亚洲合成生物创新大会在深圳光明科学城成功举办,本次大会以“合成生物:未来生物经济的引擎”为题。

  合成生物学有一个DBTL新的研发范式,(下图)左边的设计和学习是典型的干实验,右边的构建和测试是典型的湿实验。我们发现AI可以在右边和左边进行赋能,左边可以看到AI可以通过发现未知帮我们探索更多有趣的空间,右边的部分,AI可以做到降本增效的作用,能够让实验更好的帮助计算,能够产生大量的数据,而这些数据能帮我们很好的改进我们的模型。

  具体怎么做的?这是我们智峪生物希望把AI赋能到合成生物学的各个流线图,比如AI可以在原件的层面做非常底层的发现和设计、改造。在学习的层面,AI本就是为了学习而生的,智峪生物希望通过可移动、可扩展的高性能计算设施,能够让海量的数据筛选成为可能,把学习的速度提高几十倍上百倍。

  在设计的层面,我们已经开发了峪云的平台;在构建和测试层面,刚才的几位老师讲得非常好,就是实验室的自动化,我们希望在实验室自动化的基础上再加上通量化和智能化,让AI实验高通量产生的数据进行实时的学习、分析、反馈,为什么要做到这一点?

  因为我们放大生产的过程中,发酵的过程是一个实时变化的过程所以我们需要有这样的实时反馈的设施,也就是我们为了这个目的打造的ZPod。

  我们的设备有三个设备,分为全生态、全流程、全好用。全生态构造了一个软件计算的生态体系,包括上游数据发现端和中游计算设计端和下游模拟分析端,如何理解呢?

  就是说数据发现端可以认为在基因、结构和序列的层面,根据我们要的功能和催化路径找到潜在基因的序列,在计算设计端把一维的序列到三维结构转变的过程,也就是说我们可以根据要的结构反推出潜在的序列;模拟分析端有了这个结构以后,怎么样通过一些模拟分析出它的一些功能,比如计算催化的属性和某些地方和小分子结合等等。

  我们发现序列和结构的影射,一维到三维的过程中,是处于整个生态位非常核心的关键,如果我们把这个过程非常快的度过的话,会让整个生态系统更好的运转。说两个我们公司比较擅长的两个模块,分别是蛋白的折叠和RNA的折叠。

  蛋白的折叠,AlphaFold2是最高的算法,但是速度比较慢,通量也不是很高,特别是做一些合成生物学有关的应用,涉及到特别大的潜在序列库当中,把它折叠成为三维结构。

  或者说对于蛋白上不同的位点进行全饱和的突变,对于这样的需要涉及到10的4次方以及以上序列的建模,对于速度和通量的要求会非常高,而传统的AlphaFold2结构折叠一个蛋白所需要的时间是几个小时甚至十几个小时,显得非常慢。

  我们通过FastAlphaFold2的算法,在速度和通量方面,都给出了我们的解决方案。在速度方面,我们通过FastMSA的模块,把需要数个小时的MSA的搜索过程中变成不到一分钟把MSA检索出来。

  对于通量这块,我们发现AlphaFold2从MSA到原始的三维结构当中有一个端对端的推理,这是跑在GPU上的,原始的算法很难在高通量的环境下执行,而我们通过硬件的架构,对它的底层的硬件和工程的方法进行深化,就能够让Zpod结合FastMSA模块,在一天的时间里可以做到好几千甚至上万条氨基酸序列的建模。

  这是一个例子,如果用原始的ROA2跑一个655长的蛋白需要11个小时23分钟38秒,而用FastAlphaFold2有极大的提升。

  第二个板块是RNA三维的建模,目前要搭建一个更好的细胞工厂,对于调控模块是非常关键的,如果我们要让它很好的进行信号的传导,有一种叫适配体的概念,能够把很多细胞的信号能够被外界的设备观测到,无论是调控模块还是适配体,都离不开RNA结构的认识。

  之前RNA三维结构建模的精度是非常低的,因为人类已知RNA三维的结构非常少,冗余大概是几千条,我们怎么解决这个问题的呢?

  我们首先采用端对端的建模,基本的框架与AlphaFold2是类似的,从一端的MSA到另一端的RNA的三维结构,我们区别于AlphaFold2有三点。

  第二,专门针对RNA已知结构非常少的特点,我们开发了RNA基础模型的概念,利用已知的RNA的序列,从序列当中利用ChatGPT的模型预训练出一些基本的性质,然后把预训练的模型做适配,适配到三维结构建模,这样可以利用好四千个已知RNA的结构,还可以利用RNA序列的信息。

  第三,我们专门根据RNA的折叠模式设计出一个损失函数,可以考虑碱基对的配对的空间的约束,以及根据实验的RNA的一些特征。

  我们的方法和深度学习的方法做了一个公平的比较,参加了比赛,我们作为适用性的方法超越了其他学习的方法,结合统计势能的方法,就是登顶了去年的冠军。

  智峪生物非常重要的两个模块,分别是生物基础模型和基于AI的动力学模拟。AlphaFold2为什么做得好?

  本质就是利用了基础模型的概念,把非常多的氨基酸序列的信息学到了,这是可以进一步扩展的,我们把所有已知的分子信息数据和RNA结构序列的数据和小分子数据,以及相互结构的数据,把这些数据拿过来训练ChatGPT模型一样训练出基础模型,再用到下游的任务上做一些适配,就能解决合成生物学中非常关键的问题,比如蛋白质结构功能的预测和设计,核酸结构功能的预测和设计,小分子属性的设计,以及生物分子之间相互作用的设计,比如蛋白和核酸等。

  这就是我们公司开发的Zpod可移动、可扩展的基础设施,可移动性是为了解决能够直接放置在我们的实验室和工厂实时收集数据,可扩展意味着非常简单地进行互联,如果我们需要更多的算力直接买上16台的机器,内部有高速的光纤网络可以互联,这样就能够非常轻易的搭建出紧耦合算力,不需要很多超算专家的支持,我们有新一代的结耦合生物计算学习中心,通过这样的算力中心就可以训练生物分子AI技术模型来做下游的适配。

  我们有一套高精度的基于AI物理模型的算法,我们能够有一套非常棒的同时计算绝对自由能和相对自由能微扰的算法,利用基于AI的力场,并且有非常高效的增强采样的方法,用途大大增加,可以做亲和力的评估,我们通过模拟算出的绝对自由能与实验测定出的绝对自由能是相关度是非常高的,数值为0.82,这超过了目前最好的值,最好的大概0.5左右,这个方法可以做生物医药相关的应用,比如说可以做一些抗体相关改造,也能够优化蛋白酶和底物之间相互作用的结合能。

  给大家介绍一下ZCloud平台的案例,比如我们的平台在农业、生物技术、微生物和国内多家学术和商业机构谈成了非常不错的合作,并且有成功落地的案例。

  这是我们参与的上市的抗癌抗体普佑恒,它是一款Anti PD1的抗体,这个抗体为什么能够起到长效的作用?因为里面两个关键的位点能够起到识别PD1和PDL1的作用,我们通过模拟的方式验证了这样的实验现象。

  我们另外的服务,原料药和中间体的生物的合成,我们基于ZCloud平台,怎么样做合成生物学的落地应用。

  第一,基于AI逆生物合成路线的联想,比如我们要合成不同分子,就可以通过AI的模型,在非常庞大生物和有机化学的数据库当中进行学习,就像AI生成模型一样,生成非常多潜在的生物反应的路线,再加上专家的分析,我们可玩加电竞以将其成本降至非常低,而且中间体比较稳定。

  第二,在这个路线选定的情况下,我们可以给定生物反应的路径,通过三层结构建模筛选的方法找到一个能够催化这个反应的酶,三层结构建模筛选挖酶的方法和传统的方法最大的区别在于反向虚筛,它的核心有了反应以后,从小分子A出发到人类全部已知序列当中希望挖掘出和它互补的酶,能够催化这个反应。

  我们首先通过EC 序列的预测,然后筛选出符合这个反应的EC序列,然后把这些序列用高速海量的结构建模的方法从一维变成三维的结构,有了这个结构以后,我们通过生物分子和AI技术模型的蛋白和小分子模块,就可以通过生物互作共折叠的方法,通过全柔性的折叠,能够快速的筛选出和它相互作用的蛋白和酶。最后以看一场电影的效果看能不能催化出反应,然后通过数百个实验在最终筛选出的酶挑出一两个两三个能够催化反应的酶。

  最后是AI全理性设计,当我们已经有微弱活性的酶的时候,我们怎么样走出一条和传统的定向进化不一样的路对它进行有效的改造?

  我们还是分两步,第一步是有了这个结构以后,可以通过模块准确的发现催化口袋和关键的催化氨基酸位点,通过这些位点对它进行全饱和的突变,比如我们发现有五个重要的位点,我们给它做20的5次方的全饱和突变,对每一种潜在的侯选,用AI对酶属性进行计算,从数千万全饱和突变的组合中筛选出属性,然后再基于物理的模型进行属性精准的计算,最后通过这个实验进行确认。

  刚才几位老师讲了,我们有了干实验的结果之后,希望有一个自动化、通量化、智能化的验证设施,能够把我们的设计尽快的变成现实,并且给出监测的结果。

  我们提出实验室的三个现代化,自动化、通量化、智能化。自动化已经有非常多的解决方案,包括之前的老师讲的报告,而通量化,我们可以通过某些设备,特别是对于监测的通量提起来。

  有了自动化+通量化能够产生高质量并且高通量的数据以后,就能够形成智能化的学习,能够把高质的数据反馈到设计的算法里,不断设计出更好的原件。

  我们公司基于这套语言已经有了自己的产品管线,最快的是中枢神经药物的中间体已经完成了商业化,进行销售,今年有抗菌药物和功能食品添加剂也会进行量产。