中国科学家首次用DNA构造卷积人工神经网络,可完成32类分子模式识别任务

DeepTech
2022-07-28

用 DNA 卷积神经网络电路识别甲骨文?一支中国科研团队做到了。

近日,华东师范大学化学与分子工程学院教授裴昊课题组,构建出可完成 8 类分子模式识别任务的 DNA 卷积神经网络电路,可对 8 种甲骨文字火、土、木、水、天、气、人、生进行正确分类识别。

基于此,其进一步扩展分子系统的规模与复杂性,并整合逻辑电路架构,最终可完成 32 类分子模式识别任务的 DNA 层次化神经网络。

审稿人认为,该工作是 DNA 计算领域的一个重要里程碑,并表示此次的 DNA 神经网络是迄今规模最大、功能最复杂的人工生化电路。

裴昊说:“我们所构建的分子反应网络包含 512 个分子物种,涉及数千种化学反应,可产生数百种分子产物。我们还首次在试管中用 DNA 构造出了卷积人工神经网络,设计和创建出一个像小型神经元网络一般的生化电路,并用溶液中相互作用的 DNA 分子,来展示类似于脑的功能,以及通过精准的化学反应计算识别‘分子笔迹’,这类似于大脑需要通过执行复杂的计算来识别视觉笔迹,借此证明了以 DNA 分子为工程材料去构筑人工分子信息处理系统的巨大潜力。”

概括来说,他们基于 DNA 分子调控电路,研制出一种试管分子人工智能神经网络,论证了通过多种电路架构集成、以提升电路计算性能的可行性。

当把疾病标志物 miRNA 或蛋白等作为 DNA 计算机的输入内容,即可和 DNA 计算机进行直接交互,从而让 DNA 计算实现对于各种生物标志物信号的直接感知、分析与诊断。

▲图 | 裴昊

近日,相关论文以《基于 DNA 调控电路的分子卷积神经网络》(Molecular convolutional neural networks with DNA regulatory circuits)为题,发表在 Nature Machine Intelligence 上,熊谢微博士和朱通教授为论文的共同第一作者,朱通教授课题组负责卷积计算模型设计及优化,裴昊教授为通讯联系人。

▲图 | 相关论文

“化学反应网络的表述能力,等同于一台图灵机”

这一成果的故事要从 1994 年说起。图灵奖获得者伦纳德·阿德曼(Leonard M. Adleman)利用 DNA 分子为计算载体用于计算哈密顿路径问题,开创了 DNA 计算机领域。DNA 计算机是一种生物形式的计算机,由一系列生物分子以溶液形态组合而成,通过生化反应来进行高度并行性计算,进而实现分子信息快速处理,也有人称之为“液态电脑”。相较于传统硅基计算机仅能处理符号信息,DNA 计算机能使科学测量(感知信息)与化学反应同步,对生命活动中的分子特征信息进行直接检测与感知。

计算机科学与分子生物学的交叉融合,是未来科技发展的重要研究目标之一。人类作为最为高度智能化的生命体,具备不可思议的信息处理能力,其来源于大脑中上百万神经元之间的复杂链接。这让人脑在应对外界环境任务时,可快速建立神经元节点间的连接,以实现信号的快速传导与信号处理。

就像此刻正在阅读文章的你,脑神经元正在进行拓扑变构重连,以进行信息处理。这种精密、而快速的连接所构成的神经网络,堪称世界上最强大的生物计算机。

有人认为,基于神经元的大脑在进化之前,那些相互作用的分子反应网络,依赖于各种分子化学反应,去实现生物调控网络的适应调控,即基于分子电路的“计算”,来产生面对复杂环境的自适应性行为。

然而,生物工程领域面临的挑战是:如何证明人工合成生物分子反应网络可以支持有限形式的智能行为,以及和神经大脑进化前必然发生的情景相似。其实,这种基于生物分子组件去构建计算行为的观点并不新鲜。计算学科中最核心理论是图灵机,其基本思想是用抽象机器,来替代人们用纸笔进行数学运算。

但是,复杂分子网络系统中分子的“化学动作”,按照其热力学和动力学的性质,亦可进行类似操作过程。因此,化学反应网络的表述能力,等同于一台图灵机。

就目前而言,相比复杂的生物大脑、以及现有硅基计算机,人们所构建的 DNA 分子电路的信息处理能力还相差甚远。因此,分子系统的复杂性与 DNA 计算机的计算性能之间的适配性,一直是科学家长期奋斗的目标之一。

与此同时,电子计算机主要元器件的更新换代,让计算机性能得到极大提高。

2011 年,加州理工大学团队基于一种“分子跷跷板”形式的 DNA 计算机分子元器件,实现了 Hopfield 神经网络计算模型,成功展示了 DNA 分子可充当人工神经元,并开发出一种可记住 4 种分子模式的分子相互作用网络。

2018 年,加州理工大学团队进一步实现了“Win-take-all”神经网络计算模型,将所能够分类识别的分子模式数量扩展至 9 种。

这些研究结果论证了 DNA 分子作为人工信息载体,通过构建 DNA 计算机、以实现复杂信息处理分类任务的巨大潜力。同时, 也给裴昊团队带来了如下启发:DNA 计算机的基础设计,能极大提高计算机性能。

基于此,该团队聚焦于一种新的分子电路设计系统——DNA 分子调控电路,研发出上述试管分子人工智能神经网络,让其直接处理复杂的生物分子信息。

据悉,该课题组采用功能区域化设计的、独有的 DNA 分子基元结构,以用于实现卷积神经网络模型的权重共享架构,当将稀疏网络拓扑架构与 DNA 分子电路的高度并行性进行完美结合,还可提高 DNA 分子神经网络电路的计算性能。

研究核心:基于 DNA 调控电路的卷积神经网络

据介绍,该研究大概经历了四个部分。

其一是前期调研。多年来,该团队始终聚焦于可编程核酸分子控制与工程化,在核酸分子热力学与动力学领域已有一定积累。

针对当前 DNA 计算机的信息处理任务难题,以及受到大脑依赖神经元网络的快速链接、实现高度智能化的启发。他们猜想,如果将神经网络模型与 DNA 计算相结合,来构建智能分子计算系统,那么能否赋予 DNA 电路更加智能化的行为,让其计算性能得到提升?

但对于这种大规模电路的构建来说,课题组的经验尚显不足,尤其是涉及到与神经网络、深度学习等领域的交叉融合。因此,有了初步想法后,他们充分进行文献调研和知识学习。

其二是正式立项。定下神经网络模型与 DNA 计算融合的思路后,计算模型的选择成为接下来的重点。基于硅基计算机的计算模型十分丰富,包括前馈神经网络、循环神经网络、卷积神经网络等。期间,他们也梳理了这些计算模型的网络架构和特性。

综合考虑后,课题组原本选择较为简单的前馈神经网络,尝试用它来进行原子水平上的相互作用模型工作。但是,他们很快发现这种网络架构的全连接特性,会导致 DNA 电路分子设计难度大幅提升,而这将极大地限制所能构建的 DNA 电路的规模大小。

于是,该团队再次寻找更合适的网络模型。此时,卷积神经网络模型引起他们的注意。在模式识别领域,该模型具备非常优秀的计算性能。而且,该计算模型的设计灵感,来自脑视觉皮层的局部感受野区域。这样的生物启发性,往往会赋予其较为独特的性质,即权重共享的稀疏网络拓扑架构。

该团队猜想,这样的网络架构与 DNA 电路的高度并行性、以及区域化模块化设计,应该能实现完美的契合。为此,他们决定将卷积神经网络模型与 DNA 计算相结合,进而把稀疏拓扑连接引入到 DNA 电路中。

之后,课题组进行了更充分的背景知识学习。学科交叉常常能碰撞出新的火花,团队内部也经历了多次讨论,最终确定下这一研究方向——基于 DNA 调控电路的卷积神经网络。

其三是分子设计和执行实验。这一阶段,他们设计和开发出适用于组装 DNA 卷积神经网络电路的新型分子组件,同时还需兼顾简单性与模块化。

裴昊表示:“我们需要协同合作,以完成硅基计算机对于模型的训练优化。不同学科间的合作总是需要磨合,同时项目的顺利推进,也需要有人来坚持和主导,这其中也是非常幸运地遇到了长期从事人工智能与分子科学方面研究的朱通教授。

期间,我们需要发展较为自动化的大批量 DNA 序列设计方法,以满足大规模 DNA 电路的分子数量要求;我们也需要开展大批量的实验测试,以验证分子设计的正确性;当然也需要在实验数据分析之后,对分子设计进行优化、或更改设计。”完成上述步骤后,他们开始论文撰写,并进行投稿。

“鬼斧神工的大自然,永远走在人类前方”

推进过程中,研究人员逐渐发现一些有趣之处。2018 年,该课题组已报道过基于分子内构象运动、来进行 DNA 链置换的反应动力学的调控策略,这丰富了现有的 DNA 链置换技术工具箱。

但在当时,他们还并没有意识到该策略对于此次工作的意义。随着研究的继续深入,基于该分子基元结构所实现的 DNA 调控电路,具备很好的功能独立控制性质。这让他们可通过独立调控,去对权重调节区域和识别区域进行重构,进而实现权重赋予功能和分子信号传递功能。而这与卷积神经网络模型中,由权重共享特性带来的稀疏拓扑架构实现了完美契合。

同时,他们惊喜地发现,如此一个具备功能独立控制特性的 DNA 调控电路,事实上与复杂基因调控网络中的核糖体开关极其相似:它们都含有两个独立的功能区域,并能感应和响应多个输入信号。

“看来鬼斧神工的大自然永远走在人类前方,而生物系统的奥秘与启发值得我们更加深入地思考和挖掘。”裴昊总结称。

如前文所述,DNA 计算机在分子诊断领域具备一定应用潜力。而如果使用大规模生物分子电路,有可能同时对数百种生物分子进行诊断测试,并直接在化学和生物环境中实现分析和诊断。

因此,未来该团队拟利用已建立的 DNA 卷积神经网络模型策略,基于现有的、已发展得较为成熟的生物信息组学数据库,构建可完成全类别疾病分类诊断任务的智能化分子诊断器。

继续阅读(剩余50%)
查看全文
我要举报