作者 | Don
编辑 | 青暮
神经网络,对于这个熟悉的名词,我们一听之下便知它深受生物学的影响,尤其是脑神经科学。虽然神经网络的灵感最初源于生物学,但是随着人们研究的深入,生物学这个母体学科中可用资源日渐枯竭。但是与生物一墙之隔的物理学还是处于一片蓝海,这片科研的处女地中的很多经验和研究方法论有望帮助神经网络的研究变得更加优秀,找到更多的真理。因此,近些年不少工作开始琢磨如何在机器学习和物理学之间建立更强的纽带,设计出更加强大的计算方法。
自诞生之初,机器学习和物理学便有着十分紧密的关联。早在1982年,John Hopfield就进行了第一步尝试,他在神经网络和物理学之间建立了第一座互通有无桥梁。Hopfield发现,在物理学中,一个由相互作用的粒子组成的粒子群物理系统中,粒子间通常会产生一些形似磁性力的作用现象。
Hopfield于是将这种相互作用的现象借鉴到了神经网络模型的设计当中,尤其是网络中的那些具有自发计算特性的神经元结构。因此,Hopfield发明出了“Hopfield network”,而它则是递归神经网络(RNN)的前身。
时至今日,RNN的广泛应用无需赘述,它大量的应用在时序分析、自然语言处理等领域。只要数据之间具有时间依赖性、时序动态特征,那么RNN就是一个十分优秀的备选方案。
换个角度来看,理论物理学有望帮助人们从基础上重新认识机器学习领域。早在1984年,L. G. Valiant就发表了一篇经典论文《A theory of the learnable》,在其中,他便对此定下了基调。
这篇论文介绍了一个严格的学习统计理论,可以看作是一切可学习的基础。它突破了现在深度学习、机器学习中以数学为根基的可学习或学习算法的范畴,而以更高、更宏观的角度来讨论模型、人类、或各种事件的“可学习性”。
概括来说,作者将学习行为定义为一种“在没有显示程序化的情况下获取知识的现象”,文章从计算的角度给出了研究学习现象的具体方法,包括选择正确的信息收集方法、学习方法、以及搜索选择合理的描述计算方法、计算步骤的数学概念类型。
深度学习应该从物理中学点什么?
但当时间来到2010年代,经历了漫长蛰伏的深度学习异军突起,在诸多领域中以迅雷不及掩耳之势大肆霸榜,刷新各种记录并吊打其他传统算法。深度学习凭借其彪悍强大的泛化能力,以及不可理喻的非线性学习能力赢得了世人的惊叹和承认。但是随之而来的,也有质疑和困惑,这个黑箱家伙的背后,究竟隐藏着什么未解之谜?
在最近发表在《Nature Physics》杂志上的一篇评论论文中,Lenka Zdeborová研究员呼吁科研人员尝试重新使用“物理学启发的方法(Physics-inspired approaches)”来解决实际生活中那些复杂而毫无头绪的建模问题。
在这篇名为《Understanding deep learning is also a job for physicists》的文章中,作者首先赞扬了深度学习的广泛应用,以及在诸多领域中的卓越表现。
但是也一针见血的指出这种“无脑”训练的方法在某种意义上不够“优雅”,它浪费了大量了计算资源和泛化能力,可能费劲千辛万苦训练出一个庞大复杂的模型结果只是解决了一个y=kx+b的问题。
换句话说,深度学习的研究很多情况下没有剖析到问题的本质,他们没有深入的分析数据,没有细致的观察数据之间的关联和变化,因而也没有对其背后的规律和真正的核心模型进行理解和探究。极有可能的是,我们训练出了一把举世无双的屠龙宝刀,目的是给装修公司刮大白——虽然好使,但是物理学家们还是觉得腻子铲好使……当然,作者也有呼吁物理学家借鉴深度学习这个工具加速各自理论研究和模型研究的初衷。
具体来说,Lenka指出:物理学家擅长于归纳总结,总能够透过数据看到其后的本质。物理学家们拥有丰富的经验,他们可以轻松的处理数量庞大、异构、多模态且量级各异的实验数据,并且从中抽丝剥茧,像福尔摩斯一样找到问题背后的规律。
因此,物理学家们总能找到问题背后的本质,并且对其中重要的那部分合理建模。而对于数据中那些无关紧要的噪声和细节,物理学家们也能够把它们准确的剔除出来并且忽略。可怕的是,物理学家甚至还总能通过分析和调查来测试这些猜想和模型。
一个典型的例子是物理学中十分成功的磁学模型-Ising模型。Ising没有使用任何关于磁相互作用或材料特性的量子力学先验细节,但它却可以准确的模拟出自然界中的若干种类型的实验现象。
事实上,计算科学家们在之后也尝试对同样的问题基于数据建立了机器学习方法。他们曾经设计了一个Hopfield网络,喂给它超大规模的数据后,训练出来的模型居然和Ising别无二致,二者结果完全相同。
可以说,这就是一个机器学习版本的Ising网络。这也从侧面说明了Ising模型的成功。所以说,如果我们想对深度学习的理论有进一步的理解、如果我们想揭开深度学习黑盒背后的神秘面纱,那物理学所启发的归纳思路可能是个不错的突破口。
我们可以稍微展开来讲,为什么说物理学有望成为深度学习理论的突破口呢?我们知道,深度学习的可解释性研究或合理性理论研究一直是一个热门的领域。由于深度学习黑盒不可解释的特性,它被例如医疗等领域严格限制着。如果一个产品想通过CFDA、CE的认证,那么你需要将算法的理论讲的一清二楚,毕竟人命关天。
因此,如果我们可以从物理学的角度对深度学习的可解释性进行系统的阐述和研究,甚至哪怕是一点点微小的进步,也将会被业界和学界当作救命稻草一样牢牢抓住并异常珍惜。
那么针对深度学习可以计算什么?我们如何训练它们?信息是如何通过它们传播的?为什么它们可以泛化?我们如何教它们想象……等等的灵魂拷问,都将是研究的重点。目前,有些工作比如《Statistical Mechanics of Deep Learning》从统计力学的物理分析角度来为这些问题提供根源概念上的解释。
这些解释方法将深度学习与各种物理和数学主题联系起来,包括随机景观、自旋玻璃、干扰、动态相变、混沌、黎曼几何、随机矩阵理论、自由概率和非平衡统计力学。
事实上,统计力学和机器学习领域,自古以来就有着很强的耦合性,以及丰富的互动历史,而统计力学和深度学习交叉点的最新进展表明,这些互动有望会进一步繁衍生息,并最终为我们深度学习的理论研究和可解释性,提供振奋人心突破的可能!
评论