量子纠缠:从量子物质态到深度学习
与使用一个2N 行的表格相比,图1(a),(b)中所示的两类网络结构都可以用少得多的参数近似表达复杂的多元函数。在实际应用中,我们可以通过调节前馈神经网络中的权重参数,使得它学会从图片像素信息中分辨其中物体的种类。或者,我们也可以调节限制玻尔兹曼机中随机变量之间的相互作用强度,使得显变量的概率分布尽可能重现目标数据集的分布。训练好的玻尔兹曼机可以生成更多遵循目标概率分布的新样本。以上两类任务分别对应了判别型学习(Discriminative Learning) 和生成型学习(Generative Learning)。打个比方,判别型学习相当于学会认字,而生成型学习的目标是学会写字。正如费曼在他的黑板上留下的那句名言“What I can not create,I do not understand”,学会写可比学会读困难得多,也要求更深层次的理解。判别型学习支撑着大量当下成功的商业应用,而探索生成型学习的模型和算法则代表了深度学习研究的前沿和未来。 在实际应用中,人们希望使用通用的人工神经网络结构表达尽可能复杂多变的函数形式。这自然引出一个问题:图1(a),(b)所示的网络都能够表达什么样的函数形式?为此,人们证明了所谓的“普适表示定理”:随着网络中隐层神经元个数的增加,图1(a)中所示的前馈神经网络结构(即使只有单个隐层)可以任意逼近任何的连续函数。类似地,通过增加图1(b)中限制玻尔兹曼机的隐层神经元数目,它也可以表达关于显变量任意复杂的概率分布函数。然而遗憾的是,针对一个具体的函数近似问题,以上这些普适表示定理没办法告诉我们至少需要多少隐层神经元,也没办法告诉我们究竟如何确定这些神经元之间的连接权重。而现实中我们关心的首要问题就是:给定有限的计算时间和存储资源,应该如何最优地分配它们呢? 经过多年的摸索实践,人们有一个关键的发现:在参数个数一样的情况下,深层的神经网络比浅层的网络具有更强的表达能力。训练越来越深的神经网络来近似表达复杂的函数形式,是深度学习这个名词中“深度”的来源。当然,神经网络的表达能力也并不是越强越好。过于复杂的网络结构不仅增加了计算量,还可能造成神经网络过拟合(Over-fitting),这就是典型的“过犹不及”。神经网络的表达能力最好是与需要描述的函数的复杂程度相匹配。为此,人们设计出了种类繁多的神经网络结构。很多这些结构设计主要由工程实践经验驱动,这使得深度学习得到了“经验主义”的名声。利用人工神经网络作函数近似的初衷是利用它们的通用性,不需要太多的人为介入就可以自动寻找到数据中的关键特征(Feature)。可当神经网络结构变得越来越多样之后,面临网络的人为选择问题,我们又回到了起点。 因此,人们迫切需要一些更具指导意义的判别标准,来帮助我们定量化地界定神经网络的表达能力和数据集的复杂程度,以便在不同结构的神经网络之间作出比较和取舍。为此我们需要对于神经网络所表达的对象——现实世界中的多元函数——有更深刻的理解。在我们前面的例子中,虽然所有可能的输入原则上有2N 种,但典型的输入其实通常遵循某一特定分布。关于目标数据分布和函数性质的先验知识(Prior Knowledge)有助于指导我们设计合适的神经网络结构。一个最明显的先验知识就是函数的对称性。比如,在图像识别的例子中,图片的种类与其中物体的具体位置无关。类似地,对于围棋局面的估值对盘面构型也应该具有反演和旋转不变性。在图1(a)的网络中实现这些限制,我们就得到了卷积神经网络(Convolutional Neural Network)。它使用局域感知区(Local Receptive Fields)扫描整张图片寻找特征,通过不同感知区共享权重来保证函数的不变性。如何发掘和利用更多类似的“先验知识”是深度学习成功的关键。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |