当前,深度神经网络在各类任务中都显著超越了传统机器学习算法的性能,在计算机视觉、自然语言处理等多个人工智能领域的主流研究方面具有重要的研究价值。然而,深度模型带来了巨额的计算负担,且当模型拓展到一定程度后甚至会使性能下降。因此,在不扩大模型复杂度的前提下研究高性能的子模块、子结构、乃至最底层神经元,可以便捷植入已有的神经网络,具有比拓展模型规模更强的泛用性。
(a)
(b)
图1.(a)两物体碰撞模型; (b)模拟碰撞过程设计神经元
据此,南京大学人工智能学院申富饶教授领导的RINC研究组深入研究了神经元模型与神经网络泛化性能之间的关系,借鉴物理碰撞模型中物理量的变换过程,设计了一种被称为层间碰撞(Inter-layer Collision, IC)神经元的高性能人工神经元。如图1所示,两物体碰撞后速度的变化遵循动量和能量守恒定律,IC神经元则将速度作为神经元间传递的信息量,用前后层的两个神经元构建一个碰撞过程,并在同一层内扩展。IC神经元结构如图1(b)所示,其数学表示为(其中表示ReLU函数,f表示任意激活函数):
IC神经元保留了当前主流MP神经元结构轻型、易于拓展和训练的特点,同时具有更强的非线性表示能力和泛化能力。例如,在经典的线性不可分XOR问题上,单个IC神经元提供了一种良好的解决方案,而单个MP神经元则无法解决该问题。
IC神经元将输入空间沿某一超平面切分成两部分,再在每部分空间执行不同的线性变换。这种方式增加了输入数据的变换模式,因此,和相同规模的MP神经网络相比,IC神经网络可以学习到更复杂的输入分布。申富饶教授团队将该新型人工神经元应用到三种主流神经网络结构(全连接、卷积、循环神经网络)和多个深度模型(ResNets、MobileNets、DenseNets等)中进行了实验验证。实验结果显示,在不改变MP神经网络结构的条件下,IC神经元可以应用于各种模型和任务中,并能提升多个任务下各类神经网络的性能,尤其在深度模型中,IC神经元使几种模型在图像分类上的精度明显提升,且几乎没有引入新的计算负担。图2展示了IC神经元在几个分类任务和回归任务中的表现。
(b)
(c) (d)
(e)
图2. (a)IC全连接结构在YEAST数据上的训练曲线;(b)IC循环网络在IMDB上的训练曲线;(c)IC卷积网络在CIFAR10上的训练曲线;(d)IC乘法网络在AUST数据上的回归曲线
(e)全连接神经网络在多个任务中的分类精度比较(只用IC神经元替换M-P神经元,不做其他任何操作)
该工作探索了神经元设计的全新思路并为神经网络模型使用者提供了一条简单有效的优化方式。成果以《IC neuron: An efficient unit to construct neural networks》为题发表在Neural Networks(DOI: 10.1016/j.neunet.2021.10.005)上。南京大学计算机与科学系2018级博士生安俊逸为该论文第一作者,通讯作者为申富饶教授。该工作同时也得到了南京大学电子学院赵健副教授的指导与支持,以及国家自然科学基金(61876076)项目的资助。
论文链接:https://www.sciencedirect.com/science/article/pii/S0893608021003968