“KAN: Kolmogorov–Arnold Networks”由Ziming Liu等人撰写。文章提出了Kolmogorov-Arnold Networks (KANs),受Kolmogorov-Arnold表示定理启发,是一种有潜力替代多层感知器(MLPs)的神经网络。KANs将可学习的激活函数置于边而非节点上,在小规模AI + Science任务中展现出比MLPs更优的准确性和可解释性。

  1. 研究背景与动机:MLPs是深度学习模型的基础构建块,但存在参数消耗大、可解释性差等缺点。KANs受Kolmogorov-Arnold表示定理启发,旨在克服MLPs的不足,为深度学习模型改进提供新方向。

  2. KAN网络

    • 理论基础:Kolmogorov-Arnold表示定理表明多元连续函数可由单变量连续函数和加法运算表示。KAN基于此定理构建,将定理中的单变量函数用B样条曲线参数化,形成可学习的激活函数。
    • 网络架构:KAN由多层组成,每层是一个由ID函数构成的矩阵。节点对输入信号进行求和,激活函数位于边,通过堆叠KAN层实现更深层次的网络结构。其计算图由特定公式描述,所有操作可微,能使用反向传播进行训练。
    • 近似能力与缩放定律:定理证明了KAN在有限网格下能较好地逼近函数,且误差率与维度无关,突破了维度诅咒。在神经缩放定律方面,KAN理论上具有比MLPs更大的缩放指数,实验也验证了其在数据拟合和PDE求解中的优势。
    • 提高准确性的方法:提出网格扩展技术,通过细化样条网格提高KAN的准确性。实验表明,网格扩展可使KAN的训练损失下降,测试损失在一定范围内达到最优,且KAN的训练时间与网格点数的关系也较为有利。
    • 提高可解释性的方法:通过稀疏化、可视化、修剪和符号化等技术简化KAN,使其更具可解释性。用户可与KAN交互,通过设置符号函数、调整参数等操作,从KAN中获得更有意义的结果。
  3. KAN的性能验证

    • 数据拟合任务:在多个玩具数据集、特殊函数和Feynman数据集上进行实验,结果表明KAN比MLPs具有更好的缩放曲线,能以更少的参数实现更低的测试RMSE损失,在表示函数方面更有效。
    • 求解偏微分方程:以Poisson方程为例,KAN在求解PDE时收敛更快、损失更低、缩放定律更陡峭,尽管训练速度较慢,但在模型降阶方面具有潜力。
    • 持续学习能力:KAN利用样条的局部性避免灾难性遗忘,在简单的1D回归任务中表现优于MLPs,但在高维情况下的有效性仍需进一步研究。
  4. KAN的可解释性应用

    • 监督学习任务:在监督学习任务中,KAN能揭示符号公式的组合结构,学习正确的单变量函数,如乘法、除法、特殊函数等任务中表现出色。
    • 无监督学习任务:将无监督学习问题转化为监督学习问题,KAN可发现变量间的结构关系,在合成数据集和结理论数据集中取得了有意义的结果。
    • 数学应用:在结理论中,KAN不仅能重新发现已有结果,还能通过无监督学习模式发现新的数学关系,为数学研究提供了新的方法和思路。
    • 物理应用:在Anderson局域化研究中,KAN可从数值数据中提取准周期紧束缚模型的迁移边缘,帮助研究人员理解和分析物理现象,且用户可与KAN协作优化结果。
  5. 相关工作:介绍了KAN与其他相关研究的联系与区别,包括Kolmogorov-Arnold定理与神经网络、神经缩放定律、机械可解释性、可学习激活、符号回归、物理信息神经网络等方面的研究。

  6. 研究总结与展望:KAN在准确性和可解释性方面具有优势,但存在训练速度慢等问题。未来可从数学基础、算法优化、应用拓展等方面进行研究,如探索更深层次的KAN理论、改进网络架构和训练方法、将KAN应用于更多科学和机器学习任务等。