论文 | A Survey of Mamba

论文脑图
论文地址
Mamba简介
相关模型
Mamba模型进展
适应数据类型
应用领域
挑战与机遇
论文总结

论文脑图

avatar

论文地址

[2408.01129] A Survey of Mamba

Mamba简介

作为深度学习的重要架构，引发AI领域变革
解决Transformer的计算复杂性问题

Mamba模型进展

Block Design：集成、替代和修改Mamba块以提升性能
- Integration：与其他模型结合，如Transformer、CNN等
- Substitution：替代U-Net和Diffusion Model等框架的关键组件
- Modification：如采用Mix-of-Expert等方法修改Mamba块
Scanning Mode：设计高效扫描方法以增强模型性能
- Flattening Scan：包括Bidirectional Scan、Sweeping Scan等
- Stereo Scan：包括Hierarchical Scan、Spatiotemporal Scan等
Memory Management：通过记忆初始化、压缩和连接等方法管理SSM细胞的内存

适应数据类型

Sequential Data：包括自然语言、视频、时间序列、语音和运动等
- Natural Language：Mamba可用于自然语言处理任务
- Video：用于视频理解和生成，如VideoMamba
- Time-Series：应用于时间序列预测
- Speech：在语音分离等任务中有进展
- Motion：如Motion Mamba用于运动建模
Non-Sequential Data：包括图像、图结构数据和点云等
- Image：Vision Mamba等模型用于图像分析
- Graph-structured Data：Graph-Mamba等用于图学习
- Point Cloud：PointMamba等用于点云分析
Multimodal Data：Mamba可用于多模态学习，如VL-Mamba

应用领域

Natural Language Processing：如语言建模、问答系统和文本摘要
Computer Vision：如疾病诊断、运动识别和生成
Speech Analysis：如语音分离和增强
Drug Discovery：用于蛋白质设计、分子设计和基因组分析等
Recommender Systems：Mamba4Rec等模型用于个性化推荐
Robotics and Autonomous Systems：如RoboMamba用于机器人的视觉理解和动作执行

挑战与机遇

Mamba-based Foundation Models：开发特定领域的Mamba基基础模型
Hardware-Awareness Computation：探索新的硬件高效算法
Trustworthy Mamba Models：确保Mamba模型的安全性、公平性、可解释性和隐私性
Applying Emerging Techniques from Transformer to Mamba：将Transformer的新兴技术应用于Mamba模型，如参数高效微调、缓解灾难性遗忘和检索增强生成

论文总结

以下是对文档《A Survey of Mamba》的详细总结：

一、引言

深度学习中，Transformers在AI应用中取得显著成功，但存在计算效率问题，尤其是在处理长序列时。
Mamba作为一种有潜力的替代架构，能够有效捕捉复杂序列数据中的依赖关系，同时保持接近线性的计算复杂度。

二、初步知识

Recurrent Neural Networks（RNNs）：擅长处理序列数据，但存在提取长程动态能力有限、计算效率低和缺乏内置注意力机制等局限性。
Transformers：通过自注意力机制改变了序列到序列模型的范式，但在推理过程中计算开销大。
State Space Models（SSMs）：是传统的数学框架，可离散化且与卷积计算兼容，能有效捕捉时序数据依赖，但传统SSMs在建模文本等信息密集型数据时效果有限。

三、Mamba

Mamba - 1：
- 选择机制：基于Structured State Space Models引入High - order Polynomial Projection Operator（HiPPO） - based Memory Initialization、Selection Mechanism和Hardware - aware Computation三种创新技术，增强SSMs在长程线性时间序列建模的能力。
- HiPPO - based Memory Initialization：利用HiPPO理论并引入缩放的Legendre测量（LegS），为复杂时序依赖建模提供全面历史背景考虑，且具有良好的理论性质，如梯度有界和逼近误差小，利于参数学习。
- Selection Mechanism：设计时变选择机制，根据模型输入参数化权重矩阵，使SSMs能过滤无关信息并获取内容感知表示，但失去了与卷积的等价性，影响效率。
- Hardware - aware Computation：利用Parallel Associative Scan（并行关联扫描）和Memory Recomputation（内存重新计算）解决选择机制带来的训练效率挑战，前者利用线性关联计算和现代加速器并行性降低计算复杂度，后者通过重新计算减少内存需求并优化整个SSM层的效率。
Mamba - 2：
- State Space Duality：引入Structured Space - State Duality（SSD）框架，建立SSMs与各种形式注意力的理论连接，使SSMs能受益于Transformer的技术优化，并通过块分解矩阵乘法算法实现更硬件高效的计算。

四、Mamba模型的进展

Block Design：
- Integration：将Mamba块与其他模型（如Transformers、CNNs、GNNs、RNNs、SNNs）集成，以平衡有效性和效率。
- Substitution：用Mamba模块替代U - Net、Diffusion Model等经典模型框架的主要层，以提升学习能力和实现高效计算。
- Modification：通过修改Mamba块的组件（如引入Mix - of - Expert、K - way/Parallel Structure等）来增强其在不同场景下的性能。
Scanning Mode：
- Flatten Scan：包括Bidirectional Scan（双向扫描）、Sweeping Scan（清扫扫描）、Continuous Scan（连续扫描）和Efficient Scan（高效扫描），用于从不同方向处理模型输入，以增强对序列数据的学习能力。
- Stereo Scan：包括Hierarchical Scan（分层扫描）、Spatiotemporal Scan（时空扫描）和Hybrid Scan（混合扫描），通过从多个角度建模输入，以捕获更广泛的知识和更全面地理解模型输入。
Memory Management：通过内存初始化、压缩和连接等方式改进SSM细胞的内存管理，如Ezoe和Sato使用平衡截断方法改进选择性SSMs的初始化，DGMamba引入Hidden State Suppressing方法增强域泛化能力，DenseMamba采用密集连接方法增强隐藏信息在层间的传播。

五、适应数据类型

Sequential Data：包括自然语言、视频、时间序列、语音和运动等数据。
- Natural Language：Mamba可用于自然语言处理任务，如MambaByte利用Mamba处理字节序列，Jamba和BlackMamba通过引入Mix - of - Experts提升语言处理性能。
- Video：VideoMamba通过3D卷积和双向Mamba块处理视频，Vivim利用Temporal Mamba Block压缩视频的时空表示。
- Time - Series：TimeMachine和Mambaformer利用Mamba处理时间序列数据，用于长期预测和多变量时间序列分析。
- Speech：SPMamba和DPMamba利用双向Mamba模块进行语音分离，TRAMBA和oSpatialNet - Mamba应用Mamba进行语音增强。
- Motion：Motion Mamba和InfiniMotion利用Mamba处理运动序列，用于运动生成和理解。
Non - Sequential Data：包括图像、图结构数据和点云等。
- Image：Vision Mamba和VMamba等模型将图像视为序列进行处理，以减少计算资源和内存压力，同时保持竞争力的建模能力。
- Graph - structured Data：Graph - Mamba和GSSC等利用SSMs对图结构数据进行编码和学习，以提高模型效率和表达能力。
- Point Cloud：PointMamba和Point Cloud Mamba等方法通过特定扫描方法将点云数据令牌化，然后利用Mamba捕捉其中的模式。
Multimodal Data：Mamba可用于多模态学习，如VL - Mamba利用预训练的Mamba模型进行语言理解，通过连接器模块对齐视觉补丁和语言令牌；Text - controlled Motion Mamba基于文本查询利用Mamba动态捕获全局时间信息以增强人体运动理解；Fusion - Mamba和Sigma尝试融合不同模态的互补信息以提升目标检测和语义分割性能。

六、应用

Natural Language Processing：在问答系统和文本摘要等任务中，Mamba - based模型可提高对话管理和复杂推理能力，如Mamba - Chat、Jamba和DenseMamba在问答系统中的应用，LOCOST和SAMBA在文本摘要任务中的表现。
Computer Vision：在疾病诊断和运动识别与生成等领域有应用，如U - Mamba、SegMamba和CMViM在疾病诊断中的应用，HARMamba、Simba、Motion Mamba和InfiniMotion在运动相关任务中的使用。
Speech Analysis：在语音分离和标记以及语音增强任务中，Mamba - based模型可有效处理语音信号，如DPMamba、SPMamba和DASS在语音分离和标记中的作用，TRAMBA和oSpatialNet - Mamba在语音增强方面的应用。
Drug Discovery：PTM - Mamba和ProtMamba等基于Mamba架构的蛋白质语言模型可高效处理长序列，Saturn在药物发现中利用Mamba的线性复杂性和计算效率超越了22个竞争模型，Caduceus和MSAMamba在基因组分析中表现出色。
Recommender Systems：Mamba - based模型如Mamba4Rec、RecMamba和EchoMamba4Rec可用于个性化推荐，提高模型性能和推理效率。
Robotics and Autonomous Systems：RoboMamba将视觉编码器与Mamba集成，用于机器人的多模态学习和智能推理，Mall使用Mamba作为骨干，在处理观测序列方面具有效率和性能优势。

七、挑战与机遇

Mamba - based Foundation Models：开发基于Mamba的特定领域基础模型，以解决Transformer模型的计算和内存效率问题。
Hardware - Awareness Computation：探索如FlashButterly等新的硬件高效算法，以优化硬件利用，不仅对SSMs，对Transformers和RNNs等其他架构也有益。
Trustworthy Mamba Models：确保Mamba模型在Safety & Robustness（安全与稳健性）、Fairness（公平性）、Explainability（可解释性）和Privacy（隐私性）等关键维度的可信度，例如通过自动预处理对抗扰动、解决偏见和刻板印象问题、提供对模型决策的合理内在解释以及保护用户隐私等措施。
Applying Emerging Techniques from Transformer to Mamba：将Transformer的Parameter - efficient Finetuning（参数高效微调）、Catastrophic Forgetting Mitigation（灾难性遗忘缓解）和Retrieval - augmented Generation（RAG，检索增强生成）等新兴技术应用于Mamba模型，以拓宽其在下游任务中的应用范围并提高生成质量，但具体实施方式仍需进一步研究。

八、结论

Mamba在语言生成、图像分类、推荐和药物发现等领域取得了显著成功，因其强大的建模能力和计算效率，越来越多的研究致力于开发更强大的基于Mamba的深度学习模型。鉴于Mamba研究仍处于初级阶段，本文讨论了当前的局限性和未来的研究方向，为研究者提供了对Mamba的深入理解和最新发展的概述。

论文 | A Survey of Mamba

论文脑图

论文地址

Mamba简介

相关模型

Mamba模型进展

适应数据类型

应用领域

挑战与机遇

论文总结

论文相关文章

Transformers相关文章

最近热门

最常浏览