[2309.01249] Large AI Model Empowered Multimodal Semantic Communications

“Large AI Model Empowered Multimodal Semantic Communications”由 Feibo Jiang、Li Dong 等人撰写。随着人工智能与无线通信融合,语义通信(SC)兴起,但多模态 SC 面临数据异构、语义模糊和信号失真等挑战。本文提出基于大型 AI 模型的多模态 SC(LAM - MSC)框架,利用多模态语言模型(MLM)和大型语言模型(LLM)解决这些问题,并通过仿真验证其性能,为多模态语义通信发展提供新思路。

  1. 引言

    • 研究背景:通信系统分为技术、语义和有效性三个层面,语义通信聚焦于消息的意义。多模态数据在先进应用中常见,但传统单模态 SC 系统处理多模态数据效率低,多模态 SC 面临数据异构、语义模糊和信号失真挑战。
    • 大型 AI 模型优势:如多模态语言模型(如 CoDi、Gemini)和大型语言模型(如 GPT4),能准确提取语义、拥有丰富先验知识且语义解释能力强。
    • 研究贡献:提出 LAM - MSC 框架,包括基于 MLM 的多模态对齐(MMA)实现统一语义表示、基于 LLM 的知识库(LKB)促进个性化语义理解、基于条件生成对抗网络的信道估计(CGE)减少衰落信道影响。
  2. 预备知识

    • CoDi 用于多模态数据:可从任意输入模态组合生成输出模态,关键组件有潜在扩散过程、单模态模块设计、可组合多模态条件和反向多模态生成。
    • GPT - 4 用于个性化 KB:GPT - 4 是先进 LLM,可作为全球知识库,通过适配器调整、前缀调整、提示调整和低秩适应等方法可将其转化为个性化知识库。
    • CGAN 用于信道估计:可将信道估计视为图像到图像的转换问题,利用 CGAN 训练生成器学习接收信号、导频序列和信道增益的映射关系,判别器辅助提高生成器性能。
  3. 多模态 SC 实现

    • LAM - MSC 框架:MMA 将多模态数据转换为文本数据,LKB 提取个性化语义,CGE 辅助数据传输,接收端 LKB 恢复语义,MMA 进行模态恢复。
    • MMA:发送端将多模态数据编码后转换为文本数据,接收端将个性化语义转换回原始多模态数据,都要确保语义一致性。
    • LKB:由全球 GPT - 4 模型和个性化提示库组成,通过提示调整和个性化提示库对 GPT - 4 模型进行微调,提取个性化语义。
    • CGE:利用 CGAN 估计无线信道增益,生成器含卷积、反卷积层和 LeakyReLU 激活函数,判别器含 ReLU 激活函数的卷积层。
  4. 仿真结果

    • 问题描述:关注端到端数据通信场景,用 BERT 和余弦相似度评估多模态 SC 系统性能,设定余弦相似度阈值为 0.6。
    • 仿真设置:使用 VOC2012、LibriSpeech、UCF101 作为多模态评估数据集,SC 模型采用 transformer 架构,信道模型设置参考已有研究。
    • 评估结果:消融实验表明多模态 SC 传输精度随信噪比提高而增加,LKB 和 CGE 可提升性能;对比实验显示 LAM - MSC 在压缩比上有优势,虽单模态传输精度略低于特定模型,但能处理多模态信息。
  5. 开放问题

    • 需开发更通用的多模态语义表示方法。
    • 要研究有效的语义压缩技术,减少信息损失。
    • 应增强系统对噪声的鲁棒性。
    • 需提高系统的适应性和可扩展性,应对数据增长和多样化需求。
  6. 结论:介绍多模态 SC 挑战后提出 LAM - MSC 框架,其在处理多模态 SC 系统上性能优越,通过 MMA、LKB 和 CGE 分别解决了模态转换、语义模糊和信道衰落问题。