GPT-4O 是 OpenAI 为聊天机器人 ChatGPT 发布的一款多模态大模型。以下是关于它的一些详细信息:

  1. 命名含义

    • “O”代表“Omni”,意为“全能”,源自拉丁语“omnis”。这体现了该模型具有多模态的能力以及广泛的功能。
  2. 发布时间:2024 年 5 月 13 日(美国当地时间)。

  3. 功能特点

    • 多模态交互:可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。这使得用户与模型的交互更加自然和多样化,例如可以通过语音输入问题,让模型以文字或语音的形式回答,还可以让模型根据图片内容进行分析和描述。
    • 语言处理能力强:能够处理 50 种不同的语言,并且在非英语文本方面的处理能力有显著提高,这为全球不同语言背景的用户提供了更便捷的服务。
    • 快速响应:在音频输入方面,GPT-4O 可以在 232 毫秒内做出反应,平均响应时间为 320 毫秒,与人类在对话中的反应时间相近,大大提高了交互的效率和流畅性。
    • 情感感知:具有“感知情绪”的能力,能够检测用户的情绪,并以类似人类或机器人的语调与用户交谈,使交流更加人性化。
  4. 性能优势

    • 在传统基准测试中,GPT-4O 在文本、推理和编码等方面实现了与 GPT-4 Turbo 级别相当的性能。
    • 与 GPT-4 Turbo 相比,GPT-4O 的速度快了 2 倍,速率限制提高 5 倍,最高可达每分钟 1000 万 token,而价格下降了 50%。
  5. 应用领域:用户可以使用 GPT-4O 模型进行数据分析、图像分析、互联网搜索、访问应用商店等操作。

  6. 版本更新:8 月,GPT-4O 新版本上线,在输入和输出分别节省 50%和 33%花费的情况下,能力得到全方位提升,在 zeroeval 基准测试中排名世界第一。

不过,该模型在探索功能及其局限性方面仍处于起步阶段,在演示过程中也曾出现一些失误。例如,它在尚未读取到图像时就开始求解方程,还一度把人的面部识别为“木质表面”。但总体而言,GPT-4O 的推出为人工智能领域带来了新的突破和发展机遇。