GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。该模型能够实时响应用户输入,并且在音频交互中检测和表达情感,提供了更加自然和富有表现力的交流体验。GPT-4o的设计注重提高运算速度和降低成本,其速度是之前模型的两倍,而成本仅为一半。GPT-4o在多语言处理、音频和视觉理解上表现突出,同时在安全性设计上进行了强化,以确保交互的安全性。目前,该模型的文本和图像功能已在ChatGPT中逐步推出,用户可免费体验,后续将推出音频和视频功能。
GPT-4o的主要功能
多模态交互:GPT-4o不仅能够处理文本,还能处理语音和视觉信息,能够理解和回应更广泛的用户输入,包括实时视频分析。
实时对话反馈:该模型能够提供即时的响应,无论是在文本对话、语音交互还是视频内容分析中,都能快速给出反馈。对音频输入的响应时间极短,平均为320毫秒,与人类对话反应时间相近。
情感识别与模拟:GPT-4o能够识别用户的情感状态,并在语音输出中模拟相应的情感,使得对话更加贴近人与人之间的自然交流。
编程代码辅助:GPT-4o能够分析和理解编程语言中的代码片段,帮助用户理解代码的功能和逻辑。用户可以通过语音向GPT-4o提出关于代码的问题,模型会以语音形式回应,解释代码的工作原理或指出潜在的问题。
多语言支持:GPT-4o支持超过50种语言,能够服务于全球各地的用户,满足不同语言环境的需求。此外,还支持多种语言的实时同声传译,如英语口译为意大利语。
GPT-4o的性能表现
文本性能评估:GPT-4o在多语言理解均值(MMLU)基准测试中创下了87.2%的最高得分,GPQA得分为53.6%排名第一、MATH得分76.6%排名第一、HumanEval得分90.2%排名第一、MGSM得分90.5%排名第二(略低于Claude 3 Opus)。这显示了其在常识问题上的强大推理能力和文本处理能力。
音频 ASR 性能:GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能:GPT-4o 在语音翻译方面达到了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3,超越Meta的SeamlessM4T-v2和谷歌的Gemini。
视觉理解评估:GPT-4o 在视觉感知基准上实现了SOTA最先进的性能,超过Gemini 1.0 Ultra、Gemini 1.5 Pro和Claude 3 Opus。
GPT-4o与GPT-4 Turbo的对比
1、价格:GPT-4o的价格比GPT-4 Turbo便宜50%,具体来说,输入和输出的标记(tokens)价格分别为每百万(M)输入5美元和每百万输出15美元。
2、速率限制:GPT-4o的速率限制是GPT-4 Turbo的5倍,每分钟可以处理高达1000万个token。
3、视觉能力:在与视觉能力相关的评估和测试中,GPT-4o的表现优于GPT-4 Turbo。
4、多语言支持:GPT-4o在非英语语言的支持上有所改进,比GPT-4 Turbo提供更好的性能。
目前,GPT-4o的上下文窗口为128k,知识截止日期是2023年10月。
如何使用GPT-4o
GPT-4o的文本和图像功能已经开始在ChatGPT中逐步推出,用户可以在ChatGPT平台上免费体验到GPT-4o的相关功能,但免费版有使用次数限制。 Plus用户的消息限制将比免费用户高出5倍。
同时,OpenAI还计划在未来几周内推出基于GPT-4o的Voice Mode的新版本,这将作为ChatGPT Plus的一个alpha版本提供给Plus用户。 此外,GPT-4o也将通过API提供给开发者,作为文本和视觉模型。开发者可以利用API来集成GPT-4o到他们自己的应用程序中,而且GPT-4o在API中相比GPT-4 Turbo更快、更便宜,并且有更高的速率限制。
至于GPT-4o的音频和视频功能,OpenAI将在未来的几周和几个月内继续开发技术基础设施、通过训练后提高可用性以及确保安全性,之后才会发布这些功能,并逐步向公众提供。