OpenAI发布最新旗舰大模型GPT-4o 引起热议-无心号

今日凌晨，OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用，而且具备横跨听图片、看图片、说图片的多项能力，为用户带来如视频电话般丝滑流畅的交流体验。无心号四卷带您了解

OpenAI表示，GPT-4o不仅在功能上有所突破，更令人惊喜的是，它将向所有用户免费开放，包括之前仅为ChatGPT Plus会员提供的功能。此外，GPT-4o的新语音模式将在接下来的几周内首先对会员用户开放试用。

据悉，GPT-4o（“o”代表“omni”）凭借其Omni(全能)之名，展现了其惊人的实力。无论是文本、音频还是图像，GPT-4o都能轻松处理，并生成相应的输出。更为令人震撼的是，它能在极短的时间内对音频输入做出反应，其速度之快几乎与人类对话中的反应一致。

首先，GPT-4o实现了零延迟的实时语音交互，其表现自然、真实，充满情感。在演示中，当演示者表现出紧张情绪时，GPT-4o能够迅速识别并给予安慰和指导。此外，GPT-4o还能够根据要求调整语气和音调，甚至在被要求时，能够以机器人的声音或唱歌的形式来讲述故事。

与之前的模型相比，GPT-3.5和GPT-4在语音模式下的平均延迟时间分别为2.8秒和5.4秒，这无疑会影响对话的流畅性。而GPT-4o则无需先将语音转录为文本，因此能够更直接地理解和响应语音中的语气、音调等信息。

除了语音交互，GPT-4o还能通过视觉和语音的结合进行多模态交互。例如，在发布会上，OpenAI展示了GPT-4o如何通过摄像头视觉解析图形报表，帮助用户解决数学问题。

在编程辅助方面，GPT-4o的实时交互能力也得到了显著提升。它能够实时检查代码，解释代码的功能，并指导用户如何调整代码以获得期望的结果。

此外，GPT-4o还能够进行视频通话，并实时分析面部情绪。在演示中，GPT-4o能够准确地识别并响应演示者的情绪状态。

在语言能力方面，GPT-4o支持超过50种语言，并在质量和速度上都有所提升。在官方演示中，GPT-4o成功实现了英语和西班牙语之间的实时同声传译。

尽管GPT-4o在人机交互方面取得了革命性的进步，但它并不是GPT-5。OpenAI的首席技术官Mira Murati在直播中提到，GPT-4o是GPT-4模型的一个迭代版本，它在文本、语音和视觉方面的能力都有所提升。

OpenAI的首席执行官Sam Altman也表示，GPT-4o是一个”原生多模态”模型，它在文本、视觉和音频方面进行了端到端的训练，所有输入和输出都由同一个神经网络处理。

GPT-4o的强大不仅体现在其全面的能力上，更在于其高效的API服务。为了让更多用户能够轻松使用GPT-4o，OpenAI提供了价格打五折、速度提高一倍、单位时间调用次数增加五倍的API服务。这无疑将极大推动GPT-4o在各行各业的应用和发展。

最后，OpenAI 还宣布将推出 ChatGPT 桌面版应用程序，首先向 Plus 用户推出 macOS 应用，未来计划推出 Windows 版本。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 97552693@qq.com 举报，一经查实，本站将立刻删除。本文链接：https://hbwxh.com/n/8245.html

OpenAI发布最新旗舰大模型GPT-4o 引起热议