OpenAI发布最新旗舰大模型GPT-4o 引起热议

今日凌晨,OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用,而且具备横跨听图片、看图片、说图片的多项能力,为用户带来如视频电话般丝滑流畅的交流体验。无心号四卷带您了解

image.png

OpenAI表示,GPT-4o不仅在功能上有所突破,更令人惊喜的是,它将向所有用户免费开放,包括之前仅为ChatGPT Plus会员提供的功能。此外,GPT-4o的新语音模式将在接下来的几周内首先对会员用户开放试用。

image.png

据悉,GPT-4o(“o”代表“omni”)凭借其Omni(全能)之名,展现了其惊人的实力。无论是文本、音频还是图像,GPT-4o都能轻松处理,并生成相应的输出。更为令人震撼的是,它能在极短的时间内对音频输入做出反应,其速度之快几乎与人类对话中的反应一致。

image.png

首先,GPT-4o实现了零延迟的实时语音交互,其表现自然、真实,充满情感。在演示中,当演示者表现出紧张情绪时,GPT-4o能够迅速识别并给予安慰和指导。此外,GPT-4o还能够根据要求调整语气和音调,甚至在被要求时,能够以机器人的声音或唱歌的形式来讲述故事。

与之前的模型相比,GPT-3.5和GPT-4在语音模式下的平均延迟时间分别为2.8秒和5.4秒,这无疑会影响对话的流畅性。而GPT-4o则无需先将语音转录为文本,因此能够更直接地理解和响应语音中的语气、音调等信息。

image.png

除了语音交互,GPT-4o还能通过视觉和语音的结合进行多模态交互。例如,在发布会上,OpenAI展示了GPT-4o如何通过摄像头视觉解析图形报表,帮助用户解决数学问题。

image.png

在编程辅助方面,GPT-4o的实时交互能力也得到了显著提升。它能够实时检查代码,解释代码的功能,并指导用户如何调整代码以获得期望的结果。

此外,GPT-4o还能够进行视频通话,并实时分析面部情绪。在演示中,GPT-4o能够准确地识别并响应演示者的情绪状态。

在语言能力方面,GPT-4o支持超过50种语言,并在质量和速度上都有所提升。在官方演示中,GPT-4o成功实现了英语和西班牙语之间的实时同声传译。

尽管GPT-4o在人机交互方面取得了革命性的进步,但它并不是GPT-5。OpenAI的首席技术官Mira Murati在直播中提到,GPT-4o是GPT-4模型的一个迭代版本,它在文本、语音和视觉方面的能力都有所提升。

OpenAI的首席执行官Sam Altman也表示,GPT-4o是一个”原生多模态”模型,它在文本、视觉和音频方面进行了端到端的训练,所有输入和输出都由同一个神经网络处理。

image.png

GPT-4o的强大不仅体现在其全面的能力上,更在于其高效的API服务。为了让更多用户能够轻松使用GPT-4o,OpenAI提供了价格打五折、速度提高一倍、单位时间调用次数增加五倍的API服务。这无疑将极大推动GPT-4o在各行各业的应用和发展。

最后,OpenAI 还宣布将推出 ChatGPT 桌面版应用程序,首先向 Plus 用户推出 macOS 应用,未来计划推出 Windows 版本。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 97552693@qq.com 举报,一经查实,本站将立刻删除。本文链接:https://hbwxh.com/n/8245.html