OpenAI在2024年7月31日宣布推出GPT-4o的高级语音版。该版本基于单个多模态模型,而不是之前的三个独立模型来实现语音功能,从而显著降低了与聊天机器人对话的延迟。
从多个证据中可以看出,GPT-4o的高级语音模式不仅提高了响应速度,还增强了交互能力。例如,它可以在短至232毫秒内响应音频输入,平均响应时间为320毫秒,几乎与人类在对话中的响应时间相似。此外,GPT-4o能够实时处理超过40种语言,并支持跨文本、音频和视觉的内容输入与输出。 值得注意的是,GPT-4o的高级语音模式已经开始向一小部分ChatGPT Plus用户进行测试,并计划在未来几周内向所有Plus用户提供访问权限。这一模式不仅允许用户随时打断对话,还能感知并回应用户的情绪波动,仿佛电影《Her》中的情节走入现实。 总体而言,GPT-4o的高级语音版通过其更快的响应速度、更自然的交互体验以及强大的多模态处理能力,为用户提供了一个更加流畅和智能的对话平台。这标志着人机交互进入了一个新的阶段,进一步推动了人工智能技术的发展和应用. ![]() |