7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha版本)将对部分ChatGPTPlus用户开放,计划在今年秋季将该功能逐步推广至所有ChatGPT Plus订阅用户。
据ITBEAR科技资讯了解,OpenAI首席技术官米拉・穆拉蒂(MiraMurati)在早前的演讲中阐述了GPT-4o的技术特点。她指出,GPT-4o是一个全新的跨文本、视觉和音频的端到端统一模型,其特色在于所有的输入与输出都由单一的神经网络负责处理。由于这是OpenAI首个融合多种模式的模型,因此在功能和局限性的探索上,他们还处于初步阶段。
原计划于今年6月底邀请小部分ChatGPTPlus用户测试GPT-4o语音模式的OpenAI,因需要更多时间来完善模型并提升其特定内容的检测和拒绝能力,故官方在6月宣布了测试推迟的消息。
早期信息显示,相较于GPT-3.5模型2.8秒的平均语音反馈延迟,GPT-4的5.4秒延迟在语音交互上显得不足。然而,新一代的GPT-4o预计将大幅降低这一延迟,实现更为流畅的对话体验。
GPT-4o语音模式的亮点在于其迅速的反应速度和高度逼真的声音。OpenAI更是声称,该模式能够感知语音中的情感语调,包括悲伤、兴奋甚至是歌唱。
OpenAI 发言人林赛・麦卡勒姆(LindsayMcCallum)明确表示:“ChatGPT不会冒充他人的声音,无论是个人还是公众人物,且系统会阻止与预设声音不符的输出。”这一声明为GPT-4o在语音交互的真实性和安全性上提供了保障。
本文链接:http://www.28at.com/showinfo-45-6166-0.html实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com