当前位置:首页 > 元宇宙 > AI

消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型

来源: 责编: 时间:2024-10-24 15:04:34 178观看
导读 10 月 23 日消息,据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该

10 月 23 日消息,据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。dEd28资讯网——每日最新资讯28at.com

报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。dEd28资讯网——每日最新资讯28at.com

资料显示,谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。dEd28资讯网——每日最新资讯28at.com

谭旭加入月之暗面后的主要目标之一,可能即是帮助月之暗面打造“类似 GPT-4o”的语音体验。dEd28资讯网——每日最新资讯28at.com

注:OpenAI 今年 5 月发布多模态大模型 GPT-4o,基于端到端语音技术打造,具备更低延时、可随时打断等特性。随后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。dEd28资讯网——每日最新资讯28at.com

此前,主流的语音方案是 ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成):输入端识别语音、转化成文本;大模型处理内容生成新文本;文本合成为语音、最终输出。dEd28资讯网——每日最新资讯28at.com

但上述方案的不足在于机器响应时间较长、人类无法随时打断,与人类的自然聊天状态存在差距。相比之下,端到端省去了“语音转文字再转语音”的中间过程,可以压缩机器响应时间,人类也可随时打断机器。同时,端到端还可帮助改善“幻觉”:用户可立即打断输出并给出新的提示词。dEd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9211-0.html消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: vivo新AI战略出炉,能否与华为一较高下?

下一篇: 方程豹豹8来袭,10月12日开启预订,年内上市可期?

标签:
  • 热门焦点
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 字节、腾讯、网易鏖战元宇宙背后,大厂究竟在争夺什么?

    正当互联网商业踌躇不前,互联网大厂为了在存量中的增长挤破头皮之时,元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙,然后字节跳动收购了一家VR硬
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,
Top