当前位置:首页 > 科技  > 软件

声网对话式 AI 解决方案上新 构建实时多模态 AI 交互

来源: 责编: 时间:2024-09-09 16:34:44 31观看
导读 在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的

在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。OIC28资讯网——每日最新资讯28at.com

今年 5 月,GPT-4o 的发布开创了 AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要 2-3 秒,在弱网等非理想网络环境下,整体语音交互的延时更达到 4 秒 +。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。OIC28资讯网——每日最新资讯28at.com

OIC28资讯网——每日最新资讯28at.com

声网对话式 AI 解决方案构建实时多模态 AI 语音交互OIC28资讯网——每日最新资讯28at.com

声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,实现文本 / 音频 / 图像 / 视频的组合输入 & 输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。OIC28资讯网——每日最新资讯28at.com

例如对交互延迟进行优化,延迟可做到 1s 以内;支持 AI 降噪、背景人声过滤,让语音对话更纯静;支持随时打断与超拟人化人声合成,让对话更智能与逼真;同时还支持灵活可扩展的 AI Agent 架构等一系列功能,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。OIC28资讯网——每日最新资讯28at.com

OIC28资讯网——每日最新资讯28at.com

图: 声网实时多模态对话式 AI 解决方案架构图OIC28资讯网——每日最新资讯28at.com

1、延迟低于 1s, 极速响应: 声网实时多模态对话式 AI 解决方案可做到语音对话延迟低于 1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™实时传输网络实现全球范围的低延时 RTC 传输,并进一步通过更精准低延迟的 AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性。OIC28资讯网——每日最新资讯28at.com

2、智能打断,贴近真实会话: 在人类真实的语音对话中,打断对方并提出新的疑问是非常常见的现象,而在 AIGC 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测 (AI VAD) 技术,可实现灵敏的自然语音打断,模拟人类对话的自然流动,让对话更加真实、自然。OIC28资讯网——每日最新资讯28at.com

3、嘈杂环境下也能清晰对话: 即使在嘈杂的环境中,声网的解决方案也能保证清晰的语音交流。通过 AI 噪声抑制、背景人声过滤、音乐检测 / 过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅。OIC28资讯网——每日最新资讯28at.com

4、灵活可扩展的 AI Agent 架构:AI Agent 作为大模型的应用框架,其重要性不言而喻。对于开发者而言,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent 架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。OIC28资讯网——每日最新资讯28at.com

5、超拟人化人声合成: 在一些传统的 AI 语音对话中,AI 角色机械式的声音大大降低了对话的真实感。针对这一痛点,声网的解决方案超可实现超拟人真实音色,合成的声音几乎与真人无异,且支持私人定制音色,模拟喜怒哀乐等多种情绪表达,提升用户体验,使互动更加自然,还原真实体验感。OIC28资讯网——每日最新资讯28at.com

6、支持 RTC 与 SIP 网关互通:AI 电话客服是当下 AIGC 应用最广泛的场景之一,具备呼叫中心坐席的特性,对此,声网的解决方案也支持 RTC 与 SIP 网关互通,用户可直接通过声网的 RTCSDK 直接呼叫企业客服中心坐席,有效的降低客服成本,提升客服效率。OIC28资讯网——每日最新资讯28at.com

RTC 能力加持下AIGC 应用场景迎来爆发OIC28资讯网——每日最新资讯28at.com

声网在与客户的合作中发现,在 RTC 的加持下,AIGC 应用场景迎来进一步爆发,AI 智能助手、AI 情感陪伴、AI 口语老师、AI 客服的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。OIC28资讯网——每日最新资讯28at.com

来自量子位智库推出的 AI 智能助手用户数据报告显示,截止 8 月国内市场的 AI 智能助手 App 已超过 64 款。在 AI 情感陪伴领域也涌现了 Soul、星野、Wow 等一系列人气社交 APP。OIC28资讯网——每日最新资讯28at.com

以 AI 情感陪伴为例,随着多模态交互能力的升级,当下 AI 情感陪伴类产品正呈现出三个特征:OIC28资讯网——每日最新资讯28at.com

1、语音 / 视觉交互: 除了传统的文本交互外,越来越多的 AI 情感陪伴类 App 也在加入语音通话的功能,让 AI 陪伴更具有真实感。同时在视觉交互方面,部分产品也支持了视频通话功能,通过 3D 建模、拟真渲染等技术构建逼真的数字人,让人与 AI 的情感交互更加拟人化。OIC28资讯网——每日最新资讯28at.com

2、情感计算: 人与 AI 的一个核心区别就是人具备情感,为了让 AI 的回答更加智能与真实,许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态,并做出对应的情感回应,实现更加人性化的交互体验。OIC28资讯网——每日最新资讯28at.com

3、私人定制: 标准化的人机交互千篇一律,个性化的定制才更有新意。具备个性化定制能力,提供自主创作和个性化选项已经成为 AI 陪伴类产品的新趋势,例如定制原生 IP 角色、定制 IP 专属画风和语音体系、定制专属互动话题等一系列功能。OIC28资讯网——每日最新资讯28at.com

OIC28资讯网——每日最新资讯28at.com

图: 电影《Her》里的 AI 助理被视为 AI 情感陪伴的启蒙OIC28资讯网——每日最新资讯28at.com

在 AI 口语老师场景,声网观察发现,1v1 教学场景非常适用 AI 口语老师,从真人教学变成自学模式,例如正价课 1v1 与 Demo 课 1v1 教学,AI 数字人老师将代替真人,1v1 AI 口语老师将成为未来语言学习机构必备的应用,AI 数字人老师可能用于大龄学生与成人,卡通 IP 可用于低幼龄的课程。同时在职业教育赛道,已经有不少教育机构在大班课场景利用 AI 数字人老师教学。OIC28资讯网——每日最新资讯28at.com

同时,在游戏社交、AI 分身、实时语音翻译等场景,实时 AI 语音也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。OIC28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-112428-0.html声网对话式 AI 解决方案上新 构建实时多模态 AI 交互

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 开启智慧办公新纪元:三星多款商显产品亮相上海国际智慧办公展览会

下一篇: 华兴资本复牌,投行业务再显稳健实力

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 从 Pulsar Client 的原理到它的监控面板

    从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 让我们一起聊聊文件的操作

    让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 得物宠物生意「狂飙」,发力“它经济”

    得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的“在线鉴别”,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 10天营收超1亿美元,《星铁》比《原神》差在哪?

    10天营收超1亿美元,《星铁》比《原神》差在哪?

    来源:伯虎财经作者:陈平安即便你没玩过《原神》,你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天,有粉丝因为索尼在PS平台上线《原神》,怒而
  • 8月见!小米MIX Fold 3获得3C认证:支持67W快充

    8月见!小米MIX Fold 3获得3C认证:支持67W快充

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料,而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
  • 消息称小米汽车开始筛选交付中心:需至少120个车位

    消息称小米汽车开始筛选交付中心:需至少120个车位

    IT之家 7 月 7 日消息,日前,有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者 发文表示,据经销商集团反馈,小米汽车目前
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
Top