当前位置:首页 > 元宇宙 > AI

AI 能「看懂」你的唇语,悄悄话不再安全

来源: 责编: 时间:2024-09-14 09:10:00 206观看
导读 小心悄悄话被 AI 听见!(嘘)最近国外一款可以读唇语的 AI 软件火了!具体效果如下:红毯上布莱克・莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但 AI 可以。乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松

小心悄悄话被 AI 听见!(嘘)最近国外一款可以读唇语的 AI 软件火了!5RL28资讯网——每日最新资讯28at.com

具体效果如下:5RL28资讯网——每日最新资讯28at.com

红毯上布莱克・莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但 AI 可以。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松破解。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

看完后网友们开始纷纷评论,大开脑洞:5RL28资讯网——每日最新资讯28at.com

求“联名”型网友:快把它和 Siri 结合一下吧!这样我就不用像小傻子一样对着电脑大喊了!5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

测评型网友:我想用它试试“座机画质”的视频!5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

担心安全型网友:我有点害怕,我想戴口罩了。(呜呜)5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

实测 Readtheirlips 效果如何

量子位整理了一些视频,为大家亲测了一下 Readtheirlips 的使用效果。5RL28资讯网——每日最新资讯28at.com

先试了一下阿尔特曼在斯坦福的访谈视频,把生成的文本和原始对话对照了一下,内容完美契合~5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

而面对小表情比较多的老马,Readtheirlips 的发挥依旧稳定。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

不过以上两个视频都是人物全程正脸对着镜头的。5RL28资讯网——每日最新资讯28at.com

换成了说话时爱比划的小扎,Readtheirlips 直接显示错误。(视频中人物不是全程正脸)5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

而主角换成卡帕西之后,因为他说话太快,生成的文本出现了识别错误的情况。(左侧为 Readtheirlips 生成,右侧为文字处理软件生成)5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

最后,我们尝试着上传了一个 16 分钟的视频,Readtheirlips 直接显示错误,无法识别内容。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

总结一下:5RL28资讯网——每日最新资讯28at.com

Readtheirlips 识别视频的时间在一分钟左右。5RL28资讯网——每日最新资讯28at.com

就像他们标明的那样如果人物的正脸不能正对镜头,那么模型就很难给出正确答案。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

而面对语速过快的视频内容,Readtheirlips 只能识别出其中的一些内容。5RL28资讯网——每日最新资讯28at.com

对此,团队成员回应道:5RL28资讯网——每日最新资讯28at.com

是的,我们还没有研究到这里,但是会很快解决这个问题!5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

而关于上传视频的时长限制,他们这么说:5RL28资讯网——每日最新资讯28at.com

现在只支持 3 分钟以内的视频,但是以后我们会一点一点往上提升的!5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

AI 如何“听”悄悄话

看完亲测视频,咱们也来唠一下 Readtheirlips 的工作原理。5RL28资讯网——每日最新资讯28at.com

看看它是怎么读取人类唇语的:5RL28资讯网——每日最新资讯28at.com

首先,研究团队用大量的标注数据(已知的嘴唇运动动作及其对应的文本内容)来对模型进行训练。5RL28资讯网——每日最新资讯28at.com

在此基础上,用户要上传一段视频,这段视频要包含说话者的面部特写,尤其是嘴部动作。5RL28资讯网——每日最新资讯28at.com

然后模型会对视频进行嘴部运动的分析:先是通过面部检测识别嘴唇的位置,然后再提取嘴唇的几何特征,(形状、开合程度、运动轨迹等),最后分析嘴唇在说话过程中的动态变化。(速度、方向和形状变化)5RL28资讯网——每日最新资讯28at.com

之后,模型会将提取的嘴唇特征与训练数据中的特征进行匹配,来识别出视频中人物所说的内容。5RL28资讯网——每日最新资讯28at.com

将识别出的单词或短语组合成完整的句子,进行一下上下文理解,确保语法和语义的正确性。5RL28资讯网——每日最新资讯28at.com

最终将识别出的内容输出为文本形式。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

开发团队

Readtheirlips 的开发团队 Symphonic Labs 是一家初创公司。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

领英上显示它今年 4 月份才刚刚成立,截至目前,公司人数不到 10 人。5RL28资讯网——每日最新资讯28at.com

5RL28资讯网——每日最新资讯28at.com

他们之前还研发过一款通过阅读唇语即可完成实时文本转录的软件 Symphonic5RL28资讯网——每日最新资讯28at.com

两款软件的试玩链接都已附上,感兴趣的朋友们可以去尝试一下~5RL28资讯网——每日最新资讯28at.com

Readtheirlips 试玩链接:5RL28资讯网——每日最新资讯28at.com

https://www.readtheirlips.com/5RL28资讯网——每日最新资讯28at.com

Symphonic 试玩链接:5RL28资讯网——每日最新资讯28at.com

https://symphoniclabs.com/5RL28资讯网——每日最新资讯28at.com

参考链接:5RL28资讯网——每日最新资讯28at.com

https://x.com/crsamra/status/18334943803570138795RL28资讯网——每日最新资讯28at.com

本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技5RL28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7161-0.htmlAI 能「看懂」你的唇语,悄悄话不再安全

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 夸克发布全新 CueMe 智能对话助手,支持上千种体裁、2 万字长文

下一篇: Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小

标签:
  • 热门焦点
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
Top