当前位置:首页 > 元宇宙 > AI

谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

来源: 责编: 时间:2024-03-21 09:43:54 265观看
导读 3 月 19 日消息,谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。VLOGGER AI 是一种适用于虚拟

3 月 19 日消息,谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。P5J28资讯网——每日最新资讯28at.com

P5J28资讯网——每日最新资讯28at.com

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。P5J28资讯网——每日最新资讯28at.com

P5J28资讯网——每日最新资讯28at.com

研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。P5J28资讯网——每日最新资讯28at.com

Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。P5J28资讯网——每日最新资讯28at.com

VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。P5J28资讯网——每日最新资讯28at.com

附上论文参考P5J28资讯网——每日最新资讯28at.com

VLOGGER: Multimodal Diffusion for Embodied Avatar SynthesisP5J28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3644-0.html谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 联想与英伟达合作,推出全新混合 AI 解决方案

下一篇: Canalys 预估 2025 年 AI PC 占全球 PC 出货量的 40%

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 银保监会:打击以“元宇宙”为名义的违法行为

    今日,银保监会发布《关于防范以“元宇宙”名义进行非法集资的风险提示》,全文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名目吸收资金,涉
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
Top