当前位置:首页 > 元宇宙 > AI

字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

来源: 责编: 时间:2024-10-01 17:06:13 16观看
导读 9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展。豆包大模型家族迎来了新成员。具体来说,火山引擎全新推出了豆包・视频生成模型,以及豆包音乐模型、同声传译模型,同时还升级了通用语言模

9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展。豆包大模型家族迎来了新成员。NNd28资讯网——每日最新资讯28at.com

具体来说,火山引擎全新推出了豆包・视频生成模型,以及豆包音乐模型、同声传译模型,同时还升级了通用语言模型、文生图模型、语音模型,不断增强各类模态以及规模化的调用量,让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显。此外,多家行业客户也在会上分享了大模型应用的实践经验。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

本次豆包带来的一系列大模型进展中,最引人关注的,莫过于全新豆包视频生成模型,它能够带来影视级视觉感受的视频生成效果,全面推动豆包大模型 AIGC 应用创新的步伐。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

在豆包视频生成模型正式推出之前,可能不少同学已经使用过市面上一些 AI 生成视频的产品。小编此前也做过体验,总体来说这些大模型生成的视频往往有比较明显的“AI 痕迹”,无论是视频的内容逻辑、画面自然度等方面,都有待提升,而且对语义指令的理解也存在问题,经常会生成一些不符合指令要求的视频。NNd28资讯网——每日最新资讯28at.com

而这些问题在豆包视频生成模型中,都得到了针对性的解决,同时也成为其不可忽视的产品亮点。NNd28资讯网——每日最新资讯28at.com

首先,豆包视频生成模型拥有精准的语义理解能力,支持多动作多主体交互的内容生成。相比大部分视频生成模型只能完成简单指令单一动作,豆包视频生成模型可以遵从更复杂的 prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,为你打开想象力的大门。NNd28资讯网——每日最新资讯28at.com

比如下面这则视频,两位主角的动作、表情都非常自然,包括马儿看起来也很真实。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

还有下面这段视频,首先女主的表情十分细腻自然,当男主入画时,女主缓缓戴上墨镜,和男主的动作交互也非常真实,看起来似乎是有些抗拒,将复杂细腻的微动作都呈现了出来,从而让视频呈现出强烈的“故事感”。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

其次,豆包视频生成模型支持强大动态与炫酷运镜,让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、多样化表达的文本指令,豆包视频生成模型基于高效的 DiT 融合计算单元,更充分地压缩编码视频与文本,使生成视频的动作更灵动,镜头更多样,表情更丰富,细节更丰满。NNd28资讯网——每日最新资讯28at.com

并且生成的视频可同时存在主体的大动态与镜头的炫酷切换。支持变焦、环绕、平摇、缩放,目标跟随等超多镜头语言,灵活控制视角。NNd28资讯网——每日最新资讯28at.com

例如下面这则视频,画面中两位主角前后景的变焦切换非常自然,感觉就像是真实的摄影师在水中拍摄的画面,而不像以往 AI 生成视频那样呆板生硬。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

在内容逻辑方面,豆包视频生成模型还支持一致性多镜头生成,能够 10 秒讲一个完整的故事。它采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,在一个 prompt 的多个镜头切换时,保持主体、风格、氛围和逻辑的一致性,实现导演自由。NNd28资讯网——每日最新资讯28at.com

例如下面这则动画视频,三个镜头组成了一个简短易懂的场景故事,看起来就像是一个正常的动画电影中截取的片段。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

再比如下面这则视频,讲述一个乘坐火箭的人冲撞大楼引发爆炸的场景故事,三段镜头的剪辑呈现出流畅的故事逻辑,还给了主人公紧张的表情特写,调动观众的情绪,让人感叹 AI 这是觉醒了“创作意识”?NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

此外,豆包视频生成模型还能保证视频高保真和高美感,可生成影视级画面,细节层次丰富,逼真度极高,拥有专业级色彩调和和光影布局,大幅提升画面视觉审美。NNd28资讯网——每日最新资讯28at.com

比如下面这一则,整个画面的打光、色调、场景、角色的表情都非常精致、细腻,很有电影大片的质感,不说的话谁能想到这是 AI 生成的视频?NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

同时其深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力,支持包括黑白、3D 动画、2D 动画、国画、厚涂等多种风格,包含 1:1、3:4、4:3、16:9、9:16、21:9 比例,带你领略更自由的世界。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

可以看到,豆包视频生成模型的表现确实是相当惊艳的,无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性等方面,都可以做到接近专业人类视频工作者的水平,如果不说是 AI 生成的,可能大家都很难发现。NNd28资讯网——每日最新资讯28at.com

而能做到这一点,对于字节跳动以及火山引擎来说,其实完全在意料之中。NNd28资讯网——每日最新资讯28at.com

首先在“视频”能力方面,本就是字节跳动的优势赛道。火山引擎不仅是抖音计算服务的提供方,更是国内众多视频、直播等业务背后的可靠支撑,在长年应对视频业务流量、时延、稳定性等各种严苛的挑战中,沉淀下来独树一帜的技术能力。NNd28资讯网——每日最新资讯28at.com

而在 AI 方面,即大模型的能力,有火山引擎的支撑,字节跳动豆包大模型无论在算力、算法以及数据、场景等方面都有非常充沛的资源。具体到本次豆包视频生成模型上,我们也能看到字节跳动在视频大模型技术研发的不断投入和创新。比如他们采用了高效的 DiT 融合计算单元,还全新设计了扩散模型的训练方法,来实现一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构,大幅提升了视频生成的泛化能力。NNd28资讯网——每日最新资讯28at.com

豆包大模型自去年 5 月正式发布以来,就展现出很强的市场竞争力。这次在深圳的火山引擎 AI 创新巡展,火山引擎总裁谭待也透露了豆包大模型最新的使用情况:NNd28资讯网——每日最新资讯28at.com

“截至到 9 月,豆包大模型的日均 tokens 使用量已经超过 1.3 万亿,4 个月的时间里 tokens 整体增长超过了 10 倍。在多模态方面,豆包・文生图模型日均生成图片 5,000 万张,此外,豆包目前日均处理语音 85 万小时。”NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

火山引擎总裁谭待

如此巨大的使用量,显然代表着市场对于豆包大模型使用体验和效果的认可。同时也得益于字节大模型一贯的发展路径和逻辑:先 toC 打磨产品,模型能力具备竞争优势后再 toB 拓展市场。NNd28资讯网——每日最新资讯28at.com

比如豆包语言大模型其实早在去年就在字节跳动内部完成了上线,也是首批通过大模型服务安全备案的大模型之一。字节跳动内部 50 多个业务已经大量使用豆包大模型进行 AI 创新,包括抖音、头条等数亿 DAU 产品。经过近一年的打磨后才在今年 5 月正式发布。NNd28资讯网——每日最新资讯28at.com

而这次豆包视频生成模型也是如此,其早期版本在今年 2 月就在即梦(Dreamina)上应用,持续迭代优化后才在这次正式推向企业市场。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

而未来,豆包视频生成模型也可以为众多企业场景带来创新,例如在电商营销场景,豆包视频生成模型不仅快速把商品变成 3D 动态多角度展示,还能配合中秋、七夕、春节等节点替换背景和风格,生成不同尺寸快速上架;在动画教育场景,豆包・视频生成模型可以大幅降低动画的制作成本,生动的呈现童话故事情节。NNd28资讯网——每日最新资讯28at.com

此外,还有城市文旅、音乐 MV、微电影、短剧等应用场景,都可以通过豆包・视频生成模型实现降本提效和创意合规。NNd28资讯网——每日最新资讯28at.com

NNd28资讯网——每日最新资讯28at.com

总之,豆包视频生成模型的推出,将为创作者乃至各行各业的工作者带来探索未来世界的有力工具,为所有人提供有趣、快乐和自由的创作体验,用更广阔的创作空间和灵感启发,帮大家打开连接现实和想象世界的大门。NNd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-8014-0.html字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 中国移动“算网大脑”规模商用,推动算力像水电一样即取即用

下一篇: 研究发现:AI 越聪明就越有可能“胡编乱造”

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    上周的元宇宙和明星圈因为一则“林俊杰在推特上宣布持有Decentraland元宇宙虚拟地块”的新闻而备受关注,该新闻一方面在娱乐圈引起了吃瓜群众的好奇,另一方面在
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • 元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    作者:狂人 不知不觉间,QQ已经迎来了第23个生日。作为国内社交平台的起点,QQ可谓是睥睨全网,不仅有庞大的用户群体,还将虚拟形象及QQ整合成在线虚拟社区,开启了时髦
  • 元宇宙风归何处?

    元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
Top