当前位置:首页 > 元宇宙 > AI

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

来源: 责编: 时间:2024-07-06 07:40:53 282观看
导读 7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型

7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。SNt28资讯网——每日最新资讯28at.com

此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。SNt28资讯网——每日最新资讯28at.com

腾讯混元 DiT 模型升级

腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。SNt28资讯网——每日最新资讯28at.com

基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,最低 6G 显存即可运行优化推理框架,对使用个人电脑本地部署的开发者比较友好。SNt28资讯网——每日最新资讯28at.com

经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。开发者无需下载原始代码,仅用三行代码仅可调用,简化了使用成本。SNt28资讯网——每日最新资讯28at.com

同时,混元 DiT 宣布接入 Kohya,让开发者可以低门槛地训练专属 LoRA 模型。SNt28资讯网——每日最新资讯28at.com

Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。SNt28资讯网——每日最新资讯28at.com

用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。SNt28资讯网——每日最新资讯28at.com

混元 Captioner

在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 混元 Captioner。SNt28资讯网——每日最新资讯28at.com

借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始图片集导入混元 Captioner,后者将生成标注;也可以导入图片与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。SNt28资讯网——每日最新资讯28at.com

目前,业界对于图片描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。SNt28资讯网——每日最新资讯28at.com

SNt28资讯网——每日最新资讯28at.com

▲混元 Captioner 对图片描述进行结构化与准确度提升混元

Captioner 模型号称针对文生图场景专门进行优化:SNt28资讯网——每日最新资讯28at.com

构建了结构化的图片描述体系;SNt28资讯网——每日最新资讯28at.com

在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升 Caption 描述的完整性;SNt28资讯网——每日最新资讯28at.com

注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。SNt28资讯网——每日最新资讯28at.com

SNt28资讯网——每日最新资讯28at.com

▲Capiton 模型的背景知识更好,能够识别宫保鸡丁

SNt28资讯网——每日最新资讯28at.com

▲Captioner 模型结构化图片描述体系

附腾讯混元开源文生图大模型相关链接:SNt28资讯网——每日最新资讯28at.com

官网:https://dit.hunyuan.tencent.com/SNt28资讯网——每日最新资讯28at.com

代码:https://github.com/Tencent/HunyuanDiTSNt28资讯网——每日最新资讯28at.com

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiTSNt28资讯网——每日最新资讯28at.com

论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdfSNt28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4968-0.html腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 商汤科技 CEO 徐立:AI 行业很热但未到“超级时刻”,需要应用来支撑

下一篇: 一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top