当前位置:首页 > 元宇宙 > AI

图像伪造照妖镜:北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

来源: 责编: 时间:2024-10-27 08:20:58 132观看
导读 北京大学的研究人员开发了一种新型多模态框架 FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能(AIGC)的迅猛

北京大学的研究人员开发了一种新型多模态框架 FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

随着生成式人工智能(AIGC)的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时,也显著增加了篡改检测的难度。fvL28资讯网——每日最新资讯28at.com

用户能够通过 Photoshop、DeepFake、AIGC 等工具对图像进行高质量编辑,且往往不留任何痕迹。在此背景下,如何准确检测并定位篡改区域,成为了学术界与工业界的关注重点。fvL28资讯网——每日最新资讯28at.com

尽管现有的图像篡改检测与定位(IFDL)算法在网络结构和训练策略上取得了一定进展,但仍存在几个主要问题:fvL28资讯网——每日最新资讯28at.com

1. 大多数方法采用黑箱模型,仅输出真实性概率,缺乏详细的检测解释,导致用户对结果的信任度降低。fvL28资讯网——每日最新资讯28at.com

2. 现有算法通常针对特定篡改技术,缺乏应对多样化篡改手段的能力,降低了实用性。fvL28资讯网——每日最新资讯28at.com

为了解决这些问题,如图 1 所示,北京大学与华南理工大学的研究团队提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2410.02761项目主页:https://zhipeixu.github.io/ projects / FakeShield/GitHub 地址:https://github.com/ zhipeixu / FakeShield

结合多模态大语言模型的视觉和语言理解能力,实现在检测图像真实性,生成篡改区域掩膜的同时,提供详细解释,进而增强了检测定位过程的透明性与泛化性。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

图 1:(a) 传统 IFDL 方法,(b) 可解释的 IFDL 方法

为了解决现有 IFDL 方法的不足,FakeShield 提出了以下主要贡献:fvL28资讯网——每日最新资讯28at.com

1. 提出了首个多模态大模型框架用于图像篡改检测与定位,不仅实现了检测与定位过程的解耦,还提供了合理的判断依据,解决了现有方法的黑箱问题。fvL28资讯网——每日最新资讯28at.com

2. 利用 GPT-4o 丰富现有 IFDL 数据集,构建了多模态篡改描述数据集(MMTD-Set),通过关注不同篡改特征,生成「图像-掩膜-描述」三元组,提高了模型的分析能力。fvL28资讯网——每日最新资讯28at.com

3. 设计了基于领域标签引导的解释性篡改检测模块(DTE-FDM),在单一模型中检测多种篡改类型,缓解了数据域冲突问题。同时,通过多模态篡改定位模块(MFLM),对齐视觉和语言特征,实现精准的篡改区域定位。fvL28资讯网——每日最新资讯28at.com

基于上述创新,FakeShield 不仅提升了篡改检测定位的准确性和解释性,还显著增强了模型的适应性和实用性,为图像篡改检测领域提供了一种全面而高效的解决方案。fvL28资讯网——每日最新资讯28at.com

MMTD-Set 数据集

如图 2 所示,我们根据篡改方法,将篡改图片分为 PhotoShop、DeepFake、AIGC-Editing 三个数据域。基于现有的 IFDL 数据集,我们利用 GPT-4o 生成对于篡改图像的分析与描述,构建「图像-掩膜-描述」三元组,以支持模型的多模态训练。另外,针对不同篡改类型,我们设计了特定的描述提示,引导 GPT 关注不同的像素伪影和语义错误。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

图 2:MMTD-Set 数据集构建过程

在 MMTD-Set 的构建过程中,prompt 设计是关键环节,旨在确保 GPT-4o 能准确生成与篡改图像相关的高质量描述。在输入编辑后的图像及其二值掩膜时,prompt 的设计围绕两个主要方面展开:篡改区域的定位和可见细节的捕捉。fvL28资讯网——每日最新资讯28at.com

在定位描述中,GPT-4o 需要对篡改区域的绝对位置和相对位置进行清晰表达。绝对位置指篡改区域在整个图像中的位置,如「图像的左上角」或「靠近图像下半部分」。相对位置则要求描述篡改区域与其他物体之间的关系,如「在桌面上方」或「靠近人群」。这种双重描述的设计可以帮助模型更准确地感知篡改区域在图像中的位置,确保输出的掩膜与实际篡改区域一致。fvL28资讯网——每日最新资讯28at.com

在可见细节的捕捉上,prompt 重点关注多种视觉异常,这些异常反映了篡改过程中可能留下的伪影和逻辑错误。fvL28资讯网——每日最新资讯28at.com

对于 Photoshop 篡改,prompt 重点关注像素级伪影和不自然的边缘,要求模型检查光照一致性、像素模糊和分辨率变化,同时判断是否违反物理规律,如缺失的阴影或透视关系不合理。在 DeepFake 数据中,prompt 强调面部细节和语义逻辑,要求模型注意皮肤纹理的连贯性、表情的自然性以及光影的匹配,留意面部对称性和眼睛反射的异常。fvL28资讯网——每日最新资讯28at.com

对于 AIGC 编辑,prompt 聚焦于文字生成和视觉逻辑,要求分析文字拼写是否正确、排列是否合理,并判断场景中光影和对象位置的合理性。这种针对不同篡改类型的 prompt 设计确保了 FakeShield 在检测与解释上的高效性和准确性。fvL28资讯网——每日最新资讯28at.com

FakeShield 框架

如图 3 所示,该框架包括域标签引导的可解释伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个关键部分。fvL28资讯网——每日最新资讯28at.com

DTE-FDM 负责图像伪造检测与检测结果分析,利用数据域标签(domain tag)弥合不同伪造类型数据之间的数据域冲突,引导多模态大语言模型生成检测结果及判定依据。MFLM 则使用 DTE-FDM 输出的对于篡改区域的描述作为视觉分割模型的 Prompt,引导其精确定位篡改区域。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

图 3:FakeShield 框架图

Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)fvL28资讯网——每日最新资讯28at.com

DTE-FDM 模块负责图像伪造检测与检测结果的分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据(如 Photoshop 编辑、DeepFake、AIGC 编辑)之间的数据域冲突。这些标签引导多模态大语言模型(LLM)聚焦于各类型篡改的特征,实现针对性检测与解释。fvL28资讯网——每日最新资讯28at.com

在检测过程中,输入图像 I_ori 通过数据域标签生成器 G_dt 分配特定标签 T_tag,表明该图像的伪造类型。接着,图像经过编码器 F_enc 和线性投影层 F_proj 转化为特征向量 T_img。fvL28资讯网——每日最新资讯28at.com

这些图像特征与指令文本 T_ins 一并输入 LLM,生成检测结果 O_det,包括是否篡改、具体的篡改区域描述以及解释性分析。fvL28资讯网——每日最新资讯28at.com

具体过程如下:fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

DTE-FDM 不仅判断图像的真实性,还根据不同伪造类型生成详细的判定依据,包括光照一致性、边缘伪影、分辨率差异等。这种设计确保模型能够应对多样化的伪造场景,增强了检测的准确性和解释性,使 FakeShield 在应对复杂篡改任务时具有更强的泛化能力与实用性。fvL28资讯网——每日最新资讯28at.com

Multi-modal Forgery Localization Module(MFLM)fvL28资讯网——每日最新资讯28at.com

MFLM 模块负责精准定位图像中的篡改区域,通过多模态特征对齐的方式将文本和视觉信息融合,从而生成准确的篡改掩膜。MFLM 的设计旨在解决仅依赖单一模态信息所带来的定位不准确问题,增强对复杂篡改区域的识别能力。fvL28资讯网——每日最新资讯28at.com

在 MFLM 中,输入的图像 I_ori 经过 Tamper Comprehension Module (TCM)编码,将图像特征与解释性文本 O_det 进行对齐。对齐后的嵌入表示通过多层感知机(MLP)投影为特殊的令牌嵌入用于指导分割模型生成篡改区域掩膜,用于指导分割模型生成篡改区域掩膜 M_loc。fvL28资讯网——每日最新资讯28at.com

整个过程如下:fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

其中,S_enc 和 S_dec 分别为图像的编码器与解码器,Extract (⋅) 为提取嵌入的操作,通过上述步骤,MFLM 利用文本描述和图像特征的对齐生成准确的二值掩膜。fvL28资讯网——每日最新资讯28at.com

此外,MFLM 使用了 LoRA 微调技术,对模型进行轻量化优化,提高了处理效率并降低了计算成本。与单一模态分割方法相比,这种多模态交互的设计使得 MFLM 能够应对更加复杂的篡改场景,如光照不一致、透视错误和对象拼接,从而显著提升篡改区域的定位准确性。fvL28资讯网——每日最新资讯28at.com

实验结果

我们对 FakeShield 与多种 IFDL 方法和多模态大语言模型(MLLM)在检测、解释和定位方面的性能进行了全面对比。为了确保结果的公平性,所有 IFDL 方法均在与 FakeShield 相同的数据集上进行了训练和测试。fvL28资讯网——每日最新资讯28at.com

这一比较覆盖了 Photoshop、DeepFake 以及 AIGC 编辑等多种篡改场景,全面评估了各模型在多模态信息融合和复杂篡改检测中的表现。fvL28资讯网——每日最新资讯28at.com

检测性能对比

我们与 MVSS-Net,CAT-Net 等其他先进的 IFDL 方法进行了检测性能的对比,结果如表 1 所示。实验结果表明,FakeShield 在 Photoshop、DeepFake 和 AIGC 编辑等数据集上的检测准确率(ACC)和 F1 分数均显著优于其他方法。通过引入域标签引导策略(domain-tag guidance),FakeShield 能够有效处理多种篡改类型,增强跨领域的泛化能力。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

表 1:FakeShield 与主流 IFDL 方法的定位性能比较解释性能对比

我们通过与预训练的多模态大语言模型(M-LLMs)在 Photoshop、DeepFake 和 AIGC 编辑数据集上的表现进行对比,评估了 FakeShield 的解释能力,结果如表 2 所示。fvL28资讯网——每日最新资讯28at.com

我们采用余弦语义相似度(CSS)作为衡量指标,FakeShield 在各项测试中均取得了最高分数,展现了其生成准确且详细篡改区域描述的能力。这表明,FakeShield 能够在复杂的篡改场景中生成与真实情况高度一致的解释性描述,大幅提升了模型在检测过程中的可解释性与透明度。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

表 2:FakeShield 与主流通用 MLLM 方法的解释性能比较定位性能对比

我们通过与其他先进的 IFDL 方法在 Photoshop 和 AIGC 编辑等数据集上的表现进行对比,评估了 FakeShield 在篡改区域定位方面的能力,结果如表 3 所示。实验结果表明,FakeShield 在大多数测试集中均取得了最高的 IoU 和 F1 分数。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

表 3:FakeShield 与主流 IFDL 方法的定位性能比较

另外,图 4 的主观结果对比也表明,FakeShield 能够生成更加清晰且精确的篡改区域分割,准确捕捉边界,而其他方法如 PSCC-Net 则容易产生模糊且过于宽泛的预测。fvL28资讯网——每日最新资讯28at.com

fvL28资讯网——每日最新资讯28at.com

图 4:FakeShield 与主流 IFDL 方法的定位性能的定性比较

参考资料:fvL28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2410.02761fvL28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9260-0.html图像伪造照妖镜:北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 鸿蒙APP亮相,对比安卓iOS,体验有何不同?

下一篇: “稚晖君”创业项目,智元机器人宣布灵犀 X1 面向全球开源

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top