当前位置：首页 > 元宇宙 > AI

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

来源：责编：时间：2024-10-27 08:20:58 172观看

导读北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能（AIGC）的迅猛

北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。

随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。

用户能够通过 Photoshop、DeepFake、AIGC 等工具对图像进行高质量编辑，且往往不留任何痕迹。在此背景下，如何准确检测并定位篡改区域，成为了学术界与工业界的关注重点。

尽管现有的图像篡改检测与定位（IFDL）算法在网络结构和训练策略上取得了一定进展，但仍存在几个主要问题：

1. 大多数方法采用黑箱模型，仅输出真实性概率，缺乏详细的检测解释，导致用户对结果的信任度降低。

2. 现有算法通常针对特定篡改技术，缺乏应对多样化篡改手段的能力，降低了实用性。

为了解决这些问题，如图 1 所示，北京大学与华南理工大学的研究团队提出了一种全新的任务：可解释的图像伪造检测与定位（e-IFDL），并设计了一个新颖的多模态伪造检测定位框架：FakeShield。

论文地址：https://arxiv.org/ abs / 2410.02761项目主页：https://zhipeixu.github.io/ projects / FakeShield/GitHub 地址：https://github.com/ zhipeixu / FakeShield

结合多模态大语言模型的视觉和语言理解能力，实现在检测图像真实性，生成篡改区域掩膜的同时，提供详细解释，进而增强了检测定位过程的透明性与泛化性。

图 1：(a) 传统 IFDL 方法，(b) 可解释的 IFDL 方法

为了解决现有 IFDL 方法的不足，FakeShield 提出了以下主要贡献：

1. 提出了首个多模态大模型框架用于图像篡改检测与定位，不仅实现了检测与定位过程的解耦，还提供了合理的判断依据，解决了现有方法的黑箱问题。

2. 利用 GPT-4o 丰富现有 IFDL 数据集，构建了多模态篡改描述数据集（MMTD-Set），通过关注不同篡改特征，生成「图像-掩膜-描述」三元组，提高了模型的分析能力。

3. 设计了基于领域标签引导的解释性篡改检测模块（DTE-FDM），在单一模型中检测多种篡改类型，缓解了数据域冲突问题。同时，通过多模态篡改定位模块（MFLM），对齐视觉和语言特征，实现精准的篡改区域定位。

基于上述创新，FakeShield 不仅提升了篡改检测定位的准确性和解释性，还显著增强了模型的适应性和实用性，为图像篡改检测领域提供了一种全面而高效的解决方案。

MMTD-Set 数据集

如图 2 所示，我们根据篡改方法，将篡改图片分为 PhotoShop、DeepFake、AIGC-Editing 三个数据域。基于现有的 IFDL 数据集，我们利用 GPT-4o 生成对于篡改图像的分析与描述，构建「图像-掩膜-描述」三元组，以支持模型的多模态训练。另外，针对不同篡改类型，我们设计了特定的描述提示，引导 GPT 关注不同的像素伪影和语义错误。

图 2：MMTD-Set 数据集构建过程

在 MMTD-Set 的构建过程中，prompt 设计是关键环节，旨在确保 GPT-4o 能准确生成与篡改图像相关的高质量描述。在输入编辑后的图像及其二值掩膜时，prompt 的设计围绕两个主要方面展开：篡改区域的定位和可见细节的捕捉。

在定位描述中，GPT-4o 需要对篡改区域的绝对位置和相对位置进行清晰表达。绝对位置指篡改区域在整个图像中的位置，如「图像的左上角」或「靠近图像下半部分」。相对位置则要求描述篡改区域与其他物体之间的关系，如「在桌面上方」或「靠近人群」。这种双重描述的设计可以帮助模型更准确地感知篡改区域在图像中的位置，确保输出的掩膜与实际篡改区域一致。

在可见细节的捕捉上，prompt 重点关注多种视觉异常，这些异常反映了篡改过程中可能留下的伪影和逻辑错误。

对于 Photoshop 篡改，prompt 重点关注像素级伪影和不自然的边缘，要求模型检查光照一致性、像素模糊和分辨率变化，同时判断是否违反物理规律，如缺失的阴影或透视关系不合理。在 DeepFake 数据中，prompt 强调面部细节和语义逻辑，要求模型注意皮肤纹理的连贯性、表情的自然性以及光影的匹配，留意面部对称性和眼睛反射的异常。

对于 AIGC 编辑，prompt 聚焦于文字生成和视觉逻辑，要求分析文字拼写是否正确、排列是否合理，并判断场景中光影和对象位置的合理性。这种针对不同篡改类型的 prompt 设计确保了 FakeShield 在检测与解释上的高效性和准确性。

FakeShield 框架

如图 3 所示，该框架包括域标签引导的可解释伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。

DTE-FDM 负责图像伪造检测与检测结果分析，利用数据域标签（domain tag）弥合不同伪造类型数据之间的数据域冲突，引导多模态大语言模型生成检测结果及判定依据。MFLM 则使用 DTE-FDM 输出的对于篡改区域的描述作为视觉分割模型的 Prompt，引导其精确定位篡改区域。

图 3：FakeShield 框架图

Domain Tag-guided Explainable Forgery Detection Module（DTE-FDM）

DTE-FDM 模块负责图像伪造检测与检测结果的分析，通过生成数据域标签（domain tag）来缓解不同伪造类型数据（如 Photoshop 编辑、DeepFake、AIGC 编辑）之间的数据域冲突。这些标签引导多模态大语言模型（LLM）聚焦于各类型篡改的特征，实现针对性检测与解释。

在检测过程中，输入图像 I_ori 通过数据域标签生成器 G_dt 分配特定标签 T_tag，表明该图像的伪造类型。接着，图像经过编码器 F_enc 和线性投影层 F_proj 转化为特征向量 T_img。

这些图像特征与指令文本 T_ins 一并输入 LLM，生成检测结果 O_det，包括是否篡改、具体的篡改区域描述以及解释性分析。

具体过程如下：

DTE-FDM 不仅判断图像的真实性，还根据不同伪造类型生成详细的判定依据，包括光照一致性、边缘伪影、分辨率差异等。这种设计确保模型能够应对多样化的伪造场景，增强了检测的准确性和解释性，使 FakeShield 在应对复杂篡改任务时具有更强的泛化能力与实用性。

Multi-modal Forgery Localization Module（MFLM）

MFLM 模块负责精准定位图像中的篡改区域，通过多模态特征对齐的方式将文本和视觉信息融合，从而生成准确的篡改掩膜。MFLM 的设计旨在解决仅依赖单一模态信息所带来的定位不准确问题，增强对复杂篡改区域的识别能力。

在 MFLM 中，输入的图像 I_ori 经过 Tamper Comprehension Module (TCM)编码，将图像特征与解释性文本 O_det 进行对齐。对齐后的嵌入表示通过多层感知机（MLP）投影为特殊的令牌嵌入用于指导分割模型生成篡改区域掩膜，用于指导分割模型生成篡改区域掩膜 M_loc。

整个过程如下：

其中，S_enc 和 S_dec 分别为图像的编码器与解码器，Extract (⋅) 为提取嵌入的操作，通过上述步骤，MFLM 利用文本描述和图像特征的对齐生成准确的二值掩膜。

此外，MFLM 使用了 LoRA 微调技术，对模型进行轻量化优化，提高了处理效率并降低了计算成本。与单一模态分割方法相比，这种多模态交互的设计使得 MFLM 能够应对更加复杂的篡改场景，如光照不一致、透视错误和对象拼接，从而显著提升篡改区域的定位准确性。

实验结果

我们对 FakeShield 与多种 IFDL 方法和多模态大语言模型（MLLM）在检测、解释和定位方面的性能进行了全面对比。为了确保结果的公平性，所有 IFDL 方法均在与 FakeShield 相同的数据集上进行了训练和测试。

这一比较覆盖了 Photoshop、DeepFake 以及 AIGC 编辑等多种篡改场景，全面评估了各模型在多模态信息融合和复杂篡改检测中的表现。

检测性能对比

我们与 MVSS-Net，CAT-Net 等其他先进的 IFDL 方法进行了检测性能的对比，结果如表 1 所示。实验结果表明，FakeShield 在 Photoshop、DeepFake 和 AIGC 编辑等数据集上的检测准确率（ACC）和 F1 分数均显著优于其他方法。通过引入域标签引导策略（domain-tag guidance），FakeShield 能够有效处理多种篡改类型，增强跨领域的泛化能力。

表 1：FakeShield 与主流 IFDL 方法的定位性能比较解释性能对比

我们通过与预训练的多模态大语言模型（M-LLMs）在 Photoshop、DeepFake 和 AIGC 编辑数据集上的表现进行对比，评估了 FakeShield 的解释能力，结果如表 2 所示。

我们采用余弦语义相似度（CSS）作为衡量指标，FakeShield 在各项测试中均取得了最高分数，展现了其生成准确且详细篡改区域描述的能力。这表明，FakeShield 能够在复杂的篡改场景中生成与真实情况高度一致的解释性描述，大幅提升了模型在检测过程中的可解释性与透明度。

表 2：FakeShield 与主流通用 MLLM 方法的解释性能比较定位性能对比

我们通过与其他先进的 IFDL 方法在 Photoshop 和 AIGC 编辑等数据集上的表现进行对比，评估了 FakeShield 在篡改区域定位方面的能力，结果如表 3 所示。实验结果表明，FakeShield 在大多数测试集中均取得了最高的 IoU 和 F1 分数。

表 3：FakeShield 与主流 IFDL 方法的定位性能比较

另外，图 4 的主观结果对比也表明，FakeShield 能够生成更加清晰且精确的篡改区域分割，准确捕捉边界，而其他方法如 PSCC-Net 则容易产生模糊且过于宽泛的预测。

图 4：FakeShield 与主流 IFDL 方法的定位性能的定性比较

参考资料：

https://arxiv.org/abs/2410.02761

本文链接：http://www.28at.com/showinfo-45-9260-0.html图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：鸿蒙APP亮相，对比安卓iOS，体验有何不同？

下一篇： “稚晖君”创业项目，智元机器人宣布灵犀 X1 面向全球开源

标签：

热门焦点

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

来源：首席商业评论2023年，最火的莫过于ChatGPT，席卷全球的同时也引发了生成式AI（人工智能）的投资热潮。在美股，ChatGPT相关概念股飙涨，以AI算力龙头英伟达为例，其股价年内一度累计上
有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

你还不知道元宇宙？没关系。看看微软、Meta、英伟达的雄心壮志，便可领略元宇宙的辽阔。1月18日，微软宣布将以687亿美元收购动视暴雪，这是有史以来互联网领域最大的
从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

对于大部分年轻人来说，刚刚过去的春节有一个词语突然成为了品牌宣传的流行语，作为从NFT中衍生出来的“数字藏品”一时间获得了不少品牌青睐，他们纷纷推出自己的数
「国产良心」NFT嘲讽了谁？

2月23日，一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」，它丝毫没有避讳自己的小作坊出身，还将「中国人不骗中国人
量子计算在未来能否提高区块链技术的效率

区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
音乐NFT平台里的下一匹黑马是谁？

NFT 销售额在 2021 年开始暴涨，从 2018 年的仅 4069 万美元的交易量，到 2021 年，NFT 交易量飙升至 442 亿美元以上，并不断刷新记录并达到新的高度。预测到2025 年N
NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是，许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而，请记住，在短
下一个黄金赛道？NFT的碎片化!

碎片化可能是我们一生中最重要的一个投资趋势，碎片化本身并不新鲜。它已经存在了400年之久。早在1602年，荷兰东印度公司是历史上第一家在公共证券交易所上市的公
就业年龄歧视如何解决？来Web3看看

上周，我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划，那年我们的协议实习生刚出生。在一阵恐慌后，我又花了一点时间反思我这个拥有近1

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

「国产良心」NFT嘲讽了谁？

量子计算在未来能否提高区块链技术的效率

音乐NFT平台里的下一匹黑马是谁？

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

下一个黄金赛道？NFT的碎片化!

就业年龄歧视如何解决？来Web3看看

最新推荐

数字人的AB面：在元宇宙中过气，在AIGC中重生

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

城市数字孪生标准化白皮书（2022版）

好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

从虚拟餐厅到虚拟时装秀，行业巨头掀起元宇宙商标注册潮

多地释放积极信号，元宇宙正成为地方争先竞逐的主战场？

猜你喜欢

热门推荐

相关资讯