内容安全与体系构建加速,助力办理天生式AI时代的双重挑衅
0. 前言天生式 AI 敏捷发展的时代,面临着内容安全与体系构建的双重挑衅。一方面,基于虚伪图片所引发的欺诈变乱日益增多,给社会带来了严重的负面影响,因此,我们必须高度关注人工智能的安全性,办理人工智能发展过程中的各种安全挑衅,以实现人工智能的连续健康发展。另一方面,练习大模型过程中低质量或不精确的数据会严重影响模型的练习和性能,通过应用性能的智能文档处置惩罚,可以或许自动化数据清洗、格式转换和信息提取,为模型提供高质量的练习数据,推动天生式AI技术的发展。
在本文中,我们将回首来自合合信息的郭丰俊博士在第七届中国模式识别与盘算机视觉大会中关于图像内容安全和智能文档处置惩罚推动体系构建加速的思考与探索,并介绍在天生式 AI 时代下文档智能处置惩罚技术面临的挑衅和研究进展。
1. PRCV 2024
1.1 大会简介
克日,第七届中国模式识别与盘算机视觉大会 (The 7th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2024) 在乌鲁木齐成功举办。此次大会由中国自动化学会 (CAA)、中国图象图形学学会 (CSIG)、中国人工智能学会 (CAAI) 和中国盘算机学会 (CCF) 共同主理,由新疆大学承办,是国内顶级的模式识别和盘算机视觉范畴学术盛会。PRCV 2024 汇聚了国表里模式识别和盘算机视觉范畴的浩繁科研工作者及工业界同行,交换最新的理论研究结果与技术进展。
此次会议加强了模式识别和盘算机视觉范畴学术界和企业界进行深入的“产学研”交换与合作,从而进一步推动模式识别与盘算机视觉范畴的协同创新。
https://i-blog.csdnimg.cn/direct/8e58c5bf4fec4497a23adc02f026789f.png#pic_center
1.2 天生式 Al 时代的内容安全与体系构建加速
比年来,随着天生式人工智能 (Generative Artificial Intelligence, GAI) 技术的迅猛发展,基于虚伪图片所引发的欺诈变乱也日益增多,给社会带来了严重的负面影响。这些虚伪图像不但误导了公众的认知,还大概对个人、企业和社会造成经济损失和信托危机。因此,确保图像内容的安全性变得尤为重要。在盘算机视觉范畴,研究和发展可以或许识别和防范虚伪图像的技术,已成为一个紧迫的课题。随着天生伪造图像题目的日益突出,图像内容安全的研究将为掩护信息真实性和维护社会信托提供重要支持。
另一方面,智能文档处置惩罚体系基于自然语言处置惩罚 (Natuarl Language Processing, NLP) 和呆板学习 (Machine Learning, ML) 算法,可以或许自动理解、天生和转换文档内容,使得体系在处置惩罚大量文本信息时,可以或许实现快速分类、信息提取及内容天生,从而大幅降低人工干预的需求,资助研发职员加速大模型体系的构建和练习过程,推动天生式AI技术的发展。
合合信息图像算法研发总监郭丰俊博士在 PRCV 2024 上,受邀发表了题为《天生式AI时代的内容安全与体系构建加速》的演讲,分享了图像内容安全和智能文档处置惩罚推动体系构建加速方面的最新研究结果和应用实践,助力办理天生式 AI 时代的双重挑衅。
2. 天生式 AI
天生式人工智能 (Generative Artificial Intelligence, GAI) 是一种人工智能方法,旨在通过学习练习数据的分布模型来天生新的、原创的数据。人工智能天生内容 (Artificial Intelligence Generated Content, AIGC) 是天生式人工智能的一个详细应用和实现方式,是指利用人工智能技术天生各种形式的内容,如文字、图像、音频和视频等。
2.1 天生模型
天生模型 (Generative Model) 是呆板学习的一个分支,通过练习模型以天生与给定命据集类似的新数据,换句话说模型通过学习练习数据的分布特征,天生与之类似但又不完全雷同的新数据。
假设有一个包罗猫图片的数据集,假如在该数据集上练习一个天生模型,以捕捉图像中像素之间的复杂关系。然后,我们可以利用该模型进行采样,天生原始数据会合不存在的逼真(猫)图像,如下图所示。
https://i-blog.csdnimg.cn/blog_migrate/b9c645448a64c62a9cbde2e63e64e8ec.png#pic_center
为了构建天生模型,我们必要一个包罗很多我们要天生的实例的数据集,这被称为练习数据 (training data),其中每一个数据点称为一个观测值 (observation)。
每个观测值由很多特征 (features) 构成,对于图像天生题目,特征通常是各个像素的像素值;对于文本天生题目,特征通常是单词或字母组合。我们的目标是构建一个模型,可以天生看起来像是利用与原始数据雷同规则创建的新特征集。对于图像天生来说,这是一个非常困难的任务,不但由于天生的图像必要具有真实世界的特征和细节,包括纹理、颜色、形状等,同时图像天生模型通常必要大量的练习数据来学习图像的特征和分布。
天生模型还必须是概率性的 (probabilistic),而不是确定性的 (deterministic),由于我们盼望可以或许采样出具有不同变革的输出,而不是每次得到雷同的输出,对于图像数据而言,天生的图像应该具有不同的风格、角度和变革,而不是仅仅复制练习数据中的图像。假如我们的模型仅仅是一个固定的盘算,例如在练习数据会合每个像素的均匀值,那么它就不是天生模型,天生模型必须包罗一个影响模型天生的随机因素。
换句话说,我们假设存在某种未知的概率分布,其可以表明图像在练习数据会合存在(或不存在)的合理性。天生模型的目标是构建一个尽大概精确地模拟这个分布的模型,然后从中进行采样,天生看起来像是原始练习会合大概包罗的新的、独特的样本数据。
2.2 天生模型与鉴别模型的区别
为了了解天生模型及其重要性,首先必要介绍鉴别模型。假设我们有一个绘画的数据集,其中包罗莫奈与一些其他艺术家的画作。通过利用足够的数据,可以练习一个鉴别模型,以猜测给定的画作是否由莫奈绘制。鉴别模型可以或许学到画作中的颜色、形状和纹理特征,以便判断画作是否由莫奈所绘制,对于具有莫奈画作特征的绘画,模型会相应地增长其猜测权重。下图展示了鉴别模型的构建过程:
https://i-blog.csdnimg.cn/blog_migrate/838970ad71a7453b540c02cecb04a00d.png#pic_center
在构建鉴别模型时,练习数据中的每个观测值都有一个标签 (label)。对于二分类题目,比如上述画作鉴别器,将莫奈的画作标志为 1,非莫奈的画作标志为 0。然后,鉴别模型学习如何区分这两组画作,并猜测新数据样本属于标签 1 的概率,即样本是由莫奈绘制的概率。
而天生模型不必要数据集带有标签,由于天生模型关注的是天生新图像,而非试图猜测给定图像的标签。接下来,利用公式正式定义天生模型和鉴别模型。
[*]鉴别模型估计 p ( y ∣ x ) p(y|x) p(y∣x),即在给定输入 x x x 的情况下,输出 y y y 的概率。其中 y y y 是标签, x x x 是观测值
[*]天生模型估计 p ( x ) p(x) p(x),即天生给定输入 x x x 的观测值的概率,而不考虑标签
[*]鉴别模型关注如何根据观测值来猜测标签,而天生模型关注如何根据概率分布来天生观测值
[*]在鉴别模型中,可以利用逻辑回归、支持向量机等算法来构建模型。而在天生模型中,常利用天生对抗网络 (Generative Adversarial Networks, GAN) 或扩散模型等算法来天生新的观测值
总结而言,鉴别模型和天生模型是两种不同的呆板学习方法。鉴别模型通过观测值猜测标签,而天生模型通过学习数据分布来天生新的观测值。
天生模型估计 p ( x ) p(x) p(x),即天生观测值 x x x 的概率。也就是说,天生模型旨在对观测值 x x x 进行建模,从所学分布中进行采样可以天生新的观测值。
2.3 天生模型的发展
数年来,鉴别模型一直是推动呆板学习发展的主要动力。这是由于相对于鉴别题目,相应的天生题目通常更难办理。例如,练习一个模型猜测一幅画是否是莫奈所作比起练习一个模型来天生莫奈风格的画作要容易得多;同样,练习一个模型来猜测一篇小说是否是莎士比亚所写比起构建一个模型来天生一篇莎士比亚风格的小说要容易得多。
近来,随着呆板学习技术的发展,办理天生题目变得不再遥不可及。通过将呆板学习应用于构建天生模型的新颖应用得到了快速发展。下图展示了图像天生模型在面部图像天生方面的研究进展。
https://i-blog.csdnimg.cn/blog_migrate/d322170003b3c2f575df32d3de8f7073.png#pic_center
除了更容易办理的上风之外,鉴别模型在实际题目中的应用也比天生模型更广泛。例如,可以或许猜测给定视网膜图像是否隐含青光眼迹象的模型对医疗范畴具有重要作用,但可以或许天生眼部图片的模型大概并无作用。
但随着越来越多的公司开始提供面向特定业务题目的天生服务,天生模型的应用范围正在快速扩展。例如,只需提供特定的主题材料,就可以通过 API 访问天生原创博客文章的服务,还可以天生在不同场景下的产物图像,或者编写与品牌和目标信息相匹配的社交媒体内容和广告文案。同时,天生式 AI 在游戏筹划和电影制作等行业也逐渐得到应用。
3. GAI 内容安全
在 PRCV 2024 上,合合信息主要分享了 AI 图像安全技术方案的重点技术,包括图像窜改检测和人脸伪造检测技术,以应对日益频发的恶意 P 图、天生式造假和等征象。
3.1 GAI 时代内容安全挑衅
随着天生式人工智能 (Generative Artificial Intelligence, GAI)技术的敏捷发展,伪造数据的数量和可定制性也日益增长,人们对技术革新带来的优美生活倍感期待的同时,也增长了对于人工智能安全题目的担心,例如,有诈骗分子通过天生窜改内容诱骗受害者,如何有用破解信息安全困难、保障内容安全成为当前的重要议题。
图像作为信息的主要载体之一,图像内容安全在盘算机视觉范畴的重要性日益突出。例如,在金融行业,银行移动开户、名誉卡申办和保险理赔等场景中,身份信息核查是银行、保险等业务场景中的首要项,利用 GAI 技术,攻击者可以快速天生虚伪的姓名、地址和电话号码等身份信息,这些窜改身份信息不但与真实信息相似,还可以根据特定需求进行调整,使得识别变得更加困难,为个人和企业带来巨大的资金损失与潜伏风险;同样,在汽车交易、运输等业务中,涉及大量驾驶证、行驶证真实性核查,利用 GAI 技术天生的证件在外观和细节上几乎无法与真实证件区分,这使得非法分子可以或许轻松利用这些窜改证件进行非法活动,行驶证涉及到车辆买卖正当性,行驶证造假与核查困难给相关企业造成了相当高的经济损失风险;再比如,在财政审批过程中,对网约车订单、付款截图、航空行程单、酒店流水等各类报销佐证单据的真实性检验是一项重要任务,企业在面对这些窜改票据时,往往难以识别,进一步增长了虚伪发票和收据天生带来的财政欺诈风险。
https://i-blog.csdnimg.cn/direct/fb23e83cfa6840c88247d04d387529dc.png#pic_center
由于窜改手段的多样性以及潜伏性,当前的窜改检测任务面临着诸多复杂的困难。首先,窜改手段多种多样,从简朴的像素替换到复杂的图像合成,攻击者可以采用不同的计谋来掩盖其窜改举动。这使得检测体系很难建立起有用的识别标准。其次,窜改的潜伏性使得窜改陈迹往往微弱,甚至在仔细审查的情况下也难以察觉。更为棘手的是,窜改图像与原始图像在内容和形式上大概高度相似,这种相似性进一步增长了识别的难度。
因此,这些因素对检测方法的精度和泛化本领提出了严峻的挑衅。检测体系不但必要在面对显着窜改时保持高精度,还必须具备足够的泛化本领,以顺应多变的窜改方式。这要求研究职员不断改进和创新检测技术,力图在不断变革的环境中有用识别出窜改内容,以掩护信息的真实性和可靠性。
3.2 图像窜改检测
图像窜改检测是指,给定一张图片,输入到窜改检测模型中,可以或许鉴别这张图像是否被窜改,而且定位出窜改图像的窜改区域。
考虑到伪造和窜改的技术也在快速更新,合合信息提出了基于小样本在线增量学习的窜改检测模型,以快速响应客户需求,融合空域与频域关系、知识蒸馏和教师-学生网络等方法提升 CNN Tamper Detector 性能,检测 RGB 域和噪声域存在陈迹的窜改,可以或许在像素级识别证件、票据等各类重要的商业材料中的 PS 陈迹。
与证照窜改检测相比,截图的背景没有纹路和底色,整个截图没有光照差别,难以通过照相时产生的成像差别进行窜改陈迹判断,现有的视觉模型通常难以充分发掘原始图像和窜改图像的细粒度差别特征。只管视觉模型在处置惩罚普通图像上体现出色,但劈面临具有细粒度差别的原始图像和窜改图像时,它们往往难以有用地进行区分。这是由于窜改操作大概只会对截图进行轻微的修改,这些细节变革对于传统的视觉模型而言很难捕捉到。截图窜改主要分为四种类型:
[*]复制移动:图像中的某个区域从一个地方复制到另一个地方
[*]拼接:两张毫不干系的图像拼接成为一张新图像
[*]擦除:擦除图像中的某些关键信息
[*]重打印:在擦除的基础上编辑上新的文本内容
针对这些题目,在传统卷积神经网络后引入两种不同解码器,包括基于降维的解码器 LightHam 和基于注意力的解码器 EANet,不同形式的解码器的引入令模型可以较好的办理各种场景下的窜改形式,从而捕捉到细粒度的视觉差别,增强模型泛化本领。截图窜改检测可检测包括转账记录、交易记录、谈天记录等多种截图。
应用合合信息的通用窜改检测技术,不但可以或许保障信息的真实性,通用窜改检测可防止信息被窜改或伪造,确保信息的真实性和完整性;同时也可以防止欺诈举动,保障用户的正当权益。
https://i-blog.csdnimg.cn/direct/5c83b971f449452f92907ec086678a4d.png#pic_center
同时,合合信息积极参与学术界交换,在 2023 年文档分析与识别国际会议 (International Conference on Document Analysis and Recognition, ICDAR) 的挑衅赛中,得到了文档窜改检测技术竞赛的冠军,同时与中国信通院、中国图象图形学学会等机构联合发布了《文本图像窜改检测体系技术要求》团体标准,可以或许推动相关技术更好的落地应用。
https://i-blog.csdnimg.cn/direct/f5e236cc19e14811a2cb0624c7d1f4ac.png#pic_center
3.3 人脸伪造图像检测
人脸伪造图像检测是一个快速发展的范畴,旨在识别和验证人脸图像的真实性,以防止欺诈和虚伪信息流传。但随着人脸伪造技术的不断演进,检测模型需顺应各种天生方法,如天生对抗网络、Deepfake 和扩散模型等,确保可以或许识别不同类型的人脸伪造图像。
合合信息构建的人脸伪造图像检测体系利用前沿的深度学习技术,基于大量 Deepfake 实际样图练习,具备优秀的泛化识别体现,可以或许快速而精确地检测单人图像中的人脸伪造举动。通过深度学习算法的高级特征提取和分析,体系可以或许识别贴图、面部重演、Deepfake 人脸替换等各种伪造举动,同时具备高效的及时处置惩罚本领,可以或许在短时间内对上传的人脸图像进行检测和分析,及时给出检测结果,满足快速反应和处置惩罚的需求。
目前,合合信息提出的伪造人脸检测模型已与一些央企及金融机构睁开落地合作,相关产物也可以在线体验,例如,利用伪造人脸检测识别利用 Stable Diffusion 天生人脸图像,模型可以或许精确给出图像“是伪造”的结论。
https://i-blog.csdnimg.cn/direct/ea1b9b06a8fc4316b28c582c9a8a2c59.png#pic_center
4. GAI 体系构建加速
4.1 GAI 时代体系构建挑衅
在天生式 AI 时代,大模型的构建面临诸多挑衅和题目。其中,数据泉源和质量的限定成为大模型进一步提高性能的主要障碍。高质量、丰富多样的数据集对于模型的练习至关重要,但在某些范畴,合适的数据大概非常稀缺,从而影响模型的性能和公正性。别的,模型的复杂度和练习难度显著增长,往往导致开发和优化的过程变得及其繁琐。以上这些因素共同制约天生式 AI 的进一步发展和应用。
4.2 TextIn 大模型加速器
合合信息 TextIn 是一个文档处置惩罚服务平台,其中包罗了大量具有不同应用场景的产物,同时针对上述大模型构建过程中的题目,新增了通用文档剖析和文本向量模型,用于加速大模型的构建与练习。
https://i-blog.csdnimg.cn/direct/89905986f34d4c97bb7ed5860a165603.png#pic_center
利用强大的文字识别和文档理解本领,通用文档剖析可以或许将恣意格式、版式的文档(图片、PDF、Doc/Docx 等)高效、精准剖析为大模型可以或许理解的 Markdown 格式,并按常见的阅读次序进行还原,赋能大语言模型的数据清洗和文档问答任务,可以或许资助研发职员加速大模型体系的构建和练习过程,将文档中的内容更好的结构化为段落、图像、表格和章节等便于后续操作的元素。支持标准的金融陈诉、论文、企业招投标文件、条约、文书、工程图纸等文档内容,兼容扫描文档和电子 PDF 文件。
https://i-blog.csdnimg.cn/direct/0bd4b5b4f7fb437a834526dd7eb8c276.png#pic_center
合合信息研发的通用文档剖析通过应用盘算机视觉、自然语言处置惩罚等人工智能技术,对文档图像进行自动化处置惩罚、分析和识别的过程,可以资助用户快速高效地对文档图像信息睁开深入的分析和理解,实现对文档中的重要信息进行提取。同时,在处置惩罚大量文档的情况下,可以显著地减少人力成本和时间成本,提高文档处置惩罚的精确度和结果,防止出现错误或遗漏等题目。
详细来说,通用文档剖析框架主要包括以下方面:
[*]文档图像预处置惩罚:在进行文档图像处置惩罚之前,对文档图像进行预处置惩罚和优化,其主要用于办理文档图像中存在的噪声、变形和失真等题目,以提高文档图像的质量和稳固性,包括图像去噪、切边增强、弯曲改正和摩尔纹去除等
[*]文档图像分析:利用盘算机视觉技术对文档图像信息进行分析、理解和处置惩罚,其主要用于文档图像的识别、分类和提取等方面,包括文档图像文字识别和提取、清晰化和增强和文档数据信息分析等
[*]文档剖析与识别:对文档进行结构化分析、编码、识别的提取,可以实现对文档中信息的自动识别和提取,从而提高文档处置惩罚服从和精确性,包括结构化分析、语义理解与编码、文字识别 (Optical Character Recognition, OCR) 和表格识别等
[*]版面分析与还原:对文档版面进行结构化分析、理解和编码,然后对分析结果中的各个对象进行改正、拼接和还原,实现文档版面的恢复和重构,主要用于自动化识别、分割和提取文档中重要信息的位置和排版等,包括版面结构分析、对象识别、区域分割和版面纠正、拼接、重构等
[*]文档信息抽取与理解:从文档中自动提取出关键信息,并对文档信息进行理解和推理,应用于自动化分析、推理和应用文档信息等,包括关键字提取、实体识别和文本分类等
https://i-blog.csdnimg.cn/direct/88353be829b74bb0b06a64c1ef71355d.png#pic_center
将剖析后的数据应用于鄙俚问答任务可以或许显著提高结果的精确性,例如,在检索增强天生 (Retrieval Augmented Generation, RAG) 模型架构中,通过在天生文本之前先检索相关的信息,增强了天生的质量和精确性。RAG 通常分为两个阶段:首先,模型检索相关文档,然后基于这些文档天生答案或文本,使得天生的内容不但基于模型的练习知识,还联合了特定的信息,从而提高了响应的相关性和信息丰富度。在下图中,可以看到,通用文档剖析得到的信息,可以或许显著提升问答体系和对话天生等任务中大模型的体现。
https://i-blog.csdnimg.cn/direct/5c1c1a36797140a3bfcbe5e91bfc82cf.png#pic_center
小结
合合信息是一家深耕智能文字识别和商业大数据范畴的公司,主要的平台产物包括智能文字识别服务平台和商业大数据技术与资产平台,其中,智能文字识别服务平台 TextIn 提供高精准度的智能文字识别引擎及场景化产物,支持多种部署方式,提升文档处置惩罚流程的服从,例如光学字符识别 (Optical Character Recognition, OCR)、图像切边增强、PS 窜改检测以及图像改正等。
https://i-blog.csdnimg.cn/direct/9571c02ac4484a5bbee7dc85bbff1494.png#pic_center
在天生式 AI 时代,模型具备快速响应用户需求的本领,可以或许实现即时天生与交互。但不精确数据会影响模型的体现,导致天生内容不可靠,同时随着陪同内容天生的便利,也出现了虚伪信息、版权题目等安全挑衅。本文通过回首郭博士在郭丰俊博士在第七届中国模式识别与盘算机视觉大会中的陈诉,介绍了合合信息关于文档和证件等数据的伪造检测技术,以及可以或许用于加速大模型体系的构建和练习过程的文档处置惩罚服务平台。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]