立聪堂德州十三局店 发表于 2024-6-11 08:58:15

文档图像前沿技能探索 | 多模态及图像安全

目录
前言
多模态模子进展与探索
大语言模子(LLM)
多模态大语言模子(MLLM)
图像安全
研究配景
系统架构
天生式AI
合合信息

前言

   近期,第六届中国模式识别与计算机视觉大会(厦门PRCV 2023)顺利闭幕。PRCV 2023大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)团结主理,厦门大学承办,是国内顶级的模式识别和计算机视觉范畴学术盛会,CCF保举集会会议(C类)。
本次集会会议特邀合合信息智能技能平台事业部副总司理郭丰俊博士进行专题分享。郭博士是上海交通大学模式识别与智能系统博士,长期从事文字识别(包罗手写/OCR),图像处置惩罚研究,系CSIG文档图像分析与识别专委会常务委员。对于文档图像的处置惩罚有着非常宝资深的经验,郭博士此次集会会议重要对多模态和图像安全两大模块进行干货分享。
https://img-blog.csdnimg.cn/7bcea18a1dea4d26b6d744a9df6ba937.png
多模态(GPT-4V)
   2023年3月15日,Open AI发布了多模态预训练大模子GPT4.0,可以把多模态引入OCR当中。初步评估发现:英文OCR较好;中文OCR不理想;并且在识别图像时存在一些问题:
①出现缺少文本或字符(文字丢失);
②缺少数学符号(对于数学公式的识别有问题);
③无法识别空间位置和颜色(空间位置和文字颜色无法识别);
https://img-blog.csdnimg.cn/7858e0793bae42508c6b80fdf668ceee.png
文档图像
文档图像从表面上来看既是文字也是图像,本质上就是一个天然多模态的属性。所以可以通过多模态的大模子来做文档图像方面的任务。
https://img-blog.csdnimg.cn/7baf8432714a4775872654c4643185f9.png


多模态模子进展与探索

   随着2022年11月30日OpenAI发布人工智能对话模子chatGPT以来,大模子技能掀起了新一轮人工智能海潮。chatGPT在天然语言处置惩罚任务中表现精彩,尤其是在天生式任务(如机器翻译、对话天生、文章摘要等)方面。越来越多的人开始关心大模子能否给我们的工作带来便捷?或者说忧虑会不会代替我们如今的工作岗位?
大语言模子(LLM)

   大语言模子(LLM),也称大型语言模子,是一种人工智能模子,旨在理解和天生人类语言。它们在大量的文本数据上进行训练,可以实行广泛的任务,包罗文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包罗数十亿的参数,帮助它们学习语言数据中的复杂模式。比较典型的代表就是chatGPT。
LLM时代文档图像处置惩罚技能趋势
   输入端:采用多模态的方法;
架构方面:采用Transformer Encoder / Decoder;
数据层面:需要海量、高质量的数据;
以上都满足了才能得到一个比较好的文档图像大模子的效果!
LLM时代文档图像技能机会
chatCPT-4的出世是不是就对以前做OCR的方法产生危急?前面说了要想得到高质量的文档图像大模子的效果,在数据层面必须要有海量高质量的数据,而OCR自己就是一个提供高质量数据的工具
   ①可以高效的录入;
②支持不同格式;
https://img-blog.csdnimg.cn/3a6cabad438b497daac4fda0f6361271.png
并且合合信息-华南理工大学文档图像分析识别与理解团结实行室对多模态和传统的OCR在文档图像识别方向展开了研究。从目前评测的情况来看,已知的多模态预训练系统在文档图像识别准确率上还逊于开始进的OCR识别系统。所以无论是大模子还是多态大模子的出世,OCR仍旧是一个很有代价的技能!

多模态大语言模子(MLLM)

   多模态大语言模子(Multimodal Large Language Model,MLLM)依靠于LLM丰富的知识储备以及强大的推理和泛化能力来办理多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。
MLLM时代文档图像处置惩罚技能趋势
知名系统:
   BLIP2 – Saleforce:Q-Former毗连图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分 Flamingo – DeepMind:在LLM中增长Gated Attention层引入视觉信息
LLaVA – Miscrosoft:将CLIP ViT-L和LLaMA采用全毗连层毗连; 使用GPT-4和Self-Instruct天生高质量的158k instruction following数据
MiniGPT – Vision CAIR Group, KAUST:ViT+ Q-Former + Vicuna
Nougat – Meta:Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集
Kosmos-2.5:Swin Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模子达到远超Nougat等Sota指标
Donut – NAVER:无需OCR, 用于文档理解的Transformer模子
性能分析:
   下面是知名文档图像大模子OCR性能分析与传统的OCR进行比较分析,性能方面对OCR的识别率还是不如传统的方式。
https://img-blog.csdnimg.cn/07d9bee3a5404ceaa09b5b499835e303.png
效果:系统测评的系统性能还待提高; 大概原因:视觉编码器的分辨率和训练数据限制;

图像安全

   天生式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。GAN、CLIP、Transformer、Diffusion、预训练模子、多模态技能、天生算法等技能的累积融合,催生了AIGC的爆发。算法不停迭代创新、预训练模子引发AIGC技能能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。
随着天生式人工智能(AIGC)的不停发展强大,同时给社会带来了一系列严肃的问题和挑战。此中包罗截图伪造、天生式图片和身份信息泄露等方面。使得图像的真伪就难以辨别,图像安全就变的越来越重要。
研究配景

   大模子技能的不停突破让天生式AI拥有了更广泛的落地空间,同时也让图片伪造的门槛变得越来更低,这就给了一些非法分子可乘之机。AI图像安全为天生式人工智能(AIGC)康健发展、规模化应用保驾护航,办理负面社会问题。例如:换脸、证照的篡改。
AI换脸
   比年来随着人工智能技能的灵敏发展,AI 在图像范畴的应用也日益广泛。2023年5月24日,中国互联网协会发文提示“AI换脸”新骗局,使用“AI换脸”“AI换声”等虚伪音视频,进行诈骗、诽谤的违法活动家常便饭。合合信息发布的天生式图像鉴别技能,帮助个人及机构识别判定AI图片原始属性,规避大概存在的欺诈、伦理等方面的风险。
https://img-blog.csdnimg.cn/8c2cfb38c70f494e9eddae8e9fbd3de5.png
重要应用场景:保险骗保、虚伪积分,金融欺诈等
https://img-blog.csdnimg.cn/a8d0825eaa984c629e89aff313ac6975.png

证件篡改
   随着经济社会的发展,公民在越来越多的经济社会活动中需要以居民身份证等身份证明文件证明身份。一方面,伪造、变造、交易居民身份证、护照、社会保障卡、驾驶证等依法可以用于证明身份的证件的活动,为非法分子使用伪造、变造的或者盗用他人的身份证件提供了便利。另一方面,使用伪造、变造的或者盗用他人身份证件的活动,也为非法分子伪造、变造、交易相关身份证件的活动提供了市场需求和驱动力。
图像证件篡改的重要分为四种范例:复制移动、拼接、擦除、重打印
①复制移动即在原图中“抠”出关键要素再粘贴到另一处;
②拼接是将不同图像拼接成一张新图像;
③擦除能够不留痕迹地擦掉一些关键信息,如去除大面积复杂水印;
④重打印则是在擦除的基础上重新编辑新文档。
https://img-blog.csdnimg.cn/28fffe34bad046b4bbc0b4242afc66b7.png


系统架构

   对于上述四种图像篡改的范例,需要先辈的检测技能来大批量发现被篡改/伪造的信息,保障信息真实性,防止欺诈活动的发生!
合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模子,使用分割模子,Backbone使用ConvNeXt作为编码器,用LightHam和EANet两个网络并行作为解码器,结合图像自己的信息包罗但不限于噪声、频谱等,从而捕捉到细粒度的视觉差异,达到高精度鉴别目的。
https://img-blog.csdnimg.cn/e5e490df63a74792a4da3caed4b5fbbf.png
技能挑战
   目前,图像篡改检测技能的应用也面临着篡改手段不停变革、场景复杂等系列挑战,不停提拔检测系统的鲁棒性和泛化能力,是学术界与企业界需要深入合作的重要方向。
泛化研究:通过大量数据的构建去调优
https://img-blog.csdnimg.cn/6f48bc319a9341a4a9fba11fc5e08269.png
落地现状
   已经落地的行业:证券、保险、银行、零售等............
Textln开放平台:TextIn - 机器人市场 - PS检测通用版
https://img-blog.csdnimg.cn/7f2def5ff594481c831026379c19f510.png


天生式AI

https://img-blog.csdnimg.cn/eee7a7a21b174f6e97efb56a6ad6b87e.png
以人脸场景为例:
   模子结构:通过多个空间注意力头来关注空间特性,并使用纹理加强模块放大浅层特性中的细微伪影,加强模子对真实人脸和伪造人脸的感知与判定准确度。
https://img-blog.csdnimg.cn/3a5a38dbe89b4e289726358fd75b99e6.png

效果可视化:
https://img-blog.csdnimg.cn/f11cc49acff1462e8c460d86d2981435.png
应用范围及进展:
   合合信息研发了基于深度学习的图像篡改检测技能及相关系统,可检测出多种篡改情势,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的情势展示图像地域篡改地点,相关技能已被应用于银行、保险等行业中。
①身份验证和访问控制
②移动装备的安全检测
③数字图像真实鉴定
https://img-blog.csdnimg.cn/76eeb0aa8c4245a78f6c8c62848d5f94.png

图像篡改检测标准订定
   由中国信息通讯研究院牵头,团结上海合合信息科技股份有限公司、中国图象图形学学会、中国科学技能大学等知名学术机构、科技创新企业,启动《文档图像篡改检测标准》订定工作。盼望持续推动AI技能在图像安全范畴的广泛应用,带给用户更加安全、高效的工作和生活体验。
https://img-blog.csdnimg.cn/1ad5fb4680744d4da018809d1d91af9f.png


合合信息

   上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技能,为环球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。
1. C端产品:深受环球用户喜好的效率工具
   公司C端业务重要为包罗扫描万能王(智能文字扫描及识别APP)、手刺万能王(智能手刺及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品。环球累计用户下载超 23亿
https://img-blog.csdnimg.cn/2560304b5d3942b8baa71c044abda856.png
2. B端服务:AI+大数据赋能数字化转型
   公司B端业务为面向企业客户提供以智能文字识别、商业大数据为核心的服务,形成了包罗基础技能服务、标准化服务和场景化办理方案的业务矩阵,为客户提供降本增效、风险管理、智能营销等产品及服务,助力客户实现数字化与智能化的转型升级。
https://img-blog.csdnimg.cn/ae510872a84a44f992d7ac480b68ce1c.png

3. 智能文字识别产品:TextIn
   TextIn是合合信息旗下的一站式OCR服务平台,该平台根据不同的业务场景和需求,将产品分为了通用识别、票据识别、企业证照识别、车辆相关识别、个人证件识别、港澳台证件识别、海外证件识别、文档格式转换和图像处置惩罚等,满足各种客户的图像识别和文档处置惩罚需求。
https://img-blog.csdnimg.cn/c117b691477e4f9094b472842b5fbed0.png
TextIn还可以对PS篡改检测进行体验,具体步骤如下:
第一步:打开合合信息官网:合合信息_OCR识别|智能文字识别|图片识别文字
https://img-blog.csdnimg.cn/d009cc221176480cb73674c79d8a3da0.png
第二步:点击申请使用
https://img-blog.csdnimg.cn/9dd350ec6eac4e6ab5de19697b80428a.png
第三步:仿纂改检测效果展示,
https://img-blog.csdnimg.cn/d0a5c881f20f4f03843878216067b566.png
总结:
比年来,经过深度学习篡改天生的文本图像已广泛流传于互联网,对金融票据、证件和网页内容识别等多个行业范畴产生了重要影响。但是目前对于文档图像分析识别与理解的技能也有很多难题。例如:
   ①场景及版式多样;例如:形状不可控、光照不可控
②采集装备不确定性;例如:收集摄像头、扫描仪、工业机器人、智能机器人
③用户需求多样性;例如:高精度:金融票据、可理解:教导、档案、办公
④文档图像质量退化严肃;例如:看不清
⑤文字检测及版面分析困难;例如:看不准
⑥非限定条件文字识别率低;例如:认不全
⑦结构化智能理解能力差;例如:难理解
合合信息智能文档处置惩罚技能覆盖了图像预处置惩罚、解析识别到AI安全等文档图像处置惩罚全生命周期,图像篡改检测技能不光能够应用于天然场景,还能应用于资质证书、文档条约、银行保单等截图的鉴别上。针对图片天生式造假,合合信息基于空域与频域关系建模,使用多维度特性来分辨真实图片和天生式图片的细微差异,判定图片是否由AI天生。专注于智能文字识别、图像处置惩罚、天然语言处置惩罚(NLP)、知识图谱、大数据挖掘等技能,有着非常丰富的经验,感爱好的小伙伴可以通过以下方式进行了解:
合合信息公众号:微信搜索【合合信息】
合合信息TextIn智能文字识别平台:TextIn

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 文档图像前沿技能探索 | 多模态及图像安全