论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
安全
›
主机安全
›
关于“文档图像前沿技术探索 —多模态及图像安全”专题 ...
关于“文档图像前沿技术探索 —多模态及图像安全”专题陈诉分享 ...
欢乐狗
金牌会员
|
2024-7-15 01:17:55
|
来自手机
|
显示全部楼层
|
阅读模式
楼主
主题
827
|
帖子
827
|
积分
2481
⭐️前言
10月14日第六届中国模式识别与计算机视觉大会在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF保举集会(C类)。 本届集会主题为“相约鹭岛,启智未来”。集会旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界偕行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。
PRCV2023共设5个大会主旨陈诉,8个特邀陈诉、32个口头陈诉,9个专题论坛,7个讲习班,共接收投稿论文1420篇,终极录取论文532篇。本文分享给各人由合合信息智能技术平台古迹部副总经理郭丰俊博士带来的企业陈诉:“文档图像前沿技术探索 —多模态及图像安全”。
⭐️多模态模型进展与探索
多模态模型是指能够处理惩罚多种不同类型数据的模型,例如图像、文本、语音等。在过去几年中,随着深度学习技术的发展,多模态模型在计算机视觉、自然语言处理惩罚、语音识别等领域得到了广泛应用。在本次专题陈诉上,郭博士首先介绍了文档图像在多模态大模型方向上的一些探索。
文档图像从字面上看就是文字+图像,以是它自然的就是一个多模态属性。如下面这张本次中国模式识别与计算机视觉大会的海报,从这个海报可以看出文字本身其实也有图像属性,我们的汉字从表面来看也是一个图形,是一种象形文字。以是在对文档图像处理惩罚时首先会想到多模态大模型,现在也不停在思索怎么把多模态这个技术引入到OCR内里。
人工智能世界正在迅速发展,OpenAI 继承引领潮流。9月25日,该构造宣布对其 ChatGPT 系统举行了重大升级,引入了具有视觉功能的 GPT-4V 模型和多模态对话功能。
经过一系列测评下来,发现GPT-4V在识别英文时的效果还是很不错的,但在识别中文方面就有点差强人意,而且对一些数学符号的识别也会有问题。如下图是中英文识别的效果。
⭐️LLM时代文档图像处理惩罚技术
比年来,随着多模态模型的研究进展迅速。其中,一些基于深度学习的多模态模型已经在图像形貌、视频理解、情绪分析等使命中取得了很好的效果。
文档图像领域的专家一致以为LLM时代文档图像处理惩罚技术会有以下三个趋势。
输入:多模态
架构:Transformer Encoder / Decoder
数据:海量/高质量数据
虽然现在多模态大模型势头正盛,但OCR仍然是一个非常重要的技术。至少目前这个阶段,想要训练一个大模型必须要依赖于高质量的大数据,而OCR本身就是一个非常好的提供大数据的工具,它不仅可以高效录入,还能够处理惩罚不同格式以及困难的图像数据。
⭐️着名文档图像大模型OCR性能分析
下面枚举了一些在文档图像处理惩罚领域比力著名的系统。
BLIP2:Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分
Flamingo:在LLM中增加Gated Attention层引入视觉信息
LLaVA:将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-Instruct生成高质量的158k instruction following数据
MiniGPT:ViT+ Q-Former + Vicuna
Nougat: Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集
Kosmos: win Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标
Donut: 无需OCR, 用于文档理解的Transformer模型
领域内不少专家将这些着名系统和OCR举行了一些比力,从性能上看识别率还是有所不如。分析下来的缘故起因可能是视觉编码器的分辨率和训练数据限制。
⭐️图像安全
比年随着人工智能(AI)技术的迅速发展,AI 在图像领域的应用也日益广泛。但同时也出现了一些与图像安全相干的问题,例如图像篡改、虚假图像生成、图像隐写等,大量基于虚假图片产生的诈骗案件、网络暴力变乱在环球范围内造成了恶劣的影响。
基于这个研发背景,合合信息提供两种图像安全技术办理方案包罗图像篡改检测和AIGC判别,而且参与了图像篡改检测尺度的订定。
⭐️图像篡改检测
合合信息使用监督学习的方法,将已知的图像篡改样本输入到模型中,让模型通过不断地调整权重和偏置,使得模型的输出效果与真实标签(篡改或未篡改)尽可能地接近。整体上图像篡改检测分为四个类型:
复制移动:
某一个图像中的某个地区复制到另外一个地区;
拼接:
两个绝不相干的图像拼接成一个新的图像;
擦除:
擦除图像中的一些关键信息;
重打印:
在擦除的底子上重新修改图像。
针对以上问题合合信息采用基于分割模型的系统架构。Backbone使用ConvNeXt作为编码器,使用LightHam和EANet两个网络并行作为解码器。通过两个解码器的融合可以得到一个较好的判定效果。这个判定不仅会给出是否篡改的效果,还会给出具体的篡改位置。
图像篡改检测在技术上任面临数据合成和训练策略两大挑衅,数据合成方面通过对多种字体、多种场景、多种篡改形式和头像物体篡改等举行人工标注自动生成海量图像对,训练策略方面通过对网络架构、损失函数、数据增加、迭代训练和调整超参等举行大量实行得到最适合篡改检测使命的策略。
在今年文档分析与识别国际集会(ICDAR)挑衅赛上,合合信息战胜了来自环球的上千支参赛团队,获得“文本篡改检测”赛道总冠军。
目前图像篡改检测系统在合合信息平台上已公开,而且已落地很多行业比如证券、保险、银行和零售等。
⭐️AIGC判别
针对生成式AI造假,合合信息也研发了相干检测产品。以人脸场景为例,该产品可通过多个空间注意力头来关注空间特性,并使用纹理加强模块放大浅层特性中的细微伪影,加强模型对真实人脸和伪造人脸的感知与判定正确度。下面是一个比力接近的架构图。
⭐️尺度订定
为贯彻落实《中华人民共和国网络安全法》《生成式人工智能服务管理》等文件中对于AI服务的规范性要求,系统性创建图像内容安全行业发展秩序,中国信息通信研究院(以下简称“中国信通院”)启动了《文档图像篡改检测尺度》订定工作。该项尺度由中国信通院牵头,上海合合信息科技股份有限公司、中国图象图形学学会、中国科学技术大学等科技创新企业及着名学术机构联合编制。
⭐️合合信息
合合信息重要致力于智能文字识别和商业大数据领域两个业务。底层技术包罗模式识别、图像处理惩罚、神经网络、深度学习、STR和NLP等AI技术以及隐私计算、知识图谱等大数据技术。C端的明星产品重要著手刺全能王、扫描全能王和启信宝等深受环球用户喜欢的效率工具,B端服务包罗AI+大数据赋能数字化转型提供金融风险知识图谱办理方案、供应链大数据风控办理方案和政企大数据管理办理方案等。
目前,图像处理惩罚领域仍面临关于文档图像分析识别与理解的技术难题包罗场景及版式多样、收罗设备不确定性、用户需求多样性和文档图像质量退化严重等问题。
为了办理上述难题,合合信息在文档图像分析、版面分析和文档信息抽取等方面做了非常多的积聚,也在不断地创新方法。同时合合信息也对外提供关于文档图像方面的文本识别、文本检测和版面元素标注等高质量的数据用于多模态大模型的训练。
⭐️总结
本次大会是一个非常重要的学术集会,旨在促进模式识别和计算机视觉领域的交换和互助。在本次集会上,来自国表里的专家学者就该领域的最新研究成果举行了分享和讨论,涉及到了图像处理惩罚、呆板学习、深度学习等多个方面。
通过这次“文档图像前沿技术探索 —多模态及图像安全”专题陈诉的分享,展现出了合合信息在文档图像领域十余年的深耕底蕴。正是这种科技实力使得合合信息能够在这个不断变化的领域中保持竞争优势,并为社会提供更安全的图像办理方案。
总的来说,本次集会是一个非常乐成的学术盛会,为该领域的发展做出了积极的贡献。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
欢乐狗
金牌会员
这个人很懒什么都没写!
楼主热帖
C# 读写文件从用户态切到内核态,到底 ...
LeetCode刷题100道,让你滚瓜烂熟拿下S ...
我的 Java 学习&面试网站又又又升级了 ...
基于梯度优化的混沌PSO算法matlab仿真 ...
SQL server 2008 r2 安装教程
KubeEdge在边缘计算领域的安全防护及洞 ...
Spring Boot 多数据源配置
x64dbg 配置插件SDK开发环境
不到一周我开发出了属于自己的知识共享 ...
开发日志02-解决`response`和SpringAop ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表