qidao123.com技术社区-IT企服评测·应用市场

标题: CV和NLP领域常见模型列表 [打印本页]

作者: 张国伟    时间: 2025-4-29 03:20
标题: CV和NLP领域常见模型列表
图像分类(Image Classification)

模型名特点备注ConvNeXt V2卷积改进,媲美 Transformer强于 ResNet、EfficientNetVision Transformer (ViT)全 Transformer 架构开创图像 transformer 海潮Swin Transformer V2局部留意力 + 金字塔结构更强的多尺度能力CoaT / CMT / EfficientFormer卷积+留意力结合提高效率,兼顾性能
目的检测(Object Detection)

模型名类型特点YOLOv8单阶段快速轻量,工业实用RT-DETRTransformer实时 DETR,端到端快DINOTransformerDETR 系列最强,效果极佳Sparse R-CNNRegion-based不用 anchor,更精炼Deformable DETRTransformer + 可变卷积提高收敛速度
实例分割(Instance Segmentation)

模型名基础架构特点Mask R-CNNFaster R-CNN + mask head经久不衰的经典方案SOLOv2 / YOLACT单阶段实时分割方案Mask2FormerTransformer + 全任务统一分割任务通吃(语义/实例/全景)
语义分割(Semantic Segmentation)

模型名特点数据集SegFormer高效的 transformer 分割Cityscapes, ADE20KHRNet高分辨率保持多尺度信息并行DeepLabv3+空洞卷积曾是标准方法Mask2Former通用分割架构适配全部分割类型
视频理解(Video Understanding)

模型名任务特点VideoMAE视频分类自监视预训练,体现强TimeSFormerTransformer分离时空 attentionSlowFast动作识别快慢路径建模动作变化
多模态视觉(Vision + Language)

模型名类型特点BLIP / BLIP-2图文天生/理解支持图像描述、VQA、跨模态检索OFAOne-For-All统一多模态任务GIT图文 Transformer图像 → 文本,轻量高效MiniGPT-4 / LLaVA类 GPT-4V图文对话,基于视觉 encoder + LLM
自动驾驶/3D 检测(3D Detection / Perception)

模型名特点数据集BEVFormerbird’s-eye-view TransformerNuScenes, WaymoPointRCNN基于点云的 R-CNNKITTIPV-RCNN高效的两阶段点云检测3D 识别 SOTA 多次CenterPointanchor-free + center-based快速稳固
视觉基础模型(视觉大模型,VLM)

模型名类型特点CLIP图文对齐开创多模态预训练DINOv2视觉体现学习强盛的通用视觉表征SAM (Segment Anything)万能分割器Promptable 分割范式SEEMEverything Model多模态提示泛化分割Florence / BEiT-3微软大模型文本图像联合建模 文本分类 / 情感分析(Text Classification / Sentiment Analysis)

模型特点常用数据集RoBERTaBERT 的优化版,泛化更强SST-2, AGNewsDeBERTa V3解耦留意力,体现顶级GLUE, IMDbERNIE 3.0知识增强预训练中文任务强ELECTRAGAN 式训练,高效收敛-
文本天生(Text Generation)

模型特点应用方向GPT-4多模态,推理能力强通用文本天生LLaMA 2开源强模型,得当微调Chat、创作等GLM-4中英文体现均衡,开放模型中英天生、对话T5 / FLAN-T5任务统一建模可调教天生模型
阅读理解 / 问答(Reading Comprehension / QA)

模型特点数据集UnifiedQA多任务问答统一架构SQuAD, HotpotQAMacaw开放域 QA可解答知识、多步标题GPT 系列 + Retrieval检索增强天生RAG, WebQA 等ChatGPT (GPT-3.5/4)多轮推理能力多任务泛化强
语言建模 / 通用 LLM

模型说明GPT-4 / ChatGPT多任务通用模型,体现全面Claude 3强推理与安全性兼顾GeminiGoogle 的多模态旗舰LLaMA 2高性价比开源 LLMGLM 系列中文支持强,开源友好Mistral / Mixtral小模型高性能,MoE 架构代表
文本摘要(Summarization)

模型特点任务类型PEGASUS预训练专为摘要计划abstractive summarizationBART / mBART编码解码 + 噪声建模多语言支持强T5 / FLAN-T5任务统一建模恣意格式摘要ChatGPT / GPT-4长文摘要能力优秀长文+结构保持
信息抽取(NER / RE / Event Extraction)

模型特点BERT-MRC / UIE(统一信息抽取)提示式信息抽取(统一问答框架)LayoutLMv3文档抽取 + 视觉增强DyGIE++实体 + 关系 + 变乱联合抽取ChatGLM + Prompt用于小样本 Prompt NER
机器翻译(Machine Translation)

模型特点来源mBART / mT5多语言预训练Facebook / GoogleNLLB-200支持 200 多种语言MetaDeepL + GPT-4实用最强组合商业翻译+润色ChatGPT润色式翻译优于通用 NMT
推理任务(自然语言推理 NLI / 多跳问答 / 多步推理)

模型特点数据集DeBERTa / RoBERTaNLI 经典强者MNLIGPT-4多步链式推理能力强Chain-of-ThoughtReAct / CoT Prompting结合工具和思索的推理范式HotpotQA, OpenBookQA
多语言 NLP(Multilingual NLP)

模型特点mBERT / XLM-R多语言预训练的经典mT5 / mBART50多语言翻译 + NLU 支持NLLB-200特别得当低资源语言
视觉定位概览

过去几年,视觉定位领域从基于 DETR 的模块化检测-定位框架发展到大规模多模态预训练,再到结合大型语言模型的多粒度天生式方法。早期代表作 MDETR(2021)初次将检测与定位端到端统一​;随后 GLIP(2021)通过语言——图像对齐预训练在 COCO 上取得 60.8 AP 的 SOTA 成绩​;GLIPv2(2022)进一步拓展到实例分割与多任务跨模态理解​。2023 年,Grounding DINO 在零样本检测与定位上革新记录​;2024 年底的 OneRef 与 HiVG 引入了天生式和条理化多模态战略​;最新的Ferret(ICLR 2024)将定位能力嵌入到多模态 LLM,实现恣意形状的开放词汇定位​;乃至 3D 视觉定位领域也涌现出 SeeGround(2024 12)等零样本框架。
从基于 DETR 的端到端方法(如 MDETR)➔地区–短语对齐预训练(如 GLIP/GLIPv2)➔零样本&开放词汇定位(GroundingDINO 及其 Pro 版本)➔天生式&统一框架(OneRef、Generative VLM)➔多模态大模型(Ferret、Kosmos-2)的融合应⽤。

1. 基于 DETR 的端到端定位模型



2. 地区—短语对齐预训练



3. 零样本与开放词汇定位



4. 天生式统一与条理化多模态战略



5. 大型多模态语言模型融合



6. 3D 场景定位



视觉定位的 SOTA 模型已覆盖从端到端 DETR、地区–短语预训练、零样本开放词汇、天生式一体化,到多模态大模型等全栈技术门路。选型应根据下游需求(精度 vs. 效率、零/少样本、天生能力、LLM 集成)进行权衡。
模型名称参数量 (B)RefCOCO (val / testA / testB)RefCOCO+ (val / testA / testB)RefCOCOg (val / test)KOSMOS-21.652.32 / 57.42 / 47.2645.48 / 50.73 / 42.2460.57 / 61.65MDETR-R101–86.75 / 89.58 / 81.4179.52 / 84.09 / 70.6281.64 / 80.89NExT-Chat785.50 / 90.00 / 77.9077.20 / 84.50 / 68.0080.10 / 79.80MDETR-ENB3–87.51 / 90.40 / 82.6781.13 / 85.52 / 72.9683.35 / 83.31Shikra787.01 / 90.61 / 80.2481.60 / 87.36 / 72.1282.27 / 82.19Ferret787.49 / 91.35 / 82.4580.78 / 87.38 / 73.1483.93 / 84.76GroundingGPT788.02 / 91.55 / 82.4781.61 / 87.18 / 73.1881.67 / 81.99PixelLLM489.80 / 92.20 / 86.4083.20 / 87.00 / 78.9084.60 / 86.00SimVG-DB-Base0.1891.47 / 93.65 / 87.9484.83 / 88.85 / 79.1286.30 / 87.26COMM-7B791.73 / 94.06 / 88.8587.21 / 91.74 / 81.3987.32 / 88.33SimVG-DB-Large0.6192.87 / 94.35 / 89.4687.28 / 91.64 / 82.4187.99 / 89.15
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4