LLM2CLIP论文学习笔记:强大的语言模子解锁更丰富的视觉表征 ...

打印 上一主题 下一主题

主题 842|帖子 842|积分 2526

1. 写在前面

今天禀享的一篇论文《LLM2CLIP: P OWERFUL L ANGUAGE M ODEL U NLOCKS
R ICHER V ISUAL R EPRESENTATION》, 2024年9月微软和同济大学的一篇paper, 是多模态领域的一篇工作,主要探索了如何将大模子融合到Clip模子内里来进一步进步视觉表征的性能。在本文中,提出了一种新颖的方法LLM2CLIP,它使用LLMs的力量来解锁CLIP的潜力。通过对LLM在说明文空间内举行对比学习微调,将它的文本能力提取到输出embedding中,大大进步了输出层的文本辨别性。然后,计划了一种高效的训练流程,在此流程中,微调后的LLM充当CLIP视觉编码器的强大教师。由于LLM的存在,现在能够整合更长且更复杂的说明文,而不受原始CLIP文本编码器上下文窗口和能力限定的影响,使Clip的能力更加的强大。



  • 论文地址: https://arxiv.org/pdf/2411.04997v2
  • GitHub地址: https://github.com/microsoft/LLM2CLIP/

  
Ok, lets to!
2. 简单回首下Clip模子

clip来自论文《Learning Transferable Visual Models From Natural Language Supervision》, 2021年OpenAI的工作。全称是Contrastive Language-Image Pre-training,顾名思义,这是一个基于对比学习的语言图像多模态学习方法。亮点是通过天然语言的监督信号学习一个迁移效果好的视觉模子
CLIP训练的目标实在主要照旧得到通用的图像表征模子,因此在CLIP框架里,语言数据可以以为是作为监督信号存在的,类似图像分类任务中的种别信号,只是从一个one hot label扩展成了天然语言的情势。使用天然语言作为监督信号的好处是,天然语言信号更加灵活,可以支持扩展到zero-shot的推理,而且能够提供更加丰富的监督信息
2.1 预训练

框架如下:

clip的预训练过程:


  • 数据准备: 图片和语言的数据对,一张图片过一个编码器得到向量, 一个句子过编码器得到向量,然后举行配对
  • 上面图片内里N张图片,N个句子,末了得到了                                                   N                               2                                            N^2                     N2的对, 对角线上的是配对乐成的,label为1, 其他                                                   N                               2                                      −                            N                                  N^2-N                     N2−N个数据是负样本
  • 有了标签, 就可以做自监督的对比学习举行预训练了,即把文本-图像match的间隔拉进, 把不match的间隔尽量拉远拉大
  • clip用了4亿个(text, image)对举行的预训练,多模态的对比学习
  • 可作zero-shot推理
伪代码:
  1. # image_encoder - ResNet or Vision Transformer
  2. # text_encoder - CBOW or Text Transformer
  3. # I[n, h, w, c] - minibatch of aligned images
  4. # T[n, l] - minibatch of aligned texts
  5. # W_i[d_i, d_e] - learned proj of image to embed
  6. # W_t[d_t, d_e] - learned proj of text to embed
  7. # t - learned temperature parameter
  8. # extract feature representations of each modality
  9. I_f = image_encoder(I) #[n, d_i]
  10. T_f = text_encoder(T) #[n, d_t]
  11. # joint multimodal embedding [n, d_e]
  12. # 投射层的参数w_i和w_t,主要是学习单模态到多模态的空间信息
  13. I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
  14. T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
  15. # scaled pairwise cosine similarities [n, n]
  16. logits = np.dot(I_e, T_e.T) * np.exp(t)
  17. # symmetric loss function
  18. labels = np.arange(n)
  19. loss_i = cross_entropy_loss(logits, labels, axis=0)
  20. loss_t = cross_entropy_loss(logits, labels, axis=1)
  21. loss = (loss_i + loss_t)/2
复制代码
关于数据:
   实在在CLIP之前就有好些多模态训练的工作,但是效果没有这么好,原因主要是数据量不敷大,别的就是对天然语言数据使用不敷好,未能充实发挥天然语言的作用。因此一个很重要的工作就是构建数据集。CLIP是这么干的:
  

  • 以英文维基百科中出现至少 100 次的全部单词为基础构建词集,并增长了双词组合和全部 WordNet 同义词
  • 爬取网上的数据,试(图像,文本)数据对中的文本包含词会合的一个词
  • 为了尽可能覆盖广泛的视觉概念,对结果举行平衡,每个概念最多包罗 20,000 个(图像,文本)对
  • 构建的 WIT(WebImageText) 数据集包含 4 亿个(图像,文本)对


    WIT数据集比之前很多多模态数据集都大,包含的内容也更丰富。
  在clip的训练框架中,text encoder和image encoder的地位是对称的。
和之前的对比学习一样,为了提拔学习的效果,负样本需要尽量多,因此实行中使用32,768的batch size。
理论上,text encoder和image encoder可以是任意模子。OpenAI选择了ResNet/EfficientNet-style的模子和几个ViT(ViT-B/32、ViT-B/16、ViT-L/14)作为image encoder举行实行,而text encoder则是使用GPT-2的布局,末了一层的 [EOS] token 就作为text representation。
训练中,image encoder和text encoder都是随机初始化的,不需要预先训练。
完成预训练之后,一个常规的用法是基于image encoder举行微调,包罗仅训练classifier,和完整模子的训练。
2.2 推理

预训练完之后举行推理:


  • clip是如何做分类的呢? 下图拿了imagenet的1000个种别演示了过程, 1000个种别,套用了一个prompt template,把单词酿成一句话a photo of a {object},然后过text encoder得到1000个向量
  • 给图片做分类的时候,把图片过预训练好的image encoder,然后得到向量,与1000个向量做余弦相似度,就能得到分类结果了

clip的魅力就是这个prompt template, 摆脱了categorical label的限定,可以猜测出任意自己界说的种别,而不是要事先界说好种别。好比上面那1000个类内里,我们可以自己添加没在1000类的其他种别,然后给出自己场景的图片,就可以猜测出自界说的种别,非常灵活。 这是clip的强大之处。


  • 不论是在训练照旧推理,都不需要有一个提前定好种别限定的列表,任意给照片,都可以通过给模子喂差别的文本句子,从而知道图片里有没有感爱好的物体
  • clip不光能识别新的物体, 而且把视觉和文本语义联系起来的能力也非常强
所以文本监督信号,帮助训练一个视觉模子好坏常有潜力的,能更好的举行zero-shot样本的学习
2.3 思考

2.3.1 Zero-shot Transfer

openAI是一个gpt化的公司,但这次clip为啥要用对比学习呢?


  • 给定一张图片,去猜测文本的话,这是一个很难的任务,因为一张图片,可以有很多很多文本,所以假如用猜测性的任务去训练这个模子的话,就有太多可能性,模子训练很慢
  • 假如把猜测性任务转成一个对比任务,判断这个图片和文本是不是配对,任务就简单了
  • 把猜测型的目标函数换成对比型的目标函数,训练效率提拔了4倍,而且听起来要合理一些
zero-shot transfer的动机:


  • 之前的自监督或者无监督学习的方法,主要研究特征学习的能力,目标是学习一种泛化性比较好的特征,纵然学习到了很好的特征,应用到下游数据的时候, 照旧需要标签的数据做微调,但这内里可能还有各种个样的题目,好比下游数据不好网络等,好比distribution shift的题目
  • 如何能训练一个模子, 接下来就不需要训练或者微调呢?, 这就是zero-shot transfer的动机
  • 借助文本,学习好了一个很大的模子之后,就可以用文本作为引导,灵活的做zero-shot的迁移学习, 如何用文本更好的引导,这就是prompt engineering
prompt engineering和prompt ensembling(提示工程): 如何用文本加以引导,让模子更好的做zero-shot迁移呢


  • 为什么做?

    • 文本自己有多义性,假如用一个单词去做Prompt,很容易出现歧义性的题目
    • 别的就是在做预训练的时候, 图片匹配的都是文本,很少是一个单词,所以推理的时候,也不应该每次都是一个单词,会出现distubution gap的题目,所以在真正推理的时候,使用了prompt的方法, 把单词酿成了一个句子A photo of a {label}, 这是一个模板
    • 假如你明确做什么任务了,好比知道标签内里的图片都是动物,那么此时提示工程内里,可以再用语言加以限定,把解空间进一步缩小,就很容易得到正确答案。所以提示工程很重要。

  • prompt ensembilng

    • 用多种差别的提示模板作多次推理,然后把结果综合起来, 多个提示模板尽量详细形貌到每个物体的具体特征

2.3.2 Limitition (clip的不敷之处):



  • clip zero-shot模子在imagenet数据集上和resnet50打了个平手,但resnet50根本不是目前的start-of-art模子,和当前的vit, mae等比,clip依然还有很大的差距,差了10几个点
  • 有些数据集上的zero-shot结果也并不好,好比细分类数据集,效果也是低于resnet50这个基线网络的
  • clip无法处理惩罚特别抽象的任务,好比图片里到底多少个物体,区分当前这一帧是正常照旧异常,擅长分类物体,但不了解正常和异常的概念,什么叫安全
  • 天然图像的分布迁移,模子相对稳健,泛化还行,但是推理时,假如数据和训练的数据差的真很远,out of distrubtion了,clip的泛化性可能也很差, clip模子在mnist数据集上表现不好,原因是因为clip训练的4亿样本内里,没有和mnist数据集长的像的,这时候对于clip模子,也无能为力。
  • 固然clip可以作zero-shot的分类任务,但照旧从给定的种别中做的选择,相比而言,一种更灵活的方式,直接天生图像的标题,一切让模子自己处理惩罚,可以天生新的输出,而不是像clip一样,给定新种别,然后去判断是不是这种, 也就是作者终极照旧偏向gpt化的这种(天生式模子), 后面是不是可以把对比学习函数和天生式函数结合起来, 既有天生式模子的灵活性又有对比模子的高效性
  • clip模子对数据的使用不是很高效,需要大量大量的数据投喂,后面能不能减少数据量呢? 一种方式是数据加强,一种是自监督,一种是伪标签
  • 固然作者说zero-shot上clip效果好,但是在下游任务反复测试的时候,已经无形带入了偏见,不是单纯的zero-shot了
  • 预训练的数据是从网上爬取的,没有经过任何的清洗和审查,所以可能会带有社会偏见
2.3.3 总结

clip这篇paper最大的贡献就是打破了之前固定种别标签的训练推理范式,不需要提前做种别限定了, 处理惩罚数据方便,训练模子方便,推理的时候也很方便,可以zero-shot的做各种分类任务。
代价衡量:


  • 新意度100分,打破固定种别标签做法,放飞视觉模子的训练过程
  • 有效性100分, 泛化性能,准确性能
  • 题目规模100分,一个模子就能办理大部分的分类任务,而且是zero-shot办理,题目自己很大,使用好这个模子,在其他领域稍微适配,就能把别的领域也做掉,很强。
3. 弁言

CLIP是当今最重要的多模态基础模子之一。它通过在大规模图像-文本对上采用简单的对比学习丧失,将视觉和语言信号对齐到一个共享特征空间中。


  • 作为一个检索器,CLIP支持广泛的任务,包罗零样本分类、检测、分割以及图像-文本检索。
  • 作为特征提取器,它几乎在全部跨模态表示任务中占据了主导地位,例如图像理解、视频理解以及文本到图像/视频的天生。

    • 像LLaVA和Qwen-VL如许的工作就使用CLIP的image-encoder为文本模子获取视觉特征
    • 像Stable Diffusion和DALL·E 2如许的模子则使用CLIP的text-encoder为视觉模子提取文本特征。

是什么让CLIP云云强大,尤其是在作为视觉编码器方面?其力量的核心在于它无与伦比地将视觉预训练与天然语言——人类知识的载体——相匹配的能力。与早期仅用几个词训练的视觉模子差别,CLIP是基于网络规模的数据,并使用丰富的形貌性文本举行训练。与语言的这种对齐使CLIP与众差别并解锁了其巨大的潜力。
然而,自从CLIP推出以来,大型语言模子(LLMs)已经取得了明显的进步。像GPT-4和Llama如许的模子现在展现了非凡的语言能力,但这些进步并没有转化为视觉表示学习方面的相应改进。这促使人们提出一个题目:是否可以使用LLMs的能力进一步改进多模态表示学习?
所以,本文的主要工作是,用大型语言模子(LLMs)来使CLIP学习更加强大、精致且丰富的视觉表示, 突破clip模子text-encoder的两个限定:

  • 在长文本和复杂文本上的局限性
  • 受限于模子大小、有限的上下文长度,而且主要在图像说明数据上举行训练,缺乏打仗多样天下语料的时机, 表达丰富信息的时机
那么,一个直观的想法就是,我直接用LLMs替换掉text-encoder行不可, 答案是不可, 原因如下:
   在CLIP所采用的跨模态对比学习框架中,文本编码器在共享潜空间中作为一组知识锚点,引导视觉编码器与人类对物理天下的知识对齐。
这些知识锚点的布局、丰富性和辨别性对于视觉模子的有效性至关重要。

相比之下,LLMs主要计划用于猜测下一个单词,而不是天生其所包含知识的明确表示。它们的文本理解能力和开放天下知识潜藏于模子内部,而不是体现在输出embedding中,这使得它们难以以与CLIP文本编码器相同的方式明确使用。

因此,使用LLMs作为文本编码器可能不会产生线性可分离的特征,这对于有效的特征对齐至关重要
  这个意思就是,LLMs在训练的时候是猜测下一个词的任务, 如许训练出来的模子可能以为相邻的词,要比形貌的图片的相关性更大。

后面论文内里还用实行证明了这一点。
4. 方法

论文中的方法论贡献有三个方面

  • 首先,我们计划了实行来分析阻止大型语言模子(LLMs)直接参与多模态表示学习的关键原因——即它们输出特征的弱辨别性。
  • 其次,我们引入了说明文对比微调方法,明显进步了特征的辨别性。
  • 第三,我们开发了LLM2CLIP训练框架,已被证明是一种有效使用LLMs来大幅提拔预训练CLIP模子性能的方法。
整个框架如下:

4.1 原生的LLMS不适合直接作为clip的文本编码器

弁言中提到了这一点,这里作者计划了实行来证明这个观点。


  • 实行背景:只管LLMs表现出强大的文本理解能力,但直接用作文本嵌入模子却很困难。这是因为它们的知识封装在模子内部,而它们的输出特征严峻偏向于单个词语的猜测。作为天生模子,它们并未经过训练以确保输出特征的良好线性可分性,这使得它们在表明CLIP说明文时效果不佳。CLIP中的跨模态对比学习要求每个模态都具备强内部辨别性
  • 实行计划:为了评估各种语言模子在文本辨别性方面的有效性,并检验原生LLM输出特征是否确实难以区分图像说明文,我们引入了一个新度量:MS COCO说明文检索准确率(CRA)。MS COCO是一个广泛使用的多模态数据集,包含凌驾33万张图片,每张图片配有五个说明文。这些说明文由差别的注解者编写,提供了每张图片的多样化形貌。在我们对MS COCO验证集的评估中,我们只使用每张图片的前两条说明文,并将同一图片的说明文视为正样本对,而全部其他的说明文作为负样本。随后我们举行说明文到说明文的检索,并使用差别的语言模子评估Top-1准确率,将其结果界说为其CRA得分。较高的CRA得分表明语言模子在图像说明文上的辨别性更好。
  • 使用纯LLM得到的CRA得分仅为18.4%,表明大多数说明文在输出空间中不能很好地分离。究竟上,如图2所示,间隔相近的说明文可能完全不相关。然而,来自原始最先辈CLIP模子的文本编码器到达了66%的CRA得分,证明了原生LLM输出特征在说明文辨别性上的不敷。因此,直策应用LLMs于CLIP模子训练是具有挑衅性的。

上面的核心就是说: LLMS训练的时候是用海量的文本对,猜测下一个单词的任务训练出来的,此时大模子学习到的语义特征本质上都存到了模子的内部, 输出层面上仅仅是对于下一个单词的猜测。而clip模子训练的时候, 是通过图片+对图片的形貌训练出来的,这时候的text_encoder更关注于图片上的关键信息。

好比上面这一张图片内里有狗, 训练clip的时候,可能标注的形貌是狗,小动物, 小宠物等信息,clip的text encoder就会学到,知道这张图片内里的狗,动物和宠物都指的是狗。而LLMs是不知道的,LLMs训练的时候,可能狗和猫经常出现在一起, 好天和狗出现在一起, 这时候LLMs学出来的特征空间与clip的text encoder学出来的特征空间差距是很大的,所以本质上我以为是这两个text encoder的语义空间差别, 直接用LLMs替换clip的text encoder是不符合的
那么怎么能更好的用LLMs替换呢?
4.2 关键训练:LLM学习用于图像说明文辨别

目标: 对LLM的token输出举行微调,以便更好地捕捉能够区分图像说明文的特征。
思路:进步LLM输出特征在说明文文本上的辨别性的过程相当直接,需要使同一图像的差别说明文之间的间隔更近,而差别图像的说明文之间间隔更远。因此,我们对LLM的输出特征应用说明文对比(CC)微调,将同一图像的差别说明文视为正样本,其余说明文视为负样本
数据集:为了得到充足的多样化形貌,我们使用了ShareCaptioner(Zheng等人,2024;Chen等人,2023)修改过的CC-3M(Sharma等人,2018)数据集,它为每张图片提供了原始说明文和加强的麋集说明文。这些可以被视为正样本对。我们遵循了LLM2Vec(BehnamGhader等人,2024)的训练方法,首先扩展LLM的注意力机制为双向注意力,并使用掩码下一位令牌猜测(MNTP)举行初始化以得到更好的结果。
训练方法:


  • 首先,我们将LLM的因果注意力机制转换为双向注意力,不再需要保持其天生能力,而是让它作为编码器工作。由于不需要自回归训练,转向双向注意力进步了其捕捉上下文信息的能力
  • 其次,我们采用MNTP来训练新增长的双向注意力机制,提供了一个强大的初始化。对于给定的N个令牌序列,我们掩盖一部分并猜测它们的值,类似于BERT(Devlin等人,2018)。但是,与BERT差别,我们通过猜测被掩盖令牌之前的令牌来适应LLM的本质。在图像说明文和纯文本上以相同的权重举行训练。除了CC-3M之外,我们还使用Wikitext-103(Merity等人,2016)数据集来保持LLM的文本能力,防止偏离其原有的上风。

  • 末了,我们举行实际的说明文对比微调,使用监督的SimCSE丧失函数将同一图像的说明文拉得更近,并将差别图像的说明文推得更远。使用两种提示模板:

    • “给定一个说明文,检索一个详细的关联说明文”和“给定一个详细说明文,检索一个简短的相关说明文”,这些模板被添加到查询(原始或麋集说明文)前面,以检索相应的麋集或原始说明文。
    • 同样,我们使用Springer等人(2024)整理的150万对普通文本数据集来维持在纯语言任务中的强劲表现。
    • 全部训练都高效地使用LoRA举行,并在仅仅一个epoch内完成,确保了较低的计算本钱。

明显的结果随之而来:在CC-3M上仅对LLM举行一个epoch的说明文编码器微调后,Llama-3 8B的CRA得分从18.4%跃升至73.0%,随后的实行表明,在CC微调之后,LLM终极释放了其强大的能力,明显提拔了之前最先辈CLIP模子的表现,与未举行CC微调的结果形成了光显对比。这一突破展现了LLMs在CLIP训练中的潜力,并消除了使用LLMs推进视觉基础模子的一个主要障碍。
4.3 LLM2CLIP:LLMs与clip结合起来

通过对LLM的上述改造,我们现在得到了一个非常适合CLIP训练的超级文本编码器
下一步是将这个LLM与预训练的最先辈CLIP视觉编码器结合起来,重构一个更强大的跨模态特征空间。
如图1所示,在LLM2CLIP训练阶段,我们冻结了LLM的梯度以保存其固有能力,主要有两个原因。


  • 首先,这大大减少了微调的计算本钱和内存占用。CLIP训练需要非常大的批量大小以保持负样本的有效性。分配内存给LLM可能会侵害CLIP的性能。
  • 其次,通过冻结LLM,我们确保它从大规模语料库中得到的开放天下知识在多模态对齐过程中保持完整。
为了补偿被冻结的LLM,并受到如FuseMix(Vouitsis等人,2023)和APE(Rosenfeld等人,2022)等方法的开导,我们在LLM之后引入了几个新的线性层作为适配器。这些层作为可学习参数,以改善LLM与CLIP视觉编码器之间的对齐。遵循CLIP的原始计划,我们也使用了一个投影层来对齐两个编码器的维度,促进使用CLIP丧失函数举行训练。
借助这一强大的基于LLM的超级文本编码器,在CLIP的语言理解能力上实现了质的飞跃。LLM的开放天下知识使CLIP视觉编码器能够学习到更多布局化且全局知情的视觉表示,这些表示与人类知识对齐。
此外,这种方法使我们能够充实使用高质量、长且麋集的说明文数据集,而无需举行任何特别的架构调整,这是以前的工作如DCI、DreamLip和Recaption难以有效使用的。LLM2CLIP使任何现有的最先辈CLIP模子变得更加出色,明显逾越了先前的表现。
4.4 概览和效率讨论

我们提出了LLM2CLIP作为一种方法,能够有效地将大型语言模子(LLMs)融入到CLIP训练中,使用LLMs的能力明显加强跨模态表示学习的效果。在实行中,我们评估了包罗10亿参数和80亿参数的Llama以及120亿参数的Mistral-Nemo在内的大型语言模子。只管将云云庞大的LLMs纳入进来似乎会大幅增长CLIP训练的计算负担,特别是考虑到CLIP自己就是一个计算麋集型的任务,需要较大的批量大小。然而,我们提出的LLM2CLIP异常轻量化。其训练开销几乎与微调原始CLIP模子相同,仅有极少的额外本钱,但LLM提供的监督要强大得多。
在此,我们夸大一些明显提拔训练效率的计划细节:

  • 在说明文对比微调阶段,我们对LLM采用了LoRA训练。纵然是120亿参数的LLM,使用512的批量大小训练也只需要约莫70GB的GPU内存,这意味着可以在单个拥有80GB内存的8个A100 GPU节点上运行。Lora训练微调和普通训练微调拿文哲老师的一个图来看:

  • . 在LLM2CLIP阶段,我们冻结了LLM的梯度,只训练可学习的适配器、CLIP原有的视觉编码器以及两个投影层。额外的可训练参数数目大抵相当于原始CLIP中的参数数目,从而最小化了开销。为了进一步低落使用LLM的推理本钱,我们预先从训练数据中提取全部的文本特征并将它们存储在内存中。如许纵然LLM提供了强大的文本监督,训练期间的内存和计算本钱也几乎与尺度CLIP训练保持一致。
例如,当我们使用集成有常见EVAViT-L/14-224的Mistral-Nemo* 12B模子训练LLM2CLIP时,在8个H100 GPU上使用4096的批量大小,每个GPU的内存使用量仅为30GB,而且整个训练过程仅需9小时。只管训练本钱云云高效,LLM2CLIP照旧在下游任务中带来了变革性的改进,好比是非文本检索、跨语言检索以及LLAVA训练。
通过如许的计划,LLM2CLIP不仅进步了CLIP模子在多模态任务上的性能,而且保持了相对较低的训练本钱,使得即便是资源有限的研究团队也能参与到先辈的多模态研究当中。这种方法展示了如何奇妙地结合现有技能,以最小的代价实现最大化的性能增益。此外,它也为将来的研究提供了参考,如何将强大的语言模子整合到其他视觉和多模态任务中去。
5. 实行

实行部分可以参考这篇文章, 不是我这里整理的重点。直接整理下实行结果:

  • 直接用原始的LLM替换Clip的文本编码器有害
  • 进步LLM输出特征的辨别性是将LLM与Clip集成的关键, 为了加强辨别性, 用了说明文对比微调
  • LLM2Clip使预训练的SOTA Clip更加出色
  • LLM使英文clip在没有打仗中文数据的情况放学会中文, LLM的知识迁移能力能应用在clip中, 这个还挺故意思的
  • LLM2CLIP可以提拔VLLM的性能。。Llava将CLIP视觉编码器整合进LLM中,用于多模态指令学习,这意味着视觉编码器的质量可以明显影响Llava的性能。我们将原始CLIP与经过我们LLM2CLIP微调加强的版本举行了比较,并按照Llava官方实现的方式运行了两个版本的实行,以确保公平比较。结果显示,在凌驾87.5%的基准测试中,我们取得了实质性的性能提拔,其余基准测试的结果也非常接近。这表明LLM2CLIP在复杂的图像推理及相关任务上具有潜力
6. 总结

末了总结下这篇文章做的事变:

参考:


  • 多模态入门–CLIP
  • LLM2CLIP: 强大的语言模子解锁更丰富的视觉表示
  • 李沐老师带读clip论文

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

悠扬随风

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表