ToB企服应用市场:ToB评测及商务社交产业平台

标题: 深度学习之特征提取 [打印本页]

作者: 宝塔山    时间: 前天 05:27
标题: 深度学习之特征提取
媒介

  深度学习就是把输入转换成一个高维的向量,之后利用这个向量去完成分类、回归等任务。

深度学习特征工程知识图谱


1. 特征提取的本质

核心目的:将原始数据→高维语义特征向量
监督驱动:标签决定特征提取方向
典范架构:  
AlexNet:首个深度CNN突破
VGG:统一卷积核计划
ResNet:残差学习框架
2. 无监督学习三大范式

方法原理典范应用对比学习拉近正样本间隔,推远负样本SimCLR、MoCo天生对抗网络天生器-判别器博弈,天生逼真数据图像天生、风格迁徙自编码器重构输入数据,学习有用特征表示MAE、VAE   这个表格总结了三种重要的自监督学习方法及其关键特征和应用场景。每种方法都利用未标记的数据来训练模型学习有用的特征表示,这些特征表示可以用于多种卑鄙任务,如分类、聚类和天生任务。



3. 关键技术创新

CycleGAN:跨域转换的双向一致性约束
MAE:掩码自编码实现高效预训练
特征解耦:分离内容与风格特征
  语音:内容vs说话人特征
  图像:物体vs纹理特征
 
4. 自监督学习优势

数据效率:利用海量未标注数据
迁徙能力:预训练模型适配卑鄙任务
典范流程:
  无标注预训练 → 少量标注微调 → 目的任务
 
无监督学习

对比学习


  SimSiam(Simple Framework for Contrastive Learning of Visual Representations)是一种用于无监督学习的对比学习方法,旨在通过对比学习框架学习图像的特征表示。SimSiam 的核心头脑是通过对比正样本对(即同一个图像的不同增强版本)和负样本(即不同图像的增强版本)来学习特征表示,从而使得模型可以大概捕获到图像的内涵结构。
SimSiam 的核心头脑

  SimSiam 的目的是学习图像的特征表示,使得同一个图像的不同增强版本在特征空间中更靠近,而不同图像的增强版本在特征空间中更阔别。这种方法不需要标签信息,因此属于无监督学习。


SimSiam 的关键组件

1. 数据增强

   SimSiam 使用数据增强技术天生正样本对。具体来说,对于每个输入图像,SimSiam 会天生两个不同的增强版本,这两个版本被称为正样本对。常见的数据增强技术包括随机裁剪、颜色失真、高斯含糊等。
2. 对比学习框架

  SimSiam 通过对比学习框架来训练模型。具体来说,模型的目的是最小化正样本对之间的间隔,同时最大化负样本之间的间隔。这可以通过对比损失函数(如 InfoNCE 损失)来实现。
3. 无监督学习

  SimSiam 是一种无监督学习方法,不需要标签信息。它通过对比学习框架学习图像的特征表示,使得模型可以大概捕获到图像的内涵结构。
SimSiam 的训练过程

1. 数据预备

对于每个输入图像,天生两个不同的增强版本,形成正样本对。
2. 特征提取

使用一个编码器(通常是一个卷积神经网络,如 ResNet)提取输入图像的特征表示。
3. 对比学习

通过对比损失函数(如 InfoNCE 损失)来训练模型。具体来说:

4. 无监督训练

SimSiam 不需要标签信息,因此属于无监督学习。通过对比学习框架,模型可以学习到图像的特征表示,使得同一个图像的不同增强版本在特征空间中更靠近,而不同图像的增强版本在特征空间中更阔别。
SimSiam 的优势

SimSiam 的应用场景

SimSiam 重要用于无监督学习中的特征提取。通过学习图像的特征表示,SimSiam 可以应用于以下场景:

总结

SimSiam 是一种无监督学习的对比学习方法,通过对比正样本对和负样本来学习图像的特征表示。SimSiam 的核心头脑是通过数据增强天生正样本对,通过对比学习框架训练模型,使得同一个图像的不同增强版本在特征空间中更靠近,而不同图像的增强版本在特征空间中更阔别。SimSiam 的优势在于其简单高效,适用于大规模无标签数据集,可以学习到高质量的特征表示,适用于多种卑鄙任务。

天生对抗网络

GAN 总体逻辑







  天生对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,它包罗两个重要部门:天生器(Generator)和判别器(Discriminator)。GAN 的目的是通过天生器天生逼真的数据,同时判别器实验区分天生的数据和真实数据。两者在训练过程中相互竞争,从而进步天生数据的质量。
GAN 的工作原理




GAN 的优势


GAN 的缺点

数据非配对问题

在传统的 GAN 中,天生器的目的是天生逼真的数据,而判别器的目的是区分天生的数据和真实数据。然而,GAN 通常需要成对的训练数据,即每个天生的图像都有一个对应的真图像。在实际应用中,成对的训练数据往往难以获取,这限制了 GAN 的应用范围。
信息丢失问题

天生器在天生数据时,大概会丢失一些重要的信息。例如,天生器大概只关注某些特征,而忽略其他特征,导致天生的数据不完整或禁绝确。
 作弊问题

天生器大概会找到一些“捷径”来诱骗判别器,而不是真正学习数据的分布。例如,天生器大概通过添加噪声或含糊来天生图像,而不是天生高质量的数据。这种现象被称为“作弊”。
Cycle-GAN

循环一致性(Cycle Consistency)


核心要求

CycleGAN 引入了循环一致性约束,确保天生器的转换是可逆的。具体来说:

循环一致性约束通过以下方式办理 GAN 的问题:
双向转换能力


CycleGAN 引入了两个天生器:

这种双向转换能力不但进步了天生数据的质量,还确保了天生器的转换是可逆的。通过双向转换,天生器必须学习到两个域之间的双向映射关系,从而天生更高质量的数据。
图像转换的具象例子

案例:苹果变橘子
原始数据转换过程效果验证苹果照片→天生器G:苹果→橘子橘子要逼真(骗过判别器)天生的橘子→天生器F:橘子→苹果变回的苹果≈原苹果
  1. <img alt="" src="https://i-blog.csdnimg.cn/direct/5aca6f7feb234a12b70b693359bb811e.png" />
复制代码
关键验证

双天生器的必要性


为什么 CycleGAN 有用?

天生式自监督学习

天生式自监督学习提供了一种框架,特征分离是目的,而自编码器是实现这些目的的常见工具
核心头脑

  天生式自监督学习的核心头脑是让模型自己天生训练数据的一部门,然后使用这些天生的数据来训练模型。这种方法通常涉及到重构任务,即模型需要学习如何从输入数据中提取特征,以便可以大概重修或天生原始输入。
关键组件

常见方法

自编码器(Autoencoder):一种简单的天生式自监督学习方法,此中模型被训练来最小化输入和输出之间的差异。
变分自编码器(Variational Autoencoder, VAE):通过引入随机性来学习更丰富的特征表示。
对比学习(Contrastive Learning):通过对比相似和不相似的样本来学习特征表示。
天生对抗网络(GAN):虽然GAN 重要用于天生任务,但它也可以用于自监督学习,通过天生器和判别器的对抗训练来学习特征。
优势

挑衅

总结

  天生式自监督学习是一种强大的自监督学习方法,它通过让模型自己天生训练数据的一部门来学习数据的特征表示。这种方法在处置处罚无标签数据时特别有用,可以学习到的特征表示可以迁徙到多种卑鄙任务。
 

特征分离


 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4