机器学习之向量化

数据人与超自然意识 · 2025-3-18 16:35:14

向量化是什么

向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，实际中的各类数据，像文本、图像、音频等，其原始形态难以直接被模型所利用。通过向量化，这些复杂的数据布局会依据特定命学方法与算法，被厘革为具备特定方向和长度的向量。以天然语言处理里的词嵌入技术为例，它能把单词映射为低维向量空间中的向量，语义相近的单词对应的向量在空间中彼此靠近，借此捕获单词间的语义关系。在图像领域，可通过卷积神经网络，将图像数据转化为包罗图像关键特征信息的特征向量。
为什么要向量化

提拔计算服从

传统数据处理方式常需逐个元素操纵，而向量化能一次性处理整个向量。在底层，向量化操纵可利用现代计算架构，如 CPU 的多核并行处理能力以及 GPU 强大的并行计算性能，明显收缩计算时间。在处理大规模数据时，向量化运算速度比传统方法快几十倍甚至上百倍。例如在大规模矩阵乘法运算中，使用向量化操纵可极大提拔计算服从。
简化代码与加强可读性

运用向量化函数和操纵，能把原来需要复杂循环布局来处理的数据操纵，简化为简便的一行或几行代码。这不但降低了代码的复杂度，减少出错概率，还使代码逻辑更清楚，方便开辟人员明白与维护。以 Python 的 NumPy 库为例，利用其丰富的向量化操纵函数，如进行矩阵乘法时，代码变得极为简便。
适配模型需求

机器学习与深度学习模型以向量作为输入。向量化能将原始数据转化为模型可明白与处理的形式，便于模型从中学习数据特征与模式。在练习模型时，向量化后的数据可让算法更高效地更新模型参数，实现对数据的准确拟合与预测。例如支持向量机模型，输入的向量化数据可助力其更有用地找到最优分类超平面。
怎么做向量化

数据预处理

起首对原始数据进行洗濯，去除噪声、错误值和重复数据等。对于数值型数据，可能需要进行归一化或尺度化处理，将数据映射到特定的范围，如将数据归一化到 0 - 1 区间或使数据符合尺度正态分布，这有助于提拔模型的练习服从和稳固性。在处理图像数据时，通常要调整图像大小至统一尺寸，还可能进行灰度化处理以简化数据布局。对于文本数据，常见的预处理步调包罗分词、去除停用词（如 “的”“是”“在” 等无实际语义贡献的词）以及将单词转换为小写形式，以减少词汇的多样性。
特征提取

文本数据：除了前文提到的词袋模型和 TF - IDF，还可利用更高级的词嵌入技术，如基于神经网络的 Word2Vec 和 GloVe 模型。Word2Vec 通过练习一个浅层神经网络，学习单词的分布式表示，其有 Skip - Gram 和 CBOW 两种模型架构。Skip - Gram 模型根据当前单词预测上下文单词，而 CBOW 模型则根据上下文单词预测当前单词。GloVe 模型则结合了全局词频统计信息，在大规模语料库上能生成更具语义代表性的词向量。
图像数据：在传统方法中，除 SIFT 和 HOG 外，还可使用局部二值模式（LBP）来提取图像的纹理特征。LBP 通过比较中央像素与邻域像素的灰度值，生成二进制编码，以此形貌图像的局部纹理信息。在深度学习中，卷积神经网络（CNN）成为主流的图像特征提取方式。通过不同卷积核在图像上的卷积操纵，提取图像不同条理的特征，如边缘、角点、纹理等，随着网络条理的加深，渐渐提取到更高级、更抽象的特征。
音频数据：常将音频信号转换为频谱图，然后可接纳类似于图像特征提取的方法。例如，梅尔频率倒谱系数（MFCC）是音频处理中常用的特征提取方法，它模拟人类听觉系统对声音频率的感知特性，将音频信号转换为一组特征参数，用于表示音频的特征。
特征选择

从提取的众多特征中挑选出对模型性能影响较大、最具代表性的特征，去除冗余和无关特征。常见的特征选择方法有过滤法、包装法和嵌入法。过滤法通过计算特征与目标变量之间的统计量，如皮尔逊相干系数、信息增益等，设定阈值来筛选特征。包装法将特征选择过程与模型练习相结合，根据模型在验证集上的性能来选择特征子集，例如递归特征消除（RFE）算法，它通过不断递归地删除对模型贡献最小的特征，直到到达期望的特征数量。嵌入法在模型练习过程中主动进行特征选择，如基于 L1 正则化的逻辑回归，L1 正则化项会使部分特征的系数变为 0，从而实现特征选择。
向量构建

将经过预处理、提取和选择后的特征组合构建成向量。对于文本数据，若使用词袋模型，向量的维度等于词汇表的大小，每个维度的值表示对应单词在文本中出现的次数或 TF - IDF 值；如果词嵌入向量，则根据模型练习得到的固定维度向量来表示每个单词，然后通过平均、求和或池化等方式将文本中所有单词的向量组合成文本向量。在图像领域，若使用传统特征提取方法，将提取的特征（如 SIFT 特征点形貌子、HOG 特征向量等）按肯定顺序拼接成一个长向量。对于深度学习中的 CNN 模型，通常将末了一层全毗连层的输出作为图像的特征向量。对于音频数据，提取的 MFCC 等特征参数可直接构成向量，或者进一步经过变换和组合后形成最终用于模型输入的向量。
机器学习与深度学习中向量化的区别

数据特征提取方式

机器学习

机器学习严重依赖人工设计的特征工程手段来实现向量化。在文天职类场景中，词袋模型通过统计文本里每个单词的出现次数构建向量，TF - IDF 依据单词在文本中的频率以及在整个文本集合中的逆文档频率，权衡单词对文本特征的贡献，进而将文本转化为向量。这些都是基于人工预先设定的文本统计和词频分析规则。在图像领域，像 SIFT（尺度稳固特征变换）、HOG（方向梯度直方图）这类手工设计的特征，需人工定义特征提取规则，提取图像局部特征后再向量化作为模型输入。
深度学习

深度学习侧重于依赖模型自身主动学习数据特征表示并完成向量化。在图像分析中，卷积神经网络（CNN）通过卷积层的卷积核在图像上滑动，主动提取从低级的边缘、纹理到高级的物体局部外形等特征，接着经池化层对特征图下采样，降低数据维度，最终生成特征向量。在天然语言处理方面，词嵌入技术，如 Word2Vec、GloVe 等，可主动将单词映射到低维向量空间，无需人工显式定义特征。循环神经网络（RNN）及其变体黑白时记忆网络（LSTM）、门控循环单位（GRU），能够对文本序列这类数据进行建模，主动学习序列中的语义与语法信息并转化为向量表示。
模型布局与复杂度

机器学习

机器学习模型布局相对简单明白，例如决策树、支持向量机、质朴贝叶斯等。向量化后的数据作为这些模型的输入，模型复杂度主要由人为设计的特征以及模型自身参数决定。其练习与推理过程较为直接，对数据向量化的要求主要是契合模型输入格式，保证特征表示的准确性。
深度学习

深度学习模型布局极为复杂，包罗多层隐藏层，如多层感知机（MLP）、CNN、RNN 及其各类变体。深度学习模型能够主动学习数据的条理化特征表示，向量化过程与模型布局精密相连。在 CNN 中，数据经多个卷积层与池化层处理，渐渐提炼出不同条理特征，最终的特征向量是多层非线性变换的结果。这种复杂布局使深度学习能应对语音识别、图像生成、视频明白等复杂使命，对数据向量化要求更高，不但要考虑特征表示，还要分身如何借助模型练习优化特征提取与向量化流程。
计算资源需求

机器学习

一般情况下，机器学习模型练习与推理对计算资源需求相对较低。对于线性回归、逻辑回归这类简单算法，平凡 CPU 即可高效运算。即使是随机森林、梯度提拔树等较复杂的模型，虽计算量较大，但通常借助并行计算，在多个 CPU 核心上也能处理，对 GPU 等专用加速硬件依赖水平不高。
深度学习

鉴于深度学习模型布局复杂以及大规模数据处理需求，其对计算资源要求极高。练习深度学习模型时，通常需借助 GPU 加速计算，因为 GPU 在大规模矩阵运算与并行计算方面优势明显，能大幅提拔练习速度。对于大规模语言模型、图像生成模型等，甚至需多个 GPU 或专门的深度学习计算集群进行练习。在推理阶段，只管计算资源需求低于练习阶段，但在主动驾驶、实时语音识别等对实时性要求严苛的应用场景中，也需高性能计算装备保障推理速度与准确性。
数据规模适应性

机器学习

机器学习在处理小规模数据时表现良好，因为人工设计的特征可在有限数据上有用建模。然而，随着数据规模增大，人工设计特征的难度与工作量会急剧增长，且可能难以充分挖掘大规模数据中的信息，导致模型性能提拔受限。
深度学习

深度学习特殊适合处理大规模数据。随着数据量增多，深度学习模型能够通过主动学习特征表示，不断挖掘数据中的潜在模式与规律，进而提拔模型性能。在图像识别领域，当练习数据从几千张增至几百万张时，深度学习模型准确率会大幅提高。深度学习模型可利用大规模数据学习更复杂、更具鲁棒性的特征表示，更好地适配各类使命与数据分布。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

机器学习之向量化

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块