ToB企服应用市场:ToB评测及商务社交产业平台

标题: ML汇总 [打印本页]

作者: 吴旭华    时间: 2025-1-13 00:54
标题: ML汇总
机器学习算法

逻辑回归: 用于二分类问题。它基于一个或多个猜测变量建模二元结果的概率。
线性回归: 用于猜测基于一个或多个猜测变量的连续结果。它通过拟合线性方程来建模因变量和自变量之间的关系。
决策树: 一种用于分类和回归任务的树状模型。它根据特征值将数据分支,以做出决策或猜测。
梯度提拔决策树 (GBDT) 和随机森林:
GBDT: 一种集成技术,它按次序构建多个决策树,每个树纠正前一个的错误。用于回归和分类。
随机森林: 另一种集成方法,它独立构建多个决策树,并均匀它们的猜测(用于回归)或进行多数投票(用于分类)。
支持向量机 (SVM): 用于分类和回归。SVM在特征空间中找到最能分离类别的超平面。
朴素贝叶斯: 基于贝叶斯定理的分类技术。它假设猜测变量之间相互独立,常用于文本分类。
因式分解机 (FM): 用于希罕数据中的猜测任务,如推荐系统。它通过捕获全部特征对之间的交互来推广矩阵分解。
神经网络: 受人脑启发的一组算法,用于各种任务,包罗分类、回归和更复杂的任务,如图像识别。神经网络由层层相连的神经元组成,并通过根据数据调解这些连接的权重来学习。

重采样是指调解不同类之间的比例,使数据更加平衡的过程。例如,我们可以对少数类进行过采样(图 1.17)或对多数类进行欠采样(图 1.18)

大规模训练变得越来越告急,因为模型随着时间的推移变得越来越大,并且数据集的大小也急剧增长。分布式训练通常用于通过将工作分配给多个工作节点来训练模型。这些工作节点并行运行,以加快模型训练速度。分布式训练主要有两种类型:数据并行[13]和模型并行[14]。
模型压缩

Knowledge distillation: The goal of knowledge distillation is to train a small model (student) to mimic a larger model (teacher).
知识蒸馏:知识蒸馏的目标是训练一个小模型(学生)来模仿更大的模型(老师)。
Pruning: Pruning refers to the process of finding the least useful parameters and setting them to zero. This leads to sparser models which can be stored more efficiently.
剪枝:剪枝是指找到最无用的参数并将其设置为零的过程。这导致模型更希罕,可以更有效地存储。
Quantization: Model parameters are often represented with 32-bit floating numbers. In quantization, we use fewer bits to represent the parameters, which reduces the model’s size. Quantization can happen during training or post-training [39].
量化:模型参数通常用 32 位浮点数表示。在量化中,我们使用更少的位数来表示参数,从而减小了模型的大小。量化可以在训练期间或训练后进行[39]。
Feature scaling 特征缩放

标准化(最小-最大缩放)。在此方法中,使用以下公式对特征进行缩放,因此全部值都在 [0,1] 范围内:
标准化(Z 分数标准化)。标准化是改变特征分布以具有 0均值和 1 标准差的过程。以下公式用于标准化特征:
对数缩放。为了减轻特征的偏度,可以使用一种称为对数缩放的常用技术,其公式如下:
离散化(分桶)
损失函数


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4