ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据-194 数据挖掘 机器学习理论 有监视、无监视、半监视、强化学习 [打印本页]

作者: 立聪堂德州十三局店    时间: 2024-11-7 00:55
标题: 大数据-194 数据挖掘 机器学习理论 有监视、无监视、半监视、强化学习
点一下关注吧!!!非常感谢!!连续更新!!!

目前已经更新到了:


章节内容

上节我们完成了如下的内容:


简单案例

在一个酒吧里,吧台上摆着十杯几乎一样的红酒,老板说想不想玩个游戏,赢了免费喝酒,输了需要付三倍的酒钱。眼前的十杯红酒,每杯都略有不同,前五杯属于【赤霞珠】,后五杯属于【黑皮诺】,现在重新倒一杯酒,你需要精确的说出属于哪一类?

我的问题 :

算法体系

机器学习(Machine Learning, ML)是人工智能(AI)的一个分支,旨在通过数据和算法使盘算机系统可以或许像人类一样学习和做出决策,而无需明确编程指令。机器学习的焦点是从数据中提取模式,并使用这些模式对新数据举行预测或分类。
机器学习 h的方法是基于数据产生的模型算法,也称学习算法。包括有:

机器学习是一种基于数据的学习方法,它依靠于大规模数据的分析,通过算法构建模型,使机器可以或许从数据中学习履历,举行预测、分类、聚类等操纵,而无需人工明确设定规则。
有监视学习(Supervised Learning)

指对数据的若干特性与若干标签(类型)之间的关联性举行建模,只要模型被确定,就可以用用到新的未知数据上。
这类学习过程可以进一步为:【分类】classification 任务 和 【回归】regression 任务。

监视学习是指算法在训练过程中依靠标注好的数据集。数据集中的每一个样本都有一个对应的精确输出,算法通过这些“输入-输出”对,学习怎样从输入数据预测输出。

无监视学习(Unsupervised Learning)

指对不带任何标签的数据特性举行建模,通常被看成一种“让数据自己介绍自己”的过程。
这类模型包括【聚类】clustering 任务 和 【降维】dimensionality reduction 任务。
无监视学习是指算法在没有标注数据的情况下举行训练,算法通太过析输入数据本身的特性或结构来举行学习。其目标是发现数据中的隐蔽模式或群组。

半监视学习

另外,还有一种半监视 semi-supervised leaning 方法,介于有监视学习和无监视学习之间,通过可以在数据不完整的时候使用。
强化学习 (Reinforcement Learning)

强化学习不同于监视学习,它将学习看作是探索评价过程,以试错的方式学习,并与环境举行交互已得到惩罚引导举动,以其作为评价。
此时系统靠自身的状态和动作举行学习,从而改举行动方案以适应环境。
强化学习是通过与环境互动来学习策略的过程。算法通过不断尝试并接收环境的反馈(嘉奖或惩罚),来优化自己的举动决策。

输入输出空间与特性空间

在上面的场景中,每一杯酒作为一个样本,十杯就组成一个样本集。酒精浓度、颜色深度等信息称做【特性】。这十杯酒分布式在一个【多维特性空间】中。
进入当前步伐的“学习系统”的全部样本称做【输入】,并组成【输入空间】。
在学习过程中,所产生的随机变量的取值,称做【输出】,并组成【输出空间】。
在有监视的学习过程中,当输出变量均为一连变量时,预测问题成为回归问题,当输出量为有限个离散变量时,预测问题称为分类问题。
过拟合和欠拟合

当假设空间中含有不同复杂的模型时,就要面对模型选择的问题。
我们希望得到的新样本上能表现得很好的学习器,为了达到这个目标,我们应该从训练样本中尽大概学习到适用于全部潜伏样本的“广泛规律”。
我们以为假设空间存在这种“真”模型,那么所选择的模型应该迫近真模型。
拟合度可以简单明白为模型对与数据集背后客观规律的掌握程度,模型对于给定命据集假如拟合度较差,则对规律的捕获不完全,用作分类和预测时大概精确率不高。
换句话说,当模型把训练样本学的太好了,很大概已经训练样本本身的一些特点当作全部潜伏样本的广泛性子,这时候所选的模型的复杂度往往会比真的模型要高,如许就会导致泛化性能下降,这种现象叫做过拟合(overfitting)。可以说,模型选择皆在制止过拟合并进步模型的预测能力。
与过拟合相对的是欠拟合(under fitting),指在学习能力低下,导致对训练样本的一样寻常性子尚未学好。


上图中【左图】的内容,一阶多项式,欠拟合:

上图中【中图】的内容,三阶多项式,较好拟合了数据集:

上图中【右图】的内容,十阶多项式,过拟合:

从上图我们看出,对于复杂的数据,低阶多项式往往是欠拟合的状态,而高阶多项式则太过捕获噪声数据的分布规律,而噪声数据之所以称为噪声,是因为其分布毫无规律可言,大概其分布毫无代价,因此就算高阶多项式在当前训练集上拟合度很高,但其捕获到无用规律无法推广到新的数据集上,因此该模型在测试数据集上实行过程将会有很大误差,即模型训练误差很小,但泛化的误差会很大。
机器学习的工作流程

机器学习通常包罗以下几个步调:
数据收集与预处理

数据是机器学习的底子。通常从各种来源收集数据,然后举行洗濯、归一化、处理缺失值等预处理操纵,以确保数据的质量。
特性工程

特性工程是指从原始数据中提取有效的特性。这一步调对模型的性能至关重要。常见的特性处理方法包括特性选择、特性缩放、编码等。
模型选择

根据问题的类型(分类、回归、聚类等)选择得当的算法模型。不同的算法适用于不同类型的数据和任务。
模型训练

将预处理后的数据输入到选定的机器学习算法中,使用数据集中的训练数据让模型学习怎样做出预测。
模型评估

训练完成后,使用测试集评估模型的性能。常用的评估指标包括精确率、准确率、召回率、F1分数、均方误差等。
模型调优

通过调整模型的参数或引入更多数据等本事,进一步优化模型的表现。
模型部署与应用

一旦模型通过了评估,它就可以被部署在现实应用中,比如保举系统、主动驾驶、语音辨认等。
常见的机器学习算法


机器学习面对的挑战



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4