机器学习-08-关联规则更新
总结本系列是机器学习课程的系列课程,主要介绍机器学习中关联规则和协同过滤。
参考
机器学习(三):Apriori算法(算法精讲)
Apriori 算法 理论 重点
【手撕算法】【Apriori】关联规则Apriori原理、代码实现
FPGROWTH算法详解
MovieLens:一个常用的电影推荐系统领域的数据集
23张图,带你入门推荐系统
本门课程的目标
完成一个特定行业的算法应用全过程:
懂业务+会选择合适的算法+数据处理惩罚+算法训练+算法调优+算法融合
+算法评估+持续调优+工程化接口实现
机器学习界说
关于机器学习的界说,Tom Michael Mitchell的这段话被广泛引用:
对于某类任务T和性能度量P,如果一个计算机步伐在T上其性能P随着履历E而自我完善,那么我们称这个计算机步伐从履历E中学习。
https://i-blog.csdnimg.cn/blog_migrate/32fc1a280fa26d3ee315332615598fdc.png
关联规则
啤酒与尿布
“啤酒与尿布” 的故事信赖许多人都听过,年轻爸爸去超市购买尿布时,经常会买点啤酒犒劳自己。因此,沃尔玛将这两种商品进行了捆绑贩卖,最终获得了更好的销量。
https://i-blog.csdnimg.cn/blog_migrate/9f02bb58272ae6fbf5dece2b97389573.png
“啤酒与尿布”的故事
https://i-blog.csdnimg.cn/blog_migrate/a8318cd0dcbae70d001fe9d6609e04b8.jpeg
这个故事背后的理论依据就是 “推荐算法”,由于尿布和啤酒经常出现在同一个购物车中,那么向购买尿布的年轻爸爸推荐啤酒确实有肯定原理。
关联规则算法
获得啤酒与尿布的关系的一种算法就是关联规则算法:
1.关联规则推荐算法:这种算法基于关联规则挖掘的技术。它通过分析用户行为数据中的项集之间的关联关系,找出频仍项集和关联规则,然后根据这些规则进行推荐。好比,根据用户购买商品的历史记录,可以挖掘出购买商品之间的关联规则,然后根据规则推荐其他相干商品给用户。
关联规则算法最开始是面向购物篮分析题目:
https://i-blog.csdnimg.cn/blog_migrate/54ee4f6f044910ca462af2ae48c5a4b3.png
怎样在消耗者购买了特定商品,好比PC机和一台数码相机后,作为贩卖人员的你针对该消耗者已购买的商品进行分析(购物篮分析),可以继续给该消耗者推荐什么产品,该消耗者才气更感兴趣。
关联规则算法可以帮助我们在大量历史贩卖数字中发现“已有的多数客户在购买PC机和数码相机后,还经常购买哪些产品”如许的一个规律。
关联规则就是通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物风俗,而物品见的某种联系我们称为关联。
这种关联的发现可以帮助零售商了解哪些商品频仍的被顾客同时购买,从而帮助他们开发更好的营销计谋。
关联规则 (Association Rules,又称 Basket Analysis) 是形如X→Y的蕴涵式,
此中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。
在这当中,关联规则X→Y,利用其支持度和置信度从大量数据中挖掘出有价值的数据项之间的相干关系。
关联规则办理的常见题目如:“如果一个消耗者购买了产品A,那么他有多大时机购买产品B?”以及“如果他购买了产品C和D,那么他还将购买什么产品?”
关联规则界说:
假设
I = {I1,I2,。。。Im}是包含全部商品(item)的集合,
包含k个项的项集称为k项集(k-itemset)。
给定一个交易数据库D,此中每个事务(Transaction)T是I的非空子集,即每一个交易都与一个唯一的标识符TID(Transaction ID)对应。
关联规则挖掘的目的即通过已发生的事务数据,找到此中有用关联性较高的项集所构成的规则。
那么,怎样度量关联规则的有用性及关联性呢?
首先,该关联规则本身所对应的商品应当具有肯定的广泛推荐价值,即支持度较高;关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;
其次该规则的发生应当具有肯定的大概性,即置信度较高。置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。
https://i-blog.csdnimg.cn/blog_migrate/5be557c8e9eab1f83deca5c397b4d7ef.png
如果满足最小支持度阈值min_support和最小置信度阈值min_confidence,则认为关联规则是重要的。
当一个项集(XY)的支持度大于即是min_support,这个项集就被称为频仍项集(Frequent Itemset)。
当以频仍项集(XY)构成的关联规则(X→Y)的置信度大于即是min_confidence,这个关联规则就被称为强关联规则。强关联规则也是关联规则挖掘的最终产出。
关联规则挖掘过程主要包含两个阶段:
第一阶段必须先从资料集合中找出全部的频仍项集(Frequent Itemsets),
第二阶段再由这些高频项目组中产生强关联规则(Association Rules)。
举个栗子
页:
[1]