ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据关联规则算法 [打印本页]

作者: 张国伟 时间: 2024-8-19 18:05
标题: 大数据关联规则算法

关联性（Association）
- 定义：指一个变量能够提供有关另一个变量的信息。
- 特点：关联性是一个广泛的概念，它可以包罗直接的、间接的、强的或弱的联系。
相关性（Correlation）
- 定义：指两个变量同时上升或下降的趋势。
- 特点：相关性通常用相关系数来量化，如皮尔逊相关系数，它可以测量变量之间的线性关系强度和方向。
- 误区：相关性意味着关联性，而不是因果关系；
因果关系（Causality）
- 定义：指一个变量（原因）直接影响另一个变量（结果）。
- 特点：因果关系必要通过实行或统计方法来验证，例如随机对照试验（RCT）或使用因果推断模子。
- 误区：因果关系意味着关联，而不是相关性

关联

关联规则（Association Rules）发掘

应用场景

相关概念

Apriori算法

关联规则发掘目标

应用案例：啤酒和尿布

Apriori 算法利用了一个条理次序搜索的循环方法来完成频仍项集的发掘工作。在这个算法中 Agrawal 给出了一个关于频仍模式的著名性子-Apriori 性子。
Apriori性子

Apriori算法步骤

产生频仍项集
- 第一阶段：
  - 全部单独的项作为候选项集 ( C1 )。
  - 剔除支持度小于最小支持度阈值的项，形成频仍1-项集 ( L1 )。
- 第二阶段：
  - ( L1 ) 通过自连接形成候选项集 ( C2 )。
  - 扫描数据库，剔除支持度小于阈值的项，形成频仍2-项集 ( L2 )。
- 后续阶段：
  - 重复自连接和剔除过程，形成更高阶的候选项集 ( C3, C4, \ldots ) 直到无法找到新的频仍项集。
产生关联规则
- 利用频仍项集 ( L ) 产生关联规则。
- 满足可信度大于min_conf 的频仍项集产生强关联规则。
- 由于规则基于频仍项集产生，主动满足最小支持度 ( min_sup )。

Apriori算法实例

生成频仍项集阶段

生成关联规则阶段

文本文件切分
- 将文本文件的每一行作为单独的切分处置惩罚。
- 形成键值对<key1, value1>，此中key1 代表该行的偏移量，value1 代表一行文本（频仍项会合的一项）
Map函数处置惩罚
- Map函数扫描每对<key1, value1>。
- 对每个频仍项集调用规则生成函数，产生全部可能的规则。
- 规则包罗支持度和置信度，输出为<key2, value2>，此中key2是频仍项会合的一项，value2是该项对应的全部规则（包罗支持度和可信度）。。
Reduce函数规约
- Reduce函数吸收Map函数的全部输出。
- 对每个频仍项集的规则进行规约，筛选出满足最小置信度阈值的强关联规则。
- 将最终的关联规则<rule, conf>对存储到HDFS（Hadoop分布式文件体系）。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)