基于Apriori关联规则的影戏推荐系统(附python代码) - ToB企服应用市场:ToB评测及商务社交产业平台

# -*- coding: utf-8 -*-
"""
@contact: 微信 1257309054
@file: apriori_recommend.py
@time: 2024/3/31 0:06
@author: LDC
使用Apriori关联规则实现一个频繁项集推荐算法
"""
import math
import time
def get_item_set(data):
'''
获取项的字典
:param data: 数据集
:return: 项的字典
'''
item_set = set()
for d in data:
item_set = item_set | set(d)
return item_set
def apriori(item_set, data, min_support=0.20):
'''
获取频繁项集
:param item_set: 项的字典
:param data: 数据集
:param min_support: 最小支持度，默认为0.20
:return: None
'''
# 初始化存储非频繁项集的列表
infrequent_list = []
# 初始化存储频繁项集的列表
frequent_list = []
# 初始化存储频繁项集的支持度的列表
frequent_support_list = []
# 遍历获取 n-项集
for n in range(1, len(item_set) + 1):
c = []
supports = []
if len(frequent_list) == 0:
# 计算 1-项集
for item in item_set:
items = {item}
support = calc_support(data, items)
# 如果支持度大于等于最小支持度就为频繁项集
if support >= min_support:
c.append(items)
supports.append(support)
else:
infrequent_list.append(items)
else:
# 计算 n-项集，n > 1
for last_items in frequent_list[-1]:
for item in item_set:
if item > list(last_items)[-1]:
items = last_items.copy()
items.add(item)
# 如果items的子集没有非频繁项集才计算支持度
if is_infrequent(infrequent_list, items) is False:
support = calc_support(data, items)
# 如果支持度大于等于最小支持度就为频繁项集
if support >= min_support:
c.append(items)
supports.append(support)
else:
infrequent_list.append(items)
frequent_list.append(c)
frequent_support_list.append(supports)
print(f"{n}-项集: {c} , 支持度分别为: {supports}")
return infrequent_list, frequent_list, frequent_support_list
def is_infrequent(infrequent_list, items):
'''
判断是否属于非频繁项集的超集
:param infrequent_list: 非频繁项集列表
:param items: 项集
:return: 是否属于非频繁项集的超集
'''
for infrequent in infrequent_list:
if infrequent.issubset(items):
return True
return False
def calc_support(data, items):
'''
计算 support
:param data: 数据集
:param items: 项集
:return: 计算好的支持度
'''
cnt = 0
for d in data:
if items.issubset(d):
cnt += 1
return round(cnt / len(data), 2)
def generate_rules(frequent_list, data, min_confidence=0.60):
'''
根据频繁项集和最小置信度生成规则
:param frequent_list: 存储频繁项集的列表
:param data: 数据集
:param min_confidence: 最小置信度
:return: 规则
'''
rule_key_set = set()
rules = []
for frequent in frequent_list:
for items in frequent:
if len(items) > 1:
for n in range(1, math.ceil(len(items) / 2) + 1):
front_set_list = get_all_combine(list(items), n)
for front_set in front_set_list:
back_set = items - front_set
confidence = calc_confidence(front_set, items, data)
if confidence >= min_confidence:
rule = (front_set, back_set, confidence)
key = f'{front_set} ==> {back_set} , confidence: {confidence}'
if key not in rule_key_set:
rule_key_set.add(key)
rules.append(rule)
print(f"规则{len(rules)}: {key}")
return rules
def get_all_combine(data_set, length):
'''
在指定数据集种获取指定长度的所有组合
:param data_set: 数据集
:param length: 指定的长度
:return: 所有符合约束的组合
'''
def dfs(cur_index, cur_arr):
if cur_index < len(data_set):
cur_arr.append(data_set[cur_index])
if len(cur_arr) == length:
combine_list.append(set(cur_arr))
else:
for index in range(cur_index + 1, len(data_set)):
dfs(index, cur_arr.copy())
combine_list = []
for start_index in range(len(data_set)):
dfs(start_index, [])
return combine_list
def calc_confidence(front_set, total_set, data):
'''
计算规则 X==>Y 的置信度
:param front_set: X
:param total_set: X ∪ Y
:param data: 数据集
:return: 返回规则 X==>Y 的置信度
'''
front_cnt = 0
total_cnt = 0
for d in data:
if front_set.issubset(d):
front_cnt += 1
if total_set.issubset(d):
total_cnt += 1
return round(total_cnt / front_cnt, 2)
if __name__ == '__main__':
# recommend_by_apriori(1)
# 记录开始时间
s = time.time()
# 数据集
data = [['肖申克的救赎', '霸王别姬', '茶馆'],
['霸王别姬', '阿甘正传'],
['肖申克的救赎', '霸王别姬', '阿甘正传'],
['肖申克的救赎', '美丽人生'],
['霸王别姬', '美丽人生'],
['霸王别姬', '美丽人生'],
['肖申克的救赎', '美丽人生'],
['肖申克的救赎', '霸王别姬', '美丽人生', '茶馆'],
['肖申克的救赎', '霸王别姬', '美丽人生'],
]
# 获取项的字典
item_set = get_item_set(data)
print("项的字典:", item_set)
# 根据 Apriori算法获取 n-频繁项集
infrequent_list, frequent_list, frequent_support_list = apriori(item_set, data, min_support=0.20)
# 生成规则
rule_set = generate_rules(frequent_list, data, min_confidence=0.60)
print('rule_set', rule_set)
# 推荐
user_data = {'茶馆'} # 用户列表
recommend_id = [] # 推荐列表
for rule in rule_set:
# 置信度要大于0.7
if rule[-1] < 0.7:
continue
# 用户数据与规则有交集，则添加到推荐列表
if user_data & rule[0]:
recommend_id += list(rule[1])
recommend_id = list(set(recommend_id))
print('推荐recommend_id', recommend_id)
# 输出总用时
print("总用时:", (time.time() - s), "s")

复制代码

项的字典: {'霸王别姬', '肖申克的救赎', '阿甘正传', '茶馆', '美丽人生'}
1-项集: [{'霸王别姬'}, {'肖申克的救赎'}, {'阿甘正传'}, {'茶馆'}, {'美丽人生'}] , 支持度分别为: [0.78, 0.67, 0.22, 0.22, 0.67]
2-项集: [{'霸王别姬', '肖申克的救赎'}, {'茶馆', '肖申克的救赎'}, {'霸王别姬', '阿甘正传'}, {'霸王别姬', '茶馆'}, {'霸王别姬', '美丽人生'}, {'肖申克的救赎', '美丽人生'}] , 支持度分别为: [0.44, 0.22, 0.22, 0.22, 0.44, 0.44]
3-项集: [{'霸王别姬', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'茶馆', '肖申克的救赎'}, {'霸王别姬', '阿甘正传'}, {'霸王别姬', '茶馆'}, {'霸王别姬', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'肖申克的救赎', '美丽人生'}] , 支持度分别为: [0.44, 0.22, 0.22, 0.22, 0.22, 0.22, 0.44, 0.22, 0.22, 0.44]
4-项集: [{'霸王别姬', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'茶馆', '肖申克的救赎'}, {'霸王别姬', '阿甘正传'}, {'霸王别姬', '茶馆'}, {'霸王别姬', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'肖申克的救赎', '美丽人生'}] , 支持度分别为: [0.44, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.44, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.44]
5-项集: [{'霸王别姬', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'霸王别姬', '茶馆', '肖申克的救赎'}, {'茶馆', '肖申克的救赎'}, {'霸王别姬', '阿甘正传'}, {'霸王别姬', '茶馆'}, {'霸王别姬', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'霸王别姬', '肖申克的救赎', '美丽人生'}, {'肖申克的救赎', '美丽人生'}] , 支持度分别为: [0.44, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.44, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.22, 0.44]
规则1: {'肖申克的救赎'} ==> {'霸王别姬'} , confidence: 0.67
规则2: {'茶馆'} ==> {'肖申克的救赎'} , confidence: 1.0
规则3: {'阿甘正传'} ==> {'霸王别姬'} , confidence: 1.0
规则4: {'茶馆'} ==> {'霸王别姬'} , confidence: 1.0
规则5: {'美丽人生'} ==> {'霸王别姬'} , confidence: 0.67
规则6: {'肖申克的救赎'} ==> {'美丽人生'} , confidence: 0.67
规则7: {'美丽人生'} ==> {'肖申克的救赎'} , confidence: 0.67
规则8: {'茶馆'} ==> {'霸王别姬', '肖申克的救赎'} , confidence: 1.0
规则9: {'霸王别姬', '茶馆'} ==> {'肖申克的救赎'} , confidence: 1.0
规则10: {'茶馆', '肖申克的救赎'} ==> {'霸王别姬'} , confidence: 1.0
rule_set [({'肖申克的救赎'}, {'霸王别姬'}, 0.67), ({'茶馆'}, {'肖申克的救赎'}, 1.0), ({'阿甘正传'}, {'霸王别姬'}, 1.0), ({'茶馆'}, {'霸王别姬'}, 1.0), ({'美丽人生'}, {'霸王别姬'}, 0.67), ({'肖申克的救赎'}, {'美丽人生'}, 0.67), ({'美丽人生'}, {'肖申克的救赎'}, 0.67), ({'茶馆'}, {'霸王别姬', '肖申克的救赎'}, 1.0), ({'霸王别姬', '茶馆'}, {'肖申克的救赎'}, 1.0), ({'茶馆', '肖申克的救赎'}, {'霸王别姬'}, 1.0)]
推荐recommend_id ['霸王别姬', '肖申克的救赎']
总用时: 0.004998922348022461 s

复制代码