数据挖掘实验:关联规则分析之Apriori算法的实现
创始人
2025-05-28 04:25:09
0

一、实验原理
Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。

二、实验内容
在这里插入图片描述

三、实验过程
python实现Apriori算法

from __future__ import print_function
import pandas as pd#自定义连接函数,用于实现L_{k-1}到C_k的连接
def connect_string(x, ms):x = list(map(lambda i:sorted(i.split(ms)), x))l = len(x[0])r = []for i in range(len(x)):for j in range(i,len(x)):if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]:r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))return r#寻找关联规则的函数
def find_rule(d, support, confidence, ms = u'--'):result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果support_series = 1.0*d.sum()/len(d) #支持度序列column = list(support_series[support_series > support].index) #初步根据支持度筛选k = 0while len(column) > 1:k = k+1print(u'\n正在进行第%s次搜索...' %k)column = connect_string(column, ms)print(u'数目:%s...' %len(column))sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数#创建连接数据,这一步耗时、耗内存最严重。当数据集较大时,可以考虑并行运算优化。d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).Tsupport_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选support_series = support_series.append(support_series_2)column2 = []for i in column: #遍历可能的推理,如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B?i = i.split(ms)for j in range(len(i)):column2.append(i[:j]+i[j+1:]+i[j:j+1])cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列for i in column2: #计算置信度序列cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选result[i] = 0.0result[i]['confidence'] = cofidence_series[i]result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]result = result.T.sort_values(['confidence','support'], ascending = False) #结果整理,输出print(u'\n结果为:')print(result)return result

Apriori算法调用,进行关联性分析

from __future__ import print_function
import pandas as pd
from apriori import * #导入自行编写的apriori函数inputfile = '../data/menu_orders.xls'
outputfile = '../tmp/apriori_rules.xls' #结果文件
data = pd.read_excel(inputfile, header = None)print(u'\n转换原始数据至0-1矩阵...')
ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行
data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换,空值用0填充
print(u'\n转换完毕。')
del b #删除中间变量b,节省内存support = 0.2 #最小支持度
confidence = 0.5 #最小置信度
ms = '---' #连接符,默认'--',用来区分不同元素,如A--B。需要保证原始表格中不含有该字符find_rule(data, support, confidence, ms).to_excel(outputfile) #保存结果

四、实验结果
结果如下
support confidence
e—a 0.3 1.000000
e—c 0.3 1.000000
c—e—a 0.3 1.000000
a—e—c 0.3 1.000000
c—a 0.5 0.714286
a—c 0.5 0.714286
a—b 0.5 0.714286
c—b 0.5 0.714286
b—a 0.5 0.625000
b—c 0.5 0.625000
a—c—e 0.3 0.600000
b—c—a 0.3 0.600000
a—c—b 0.3 0.600000
a—b—c 0.3 0.600000

相关内容

热门资讯

最新或2023(历届)日照退伍... 退伍军人保险包括养老保险与医疗保险两大块,从最根本的地方解决退伍军人的基本保障问题。军人在退伍之后,...
最新或2023(历届)泰安退伍... 日前,市政府下发《关于切实做好最新或2023(历届)冬季退役士兵接收安置工作的通知》,《通知》规定,...
最新或2023(历届)济宁退伍... 济宁退伍军人就业安置最新政策第一章 总 则  第一条 为了规范退役士兵安置工作,保障退役士兵的合法权...
最新或2023(历届)聊城退伍... 退伍补贴退伍军人养老金1、基础养老金。按复员退伍军人领取养老金当年的统一标准发给。 2、个人帐户养老...
最新或2023(历届)威海退伍... 为全面贯彻落实国家安置政策法规,进一步规范安置程序,保障退役士兵合法权益,日前,市政府出台了《威海市...
最新或2023(历届)临沂退伍... 临沂退伍军人的补贴政策有哪些?想要了解更多关于临沂退伍军人的补贴政策的相关内容吗?现在就又临沂太阳教...
南阳宛城区最新或2023(历届...  8月31号,宛城区召开定兵工作会议,361名宛城热血男儿即将奔赴军营。市委常委、南阳军分区政委史安...
最新或2023(历届)莱芜退伍... 退伍补贴退伍军人养老金1、基础养老金。按复员退伍军人领取养老金当年的统一标准发给。 2、个人帐户养老...
最新或2023(历届)河南省征...  本报讯(记者王园园通讯员戴丹华)“我今年22岁,6月份即将本科毕业,现正在企业实习,能否参军?”“...
最新或2023(历届)德州退伍... 退伍补贴退伍军人养老金1、基础养老金。按复员退伍军人领取养老金当年的统一标准发给。 2、个人帐户养老...
最新或2023(历届)河南退伍... 最新或2023(历届)河南退伍军人补贴政策,河南退伍费什么时候发最新或2023(历届)已经过去,最新...
最新或2023(历届)河南征兵... 本报讯(记者王园园)记者昨日从河南省军区获悉,最新或2023(历届)度男青年网上兵役登记和应征报名已...
最新或2023(历届)河南信阳... 为做好夏季征兵宣传工作,树立阳光征兵的正确导向,保质保量完成今年征兵任务,长台关乡立足工作实际,早准...
最新或2023(历届)河南士官... 最新或2023(历届)河南士官招生时间和专业,河南省最新或2023(历届)直招士官招生计划公布各省辖...
最新或2023(历届)河南征兵... 最新或2023(历届)河南征兵报名时间,河南当兵时间和体检项目 昨日上午,在收听收看了全省征兵...
最新或2023(历届)郑州市征... 最新或2023(历届)郑州征兵体检最新消息:最新或2023(历届)郑州征兵体检部分条件放宽。最新或2...
最新或2023(历届)河南省征... 最新或2023(历届)河南省兵役登记和征兵报名工作已经全面开始,需要进行兵役登记和想报名参军的适龄青...
最新或2023(历届)焦作市征... 大学生应征入伍界定  指根据国家有关规定批准设立、实施高等学历教育的全日制公办普通高等学校、民办普通...
最新或2023(历届)河南退伍... 最新或2023(历届)河南退伍军人就业政策,河南退伍军人就业安置各省辖市、省直管县(市)人民政府,各...
最新或2023(历届)平顶山市... 热血男儿精诚报国铸长城 有为青年立志从军固国防8月11日上午,今年平顶山市征兵体检工作已经全面启动。...