Python数据挖掘-机器学习
创始人
2025-05-28 06:50:17

零、概念

        机器学习:数据中自动分析获得模型,并利用模型对位置数据进行预测

        数据集(机器学习所要学习的数据):特征值(基础属性) [ + 目标值(所求问题) ]

        分类问题:目标值为类别

        回归问题  :目标值为连续型(目标值与特征值有关联)的数据     

        无监督学习:没有目标值(有目标值的均为监督学习

        算法:

                监督学习:knn算法、贝叶斯分类、决策树与随机森林、逻辑回归

                无监督学习:聚类k-means

        开发流程:

                获取数据、数据处理、特征工程、算法训练-模型、模型评估、应用

一、sklearn

1.数据集

(1)sklearn自带数据集应用

sklearn.datasets.load_*:小数据集

sklearn.datasets.fetch_*:大数据集

(2)数据集划分

原理:将原数据取一部分出来当作预测值,来证明学习后得到的预测结果符合要求(模型评估)

x_train,x_test,y_train,t_test=sklearn.model_selection.train_test_split()

传入:数据集的特征值;数据集的目标值;test_size测试集的大小,一般为float;random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return: 训练集特征值(x_train),测试集特征值(x_test),训练集目标值(y_train),测试集目标值(y_test)。

2.特征工程

补充:将任意数据转换为可用于机器学习的数字特征

(1)字典特征提取:sklearn.feature_extraction.DictVectorizer()

DIctVectorizer().fit_transform(x):转换数据

DIctVectorizer().get_feature_names_out():返回类别名(转换完数据才能查看)

from sklearn.feature_extraction import DictVectorizer
def sk():data=[{'city':'北京',"temperature":23},{'city':'上海',"temperature":29},{'city':'广州',"temperature":32}]transfer1 = DictVectorizer()#实例化方法;sparse=True为稀疏矩阵transfer2=DictVectorizer(sparse=False)data_new1=transfer1.fit_transform(data) #调用fit_transformdata_new2 = transfer2.fit_transform(data)print(data_new1)#稀疏矩阵就是将非0值的位置表示出来print(data_new2)
#1图为稀疏矩阵

 (2)文本特征提取:sklearn.feature_extraction.text.CountVectorize()

补充:统计文本特征词出现的次数

CountVectorize(stop_words=["","",...]):参数可带停用词

CountVectorize().fit_transform(x):转换数据

CountVectorize().get_feature_names_out():返回类别名(转换完数据才能查看)

from sklearn.feature_extraction.text import CountVectorizer
def count():data=["life is short, i like like python","life is too long,i dislike python"]transfer=CountVectorizer()#文本没有sparse属性data_new = transfer.fit_transform(data)print(data_new.toarray())#用toarray()转化为非稀疏矩阵print(transfer.get_feature_names_out())

 

相关内容

热门资讯

@吉林省本级社保待遇领取人员抓... 事关大家的养老钱、失业金、工伤待遇!吉林省本级社保待遇领取资格认证,这些事一定要记牢,别耽误领钱!这...
重庆市黔江区发生交通事故致2人... 本文转自【央视新闻客户端】;重庆市黔江区公安局发布警情通报:重庆市黔江区发生一起交通事故,致2人死亡...
(乡村行·看振兴)卖牛容易运牛... 中新网赤峰5月10日电 题:卖牛容易运牛难,内蒙古肉牛小镇兴起“托管调理所”作者 奥蓝 李清源5月,...
海澜之家转型国货卷王,周立宸揭... #品牌强国说# #当初的广告匆匆听过你能记得的还有什么#  一句“男人的衣柜”,一段印小天的劲舞,这...
广东最新或2023(历届)中山... 【摘要】中考作为重点高中招生的选拔性考试,日益受到学生的重视。为此华当教育中考频道为大家提供最新或2...