糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)

Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)

时间:2020-11-17 01:39:00

相关推荐

Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)

文章目录

第一章 简介篇1.1 机器学习综述1.2 Python 编程库介绍1.3 Python编程基础第二章 基础篇2.1 监督学习经典模型2.1.1 分类学习2.1.2 回归预测2.1.3 监督学习的基本框架和流程2.2 无监督学习经典模型

第一章 简介篇

1.1 机器学习综述
机器学习任务种类有很多,侧重学习监督学习与无监督学习 监督学习:关注对未知事物表现的预测。一般包括分类问题和回归问题 分类问题:对所在的类别进行预测,类别是离散的,也是预先知道数量的回归问题:预测的目标往往是连续变量 无监督学习:倾向于对本身事物特性的分析。常用的技术包括数据降维和聚类问题 数据降维:对事物的特性进行压缩和筛选聚类问题:依赖数据的相似性,将相似数据归为一个簇
1.2 Python 编程库介绍

参考第一章1.5

1.3 Python编程基础

/qq_39437555/article/details/88398128

第二章 基础篇

2.1 监督学习经典模型
2.1.1 分类学习
线性分类器(Linear Classifiers)

是一种假设特征与分类结果存在线性关系的模型,此模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。

由图 2-2 知该模型如何处理一个待分类的特征向量,当 z=0 时,g=0.5;z<0时,g<0.5,此时特征向量被判断为一类;z>0时,g>0.5,此时特征向量被判断为另外一类。支持向量机(Support Vector)

根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。真正帮助决策最优线性分类模型的数据点叫“支持向量”。逻辑斯蒂回归模型在训练过程中由于考虑了所有训练样本对参数的影响,因此不一定获得最佳的分类器。朴素贝叶斯(Naive Bytes)

它会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测,此模型的数学假设是各个维度上的特征被分类的条件概率之间相互独立。

K-近邻

对于一个待分类样本,寻找它在特征空间中距离最近的 k 个已标记样本作为参考,从而做出决策。由于 k 值得变化,我们会获得不同效果的分类器。决策树

决策树是描述非线性关系的,使用多种不同特征组合搭建多层决策树,模型在学习时需要考虑特征节点的选取顺序,常用的度量方式包括信息熵和基尼不纯性。集成模型(分类)

集成(Ensemble)分类模型综合考量多个分类器的预测结果,从而做出决策,综合考量分为两种: 利用相同的训练数据同时搭建多个独立的分类模型,通过投票的方式,以少数服从多数做出最终决策。具有代表性的是随机森林分类器,在构建过程中随机选取特征,而不是像标准决策树,根据每维特征对预测结果的影响程度来进行排序。按照一定次序搭建多个分类模型,这些模型之间存在依赖关系,一般来说,每一个后续模型对现有集成模型的综合性有所贡献,进而提高更新后的集成模型的性能。

2.1.2 回归预测
回归问题和分类问题的区别在于:待预测的目标是连续变量线性回归器

在线性回归问题中,由于预测目标直接是实数域上的值,因此优化目标就更为简单,即最小化预测结果与真实值之间的差异。

2.1.3 监督学习的基本框架和流程
首先准备训练数据,可以是文本、图像、音频抽取所需特征,形成特征向量将特征向量及标记/目标一并送入学习算法中,训练出一个预测模型采用同样的特征抽取方法,得到用于测试的特征向量最后用预测模型对待测试数据进行预测并得到结果
2.2 无监督学习经典模型

如果觉得《Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。