糖尿病康复 > Python 机器学习及实践从零开始通往 Kaggle竞赛之路（持续更新 ing）

Python 机器学习及实践从零开始通往 Kaggle竞赛之路（持续更新 ing）

时间：2020-11-17 01:39:00

文章目录

第一章简介篇1.1 机器学习综述1.2 Python 编程库介绍1.3 Python编程基础第二章基础篇2.1 监督学习经典模型2.1.1 分类学习2.1.2 回归预测2.1.3 监督学习的基本框架和流程2.2 无监督学习经典模型

第一章简介篇

1.1 机器学习综述

机器学习任务种类有很多，侧重学习监督学习与无监督学习监督学习：关注对未知事物表现的预测。一般包括分类问题和回归问题分类问题：对所在的类别进行预测，类别是离散的，也是预先知道数量的回归问题：预测的目标往往是连续变量无监督学习：倾向于对本身事物特性的分析。常用的技术包括数据降维和聚类问题数据降维：对事物的特性进行压缩和筛选聚类问题：依赖数据的相似性，将相似数据归为一个簇

1.2 Python 编程库介绍

参考第一章1.5

1.3 Python编程基础

/qq_39437555/article/details/88398128

第二章基础篇

2.1 监督学习经典模型

2.1.1 分类学习

线性分类器（Linear Classifiers）

是一种假设特征与分类结果存在线性关系的模型，此模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。

由图 2-2 知该模型如何处理一个待分类的特征向量，当 z=0 时，g=0.5；z<0时，g<0.5，此时特征向量被判断为一类；z>0时，g>0.5，此时特征向量被判断为另外一类。支持向量机（Support Vector）

根据训练样本的分布，搜索所有可能的线性分类器中最佳的那个。真正帮助决策最优线性分类模型的数据点叫“支持向量”。逻辑斯蒂回归模型在训练过程中由于考虑了所有训练样本对参数的影响，因此不一定获得最佳的分类器。朴素贝叶斯（Naive Bytes）

它会单独考量每一维度特征被分类的条件概率，进而综合这些概率并对其所在的特征向量做出分类预测，此模型的数学假设是各个维度上的特征被分类的条件概率之间相互独立。

K-近邻

对于一个待分类样本，寻找它在特征空间中距离最近的 k 个已标记样本作为参考，从而做出决策。由于 k 值得变化，我们会获得不同效果的分类器。决策树

决策树是描述非线性关系的，使用多种不同特征组合搭建多层决策树，模型在学习时需要考虑特征节点的选取顺序，常用的度量方式包括信息熵和基尼不纯性。集成模型（分类）

集成（Ensemble）分类模型综合考量多个分类器的预测结果，从而做出决策，综合考量分为两种：利用相同的训练数据同时搭建多个独立的分类模型，通过投票的方式，以少数服从多数做出最终决策。具有代表性的是随机森林分类器，在构建过程中随机选取特征，而不是像标准决策树，根据每维特征对预测结果的影响程度来进行排序。按照一定次序搭建多个分类模型，这些模型之间存在依赖关系，一般来说，每一个后续模型对现有集成模型的综合性有所贡献，进而提高更新后的集成模型的性能。