糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > 机器学习数据预处理之离群值/异常值:图像对比法

机器学习数据预处理之离群值/异常值:图像对比法

时间:2021-08-21 06:59:11

相关推荐

机器学习数据预处理之离群值/异常值:图像对比法

机器学习数据预处理之离群值/异常值:图像对比法

garbage in,garbage out.

异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计。 简单来说,异常值是一个观察值,远远超出了样本中的整体模式。

异常值在统计学上的全称是疑似异常值,也称作离群点(outlier),异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。

从散点图上,可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中的其他数据点。

举个例子,做客户分析,发现客户的年平均收入是80万美元。 但是,有两个客户的年收入是4美元和420万美元。 这两个客户的年收入明显不同于其他人,那这两个观察结果将被视为异常值。

实际应用中,数据往往存在异常值,面对异常值,我们主要有几种思路:把异常值去掉,用其他数值代替异常值,对异常值进行变换。

图像对比法是通过比较训练集和测试集对应的特征数据在某一区间是否存在较大的差距来判别这一区间的数据是不是属于异常离群值。

优点:可以防止训练集得到的模型不适合测试集预测的模型,从而减少二者之间的误差。

意义:提高模型的可靠性和稳定性。

构造数据,进行实验演示方法原理的应用。

# 图像对比法&

如果觉得《机器学习数据预处理之离群值/异常值:图像对比法》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。