糖尿病康复 > python aic bic_AIC和BIC

python aic bic_AIC和BIC

时间：2023-06-13 10:42:33

一、模型选择之AIC和BIC

人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，此处我们介绍一下常用的两个模型选择方法

赤池信息准则(Akaike Information Criterion，AIC)和贝叶斯信息准则(Bayesian Information Criterion，BIC)

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出

它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准，通常情况下，AIC定义为：

\(AIC = 2K-2ln(L) \)

其中K是模型参数个数，L是似然函数。从一组可供选择的模型中选择最佳模型时，通常选择AIC最小的模型。

当两个模型之间存在较大差异时，差异主要体现在似然函数项，当似然函数差异不显著时，上式第一项，即模型复杂度则起作用，从而参数个数少的模型是较好的选择。

一般而言，当模型复杂度提高(k增大)时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象

目标是选取AIC最小的模型，AIC不仅要提高模型拟合度(极大似然)，而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。

BIC(Bayesian InformationCriterion)贝叶斯信息准则与AIC相似，用于模型选择，1978年由Schwarz提出。

训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象

针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高：

\(BIC = Kln(n)-2ln(L) \)

其中，K为模型参数个数，n为样本数量，L为似然函数。Kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。

如果觉得《python aic bic_AIC和BIC》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。