糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax

softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax

时间:2018-11-07 08:46:56

相关推荐

softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax

Sparsemax封闭形式解及其损失函数的推导

本文目标是三个方面。第一部分讨论了sparsemax背后的动机及其与softmax的关系,首次介绍了该激活函数的原始研究论文摘要,以及使用sparsemax的优点概述。第二部分和第三部分专门讨论数学推导,具体地找到闭合形式的解以及适当的损失函数。

1.Sparsemax概述

Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一种替代众所周知的softmax激活函数的新方法

虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择,但在许多任务中,我们希望获得一个更稀疏的输出。Martins引入了一个新的激活函数sparsemax,该函数输出多项式分布的稀疏概率,因此从分布的质量中滤除了噪声。

这意味着sparsemax将为某些类分配恰好为0的概率,而softmax会保留这些类并为它们分配非常小的值,如10-3。在大型分类问题中,稀疏最大值可能特别有利;例如在自然语言处理(NLP)任务中,其中softmax层正在非常大的词汇集上进行多项分布建模。

但是,实际上,将softmax函数更改为稀疏估计器并不是一件容易的事。在保持softmax的一些基本属性的同时获得这种转换(例如,易于评估,易于微分并容易转换为凸损失函数)变得非常具有挑战性。

机器学习中解决该问题的传统方法是使用L1惩罚,该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性。虽然这种方法相对简单,但是L1惩罚会影响神经网络的权重,而不是作为稀疏概率的目标输出。

因此,论文作者认识到需要补充激活功能,即sparsemax,他们将其公式化为可解决的二次问题,并在一组约束条件下找到一个解决方案,以获得与softmax类似的性质。

在深入研究sparsemax实现背后的证据之前,让我们首先讨论论文中的一些重要的高级发现。以下要点总结了一些主要内容:

Sparsemax是分段线性激活函数

尽管softmax形状等效于传统的S型函数,但Sparsemax在一个维度上却是"硬"的S型。此外,在两个维度上,sparsemax是具有整个饱和区域(0或1)的分段线性函数。这是论文中的图表,可帮助可视化softmax和sparsemax。

如果觉得《softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。