糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > GLU sparsemax GELU激活函数

GLU sparsemax GELU激活函数

时间:2022-10-20 22:27:25

相关推荐

GLU  sparsemax  GELU激活函数

1. GLU/GTU 门控机制激活函数

GLU:

其中, W,V,b,cW,V,b,cW,V,b,c 都是可以学习的参数。

GTU:

f(X) = tanh(X*W+b) * O(X*V+c)

2. sparsemax

sparsemax是提出的。

Softmax:

softmax缺点:每个向量位置都有值。

文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。

这里把输入 z 和某个分布 p 的欧式距离最小化。

一种具体的实现是,

3. GELU激活函数

GELU激活函数是提出的,在BERT等模型都有应用。

高斯误差线性单元, GAUSSIAN ERROR LINEAR UNITS (GELUS)

近似的方法:

实验效果:

pytorch实现:

def gelu(x):"""Implementation of the gelu activation function.For information: OpenAI GPT's gelu is slightly different (and gives slightly different results):0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))Also see /abs/1606.08415"""return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

参考:

Language Modeling with Gated Convolutional Networks;论文 From Softmax to Sparsemax:

A Sparse Model of Attention and Multi-Label Classification;GELU 激活函数;GAUSSIAN ERROR LINEAR UNITS (GELUS) 论文

如果觉得《GLU sparsemax GELU激活函数》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。