糖尿病康复 > NPL基于词典分词(三)

NPL基于词典分词(三)

时间：2021-10-20 06:16:25

相关推荐

NPL基于词典分词(三)

前言

《NPL基于词典分词(二)》介绍n元语法模型从词语接续的流畅度出发，为全切分词网中的二元接续打分，进而利用维特比算法求解似然概率最大的路径。这种词语级别的模型无法应对 OOV(Out of Vocabulary，即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了，更何谈召回。

序列标注模型

例如下面一句：

头上戴着束发嵌宝紫金冠，齐眉勒着二龙抢珠金抹额

加粗的就是相对陌生的新词，之前的分词算法识别不出，但人类确可以，是因为读者能够识别“戴着”，后面往往跟着是一个词。

序列标注

序列标注指的是给定一个序列x=x1x2x3...xnx=x_1x_2x_3...x_nx=x1x2x3...xn ，找出序列中每个元素对应标签y=y1y2y3...yny=y_1y_2y_3...y_ny=y1y2y3...yn 的问题。其中，y 所有可能的取值集合称为标注集{x,y}={(xi,yi)},i=1,2...k\{x,y\} = \{(x_i,y_i)\}, i=1,2...k{x,y}={(xi,yi)},i=1,2...k。比如，输入一个自然数序列，输出它们的奇偶性。

通过标注的学习，现在OOV的“9”，也可以判断出其为奇的属性

即通过一个标注数据集学习相关知识后再进行预测。在NLP问题中，x 通常是字符或词语，而 y 则是待预测的组词角色或词性等标签。中文分词、词性标注以及命名实体识别，都可以转化为序列标注问题。

序列标注与中文分词

考虑一个字符序列(字符串) x，想象切词器真的是在拿刀切割字符串，如此，中文分词转化为标注集{切，过}的序列标注问题。

分词标注集并非只有一种，为了捕捉汉字分别作为词语收尾(Begin、End)、词中(Middle)以及单字成词(Single)时不同的成词概率，人们提出了{B,M,E,S}这种最流行的标注集。

序列标注与词性标注

词性标注任务是一个天然的序列标注问题：x 是单词序列，y 是相应的词性序列。需要综合考虑前后的单词与词性才能决定当前单词的词性。

序列标注与命名实体识别

所谓命名实体，指的是现实存在的实体，比如人名、地名和机构名，命名实体是 OOV 的主要组成部分。可以通过将命名实体类别附着到BMES标签来达到目的。比如，构成地名的单词标注为“B/M/E/S-地名”，以此类推。对于那些不构成命名实体的单词，则统-标注为O ( Outside)。

隐马尔可夫模型

在所有“序列标注”模型中，隐马尔可夫模型( Hidden Markov Model, HMM)是最基础的一种。描述两个时序序列联合分布 p(x,y) 的概率模型:

x 序列外界可见(外界指的是观测者)，称为观测序列(obsevation sequence);y 序列外界不可见，称为状态序列(state sequence)。

隐马尔可夫模型之所以称为“马尔可夫模型”，”是因为它满足马尔可夫假设。

马尔可夫假设：每个事件的发生概率只取决于前一个事件。

马尔可夫链：将满足马尔可夫假设的连续多个事件串联起来，就构成了马尔可夫链。

观测 x 为单词，状态 y 为词性。

当前状态 Yt 仅仅依赖于前一个状态 Yt-1任意时刻的观测 x 只依赖于该时刻的状态 Yt

状态与观测之间的依赖关系确定之后，隐马尔可夫模型利用三个要素来模拟时序序列的发生过程----即初始状态概率向量、状态转移概率矩阵和发射概率矩阵。

初始状态概率向量

第一个状态 Y1 称为初始状态，假设 y 有 N 种可能的取值，那么 Y1 就是一个独立的离散型随机变量，由 P(y1 | π) 描述。其中

是概率分布的参数向量，称为初始状态概率向量。给定 π ，初始状态 Y1 的取值分布就确定了.比如采用{B,M,E,S}标注集时概率如下：

那么此时隐马尔可夫模型的初始状态概率向量为 π=[0.7，0，0，0.3].

此概念怎么得出来?
当然也是经过大量的文本分析出来的
即，句子第一个词是单字的可能性要小一些

状态转移矩阵

Yt 如何转移到 Yt+1 呢？根据马尔可夫假设，t+1 时的状态仅仅取决于 t 时的状态，既然一共有 N 种状态，那么从状态 Si 到状态 Sj 的概率就构成了一个 N*N 的方阵，称为状态转移矩阵 A：

其中下标 i、j 分别表示状态的第 i、j 种取值。假设昨天今天天气取决于昨天的天气，得出矩矩阵 A如下

把其放在中文分词中

标签 B 的后面不可能是 S，于是就有 P(Yt+1 = S | Yt = B) = 0。词性标注中的“形容词->名词”“副词->动词”也可通过状态转移概率来模拟这些概率分布参数不需要手动设置，而是通过语料库上的统计自动学习。

发射概率矩阵

有了状态 Yt 之后，如何确定观测 Xt 的概率分布呢？当前观测 Xt 仅仅取决于当前状态 Yt。也就是说，给定每种 y，x 都是一个独立的离散型随机变量，其参数对应一个向量。假设观测 x 一共有 M 种可能的取值，则 x 的概率分布参数向量维度为 M。由于 y 共有 N 种，所以这些参数向量构成了 N*M 的矩阵，称为发射概率矩阵B。

其中，第 i 行 j 列的元素下标 i 和 j 分别代表观测和状态的第 i 种和第 j 种取值。再以天气为例子，民间传说告诉我们水藻的状态（词）与天气状态（词性）有一定的概率关系。即观察的状态（水藻的状态）和隐藏的状态（天气的状态）。如何不通过直接观察天气的情况下，来预测天气？以天气系统（晴天、多云、雨天）和观察到4个等级的海藻湿润情况（干、稍干、潮湿、湿润）构造矩阵B。

把其放在中文分词中，可以算出当前词对应不同词性的概率分布。矩阵B也可以通过语料库上的统计自动学习。

隐马尔可夫模型应用

一个隐马尔科夫模型是一个三元组（pi, A, B）。

一旦一个系统可以作为HMM被描述，就可以用来解决三个基本问题。

其中前两个是模式识别的问题：

给定HMM求一个观察序列的概率（评估）；搜索最有可能生成一个观察序列的隐藏状态序列（解码）。

第三个问题是:

给定观察序列生成一个HMM（学习）。

给定HMM求一个观察序列的概率

给定一个天气及与它密切相关的海藻湿度状态的隐马尔科夫模型(HMM)，即（pi, A, B)已知的情况下，我们想找到观察序列的概率。假设连续3天海藻湿度的观察结果是（干燥、湿润、湿透），三天的天气情况如何。对于观察序列以及隐藏的状态，可以将其视为网格：

可以看出，一种计算观察序列概率的方法是找到每一个可能的隐藏状态，并且将这些隐藏状态下的观察序列概率相加。对于上面那个（天气）例子，将有3^3 = 27种不同的天气序列可能性，因此，观察序列的概率是：

Pr(dry,damp,soggy∣HMM)=Pr(dry,damp,soggy∣sunny,sunny,sunny)+Pr(dry,damp,soggy∣sunny,sunny,cloudy)+Pr(dry,damp,soggy∣sunny,sunny,rainy)+....Pr(dry,damp,soggy∣rainy,rainy,rainy)Pr(dry,damp,soggy | HMM) = Pr(dry,damp,soggy | sunny,sunny,sunny) + Pr(dry,damp,soggy | sunny,sunny ,cloudy) + Pr(dry,damp,soggy | sunny,sunny ,rainy) + . . . . Pr(dry,damp,soggy | rainy,rainy ,rainy) Pr(dry,damp,soggy∣HMM)=Pr(dry,damp,soggy∣sunny,sunny,sunny)+Pr(dry,damp,soggy∣sunny,sunny,cloudy)+Pr(dry,damp,soggy∣sunny,sunny,rainy)+....Pr(dry,damp,soggy∣rainy,rainy,rainy)

用这种方式计算观察序列概率极为昂贵，特别对于大的模型或较长的序列，因此我们可以利用这些概率的时间不变性来减少问题的复杂度，前向算法