基于语素的汉语未登录词的词义标注

机器学习 2068 Views

黑龙江大学自然语言实验室我们主要从词义候选构造词义标注两方面来介绍一下本文的方法。

词义候选构造:为汉语句子中未登录词的构词语素进行词义候选构造。

1.基于词法特征的方法

思想:将未登录词的前缀语素和后缀语素都作为词义构造的基本特征,并利用同位语素的思想为它们分别构造词义候选集

2.基于中心语素的特征选择方法

中心语素是指在构词过程中,对词义形成有较大影响的那部分语素。

以语素“学”为例,它作为后缀语素构词时通常作为中心语素,如“法学”、“经济学”的词义类均为学科;

思想:

①首先,通过在训练语料中对构成未登录词语素的统计计算,得到该语素作为中心语素的权值;

②其次,通过比较不同语素的权值确定该词的中心语素;

③最后,仅对中心语素进行词义候选构造,并将消歧结果作为未登录词的最终词义。

其中,中心语素权重weight(wi)(i = B,E)的计算公式如下:

通过如下公式计算,

词义标注:给未登录词的构词语素确定唯一的词义标记,进而实现对给定句子中未登录词的词义标注。

  1. 朴素贝叶斯模型

朴素贝叶斯模型(Naive-Bayes)是在贝叶斯理论的基础上,通过计算选定特征下条件概率的方法,得出符合上下文语境的最大可能词义。基本原理描述如下:

设词Wi含有n个词义,分别是s1(wi),s2(wi) ,…,sn(wi) (n≥1);根据贝叶斯公式,词wi的词义sj(wi) (1≤j≤n)在特定上下文语境C下的条件概率如下式所示:

假设依据上下文语境C选取k个特征分别为f1,f2,…,fk(k≥1)。根据朴素贝叶斯原理的基本假设可知,所选取的k个特征之间相互独立。因此,可将公式(1)进一步转化为如下形式:

利用朴素贝叶斯模型实现汉语词义标注任务实际是求k个特征下最大条件概率词义,即:

通过公式(3)可以看出,朴素贝叶斯模型将原本求特定语境下某个词wi的词义问题转化为词的词义概率问题和所选特征在特定词义下的概率问题,而这两个概率值我们可以用最大似然估计方法得到,公式分别为(4)和(5)所示。

素贝叶斯模型可以利用最大似然估计的方法,求出任意词典词在指定特征下的最大条件概率词义。但是对于未登录词来说,潜在的候选词义事先没有定义。因此,无法直接利用朴素贝叶斯模型对未登录词的词义进行预测。基于以上原因,本文利用基于语素的朴素贝叶斯模型解决未登录词词义预测问题。

2. 基于语素的朴素贝叶斯模型

如果词表词和未登录词含有相同语素且语素的构词位置相同,则称二者含有同位语素

设未登录词wi由若干语素构成,mi(i=I,O,B,E)是其中的一个构词语素。在训练语料中,与未登录词wi含有同位语素mi的词表词词义可能有n个,可分别表示为:s1(mi),s2(mi) ,…,sn(mi) (n≥1)´则根据朴素贝叶斯的基本原理,可以求得在选定的k个特征下最大的条件概率词义如式(6):

由最大似然估计的方法可得:

其中,

Count(mi)—训练语料中含有未登录词同位语素mi的词总数;

Count(sj(mi))—训练语料中含有未登录词同位语素mi的词义总数;

Count(fl,sj(mi))—训练语料中含未登录词同位语素mi的词义与特征fl的共现次数。

Q:如何查往期内容

hlju_nlp往期内容的方法,比如在搜狗微信搜索(weixin.sogou.com) 上输入【黑龙江大学自然语言处理实验室 分词】就能找到我们关于分词的相关内容。也可通过搜索公众号获取往期的所有图文消息。

hlju_nlp 或扫描如下二维码,即可关注“黑龙江大学自然语言处理实验室”:

如未说明则本站原创,转载请注明出处:NULL » 基于语素的汉语未登录词的词义标注