对零回指缩略语的识别与还原技术初探

机器学习 2800 Views

黑龙江大学自然语言实验室”,在这里,我们会将我们最近学习的知识告诉大家,带领大家共同学习论文、算法与工具,与大家共同讨论。这个平台将成为大家了解科研,了解自然语言处理的一个很好的途径。希望大家多多提些建议与意见,达到我们互相学习、共同进步的目的。我们从缩略语同其原语言的关系角度将语料中的缩略语分为零回指的和有回指的。所谓回指是如下一种语言现象:在文章中用一个简略的表达式来指代同一篇章中另一个表达式所表示的意义,前一表达式称为回指语缩略语,后一表达式称为先行语原语言

那么,零回指的缩略语是指篇章中没有出现先行语的缩略语;有回指的缩略语指篇章中有先行语出现的缩略语。本文所述为对零回指的缩略语的识别以及其对应原语言的还原。

在本文中,缩略语的构词规则有以下4种类型:

抽取法

哈尔滨工业大学—-哈工大

合并法

整顿财经纪律、反对铺张浪费、反对官僚主义—-一整两反

同素归纳法

节日、假日—-节假日

外来词法

网际协议—-IP

【缩略语的识别】

本文针对以不同构成形式的缩略语采取了不同的识别方法:

静态匹配的方法:合并法,外来词法;

建立规则库:抽取法、同素归纳法

缩略语的识别是在初分词的基础上进行的。以缩略语的构成形式为原则,结合新闻语料中缩略语的特点建立规则库。规则库中的规则分为两类:确定规则删除规则

规则库的建立:首先通过对真实语料中出现的许多正确和错误的识别实例进行研究,归纳出部分规则;然后通过基于变换的方法对规则进行自动的获取。

以下是本实验所用到的部分规则:

设字串WfSaWb1Wb2

Sa=C0C1⋯Ci⋯Cn为候选缩略语字串;

Wf为候选缩略语字串前的词;

Wb1为候选缩略语字串后的第一个词;

Wb2为候选缩略语字串后的第二个词;

S,S1,S2是汉字串。

定义下列集合:

CoordinationSet:表并列关系的词或标点符号的集合。

如:“”、“”、“”等。

OtherWord:能表示排序的用词集合。

如:“”、“”、等能够表示排序的词。

FirstwordSet:表示候选缩略语字串的首字的集合。

如:“”、“”以及“”,“”等序数词。

LastwordSet1:表示候选缩略语字串的尾字的集合。

如:“”、“”、“”等。

FConcurrent word:常与缩略语共同出现且出现于缩略语前的词的集合。

如:“国家”、“中央”等。

BConcurrentWordSet1:常与缩略语共同出现且仅出现在缩略语后的词的集合。

如:“委员”、“主任”等。

BConcurrentWordSet2:常与缩略语共同出现且仅出现在缩略语后的词的集合。

如:“关系”、“友好”等。

DelWordSet:表示常与BConcurrentWord集合中的词共同出现的字的集合。

如“的”、“是”、“副”等。

定义下列谓词或函数:

Is abbr(Sa):Sa是缩略语;

Coordinate(S1, S2): S1, S2有并列关系。

IsDel(S):S被置为删除标记。

确定规则:(WfSaWb1Wb2,Sa=C0C1⋯Ci⋯Cn

规则1

((Wf∈FConcurrent word)||(Wb1∈BConcurrentwordSet1))&& (Cn∈LastwordSet)->Is abbr(sa)

规则2

IF(Wb1∈BConcurrent wordSet2) THEN Is abbr(Ci)

规则3

C0∈FirstwordSet&& Cn∈LastwordSet)->Is abbr(Sa)

否定规则:(WfSaWb1Wb2 Sa=C0C1⋯Ci⋯Cn

规则1

(Wb1∈BConcurrent wordSet2) && (Cn ∈DelWordSet) -> IsDel(Sa)

规则2

(IsDel(sa)) && (Coordinate(sa', sa) -> IsDel(sa')

【缩略语的还原】

互信息的引入:

I(x,y)为随机变量xy的互信息,则I(x,y) = log2P(x,y)/P(x)*P(y)式中P(x)P(y)分别是x y 独立出现的概率,P(x,y)xy同现的概率。

I(x,y)>>0表示x和y的关联程度高,I(x,y)=0表示x和y关联程度低,I(x,y)<<0表示x和y互补分布,不存在关联关系。

我们需要计算每一个候选缩略语和原语言对的概率P(Abbreviation, Source),来衡量该字词对有效的程度。

P(abbreviation,Source)=I(Source)*P(Abbreviation|Source)

其中:P是匹配概率,I是共现概率。

共现概率

在公式中,共现概率表达的是候选原语言的有效程度。

为了使公式更加直观,我们使用Abbreviation=“农大”,Source=“农业大学”为例。

首先,我们根据词典得到下列对应

这样就得到“农大”的候选原语言集{ 农民大会、农民大学、农业大会、农业大学、农村大会、农村大学}。

根据互信息公式分别计算I(农业,大学)、I(农民,大学)、I(农村,大学)、I(农业,大会)、I(农民,大会)、I(农村,大会)。

下面以I(农村,大学)为例说明共现概率的计算。

2P(农村大学)表示“农村大学”在语料中共同出现的概率;

P(农村)表示“农村”在语料中共同的概率;

P(大学)表示“大学”在语料中出现的概率。

匹配概率

在公式中的匹配概率是根据词典提供的概率值计算而成的。

P(Abbreviation| Source)是缩略语每个单字所对应词的概率的乘积。

如上例同样我们也以P(农大| 农村大学)为例。

P(农大| 农村大学)=P(农|农村)* P(大|大学)

通过计算我们能够得到每个候选原语言的匹配概率值。通过对每一个候选原语言计算P(Abbreviation,Source)的值,设定阈值,在实验中阈值初步设定为0.7,取概率值高于阈值候选原语为缩略语对应的原语言。

这就是小钰对这篇文章的解读,欢迎大家批评指正,我们下周不见不散!

Q:如何查往期内容

hlju_nlp 或扫描如下二维码,即可关注“黑龙江大学自然语言处理实验室”:

如未说明则本站原创,转载请注明出处:NULL » 对零回指缩略语的识别与还原技术初探