浅谈汉语未登录词的词义预测

机器学习 3775 Views

大家好,“黑龙江大学自然语言实验室”,在这里,我们会将我们最近学习的知识告诉大家,带领大家共同学习论文、算法与工具,与大家共同讨论。这个平台将成为大家了解科研,了解自然语言处理的一个很好的途径。希望大家多多提些建议与意见,达到我们互相学习、共同进步的目的。

各位好,本人最近在学习汉语未登录词的词义预测,现在将与大家分享本人读过的一篇论文 Exploring multiple features for sense prediction of Chinese unknown words。

1.关于未登录词

未登录词(OOV)是指词典中未收录的词(out-of-vocabulary),包括人名、地名、企业机构名、书名、电影名、各领域的专业术语及一些随着社会的发展而新出现的词语等等。

例如,钓鱼岛(地名) 、家乐福(机构名)、大长今(电视名)、微博(新词)

2.问题描述

给定含有n个词语的汉语句子S=w1w2…wnn>=1,其中wi1<=i<=n)是未登录词。从概率角度考虑,词义消歧的目的是找到一个词义标记序列T=t1t2…tn,(其中,tiwi的词义),使得概率P(T|W)最大。

3.汉语未登录词分布特点

4.词义消歧方法