【深度学习】浅谈Word Embeddings

机器学习 4186 Views

大家好,“黑龙江大学自然语言实验室”微信平台经过改版,终于又与大家见面了。已经从以往只是单纯的转载演变成了原创的内容,加强了互动环节,在这里,我们会将我们最近学习的知识告诉大家,带领大家共同学习论文、算法与工具,与大家共同讨论。这个平台将成为大家了解科研,了解自然语言处理的一个很好的途径。希望大家多多提些建议与意见,达到我们互相学习、共同进步的目的。今天小叶先来接起第一棒,希望大家不吝赐教、不要见笑哦~

最近,小叶在研究Word Embeddings,读了一些关于其的论文,但是今天小叶先给大家说说我对它的一些初步了解,以后我再与大家就一些论文进行讨论。

其实Word Embeddings是Distributed Representation的一个简称,又称为“词向量”。引入词向量目的是要将自然语言数学化,从而交给机器学习中的算法来处理。

之前有一种简单的词向量的方式——one-hot representation,其就是用一个很长的0、1字串表示一个词,字串的长度即为词典的大小,1的位置表示该词在词典中的位置,因此,一行字符串向量中只有一个位置是1,其余位置全部为0。而这样会产生大量无用的维数,形成维数灾难,同时词与词之间的关联无法很好的体现出来,因此,Distributed Representation被提出以克服one-hot representation的缺点。

对于Word Embeddings,即Distributed Representation,小叶以为其实就是用一个多维空间向量表示一个词。比如说我们都熟悉的二维空间向量,我们用(x,y)表示二维空间向量的一个点,而对于多维空间我们就是(黑龙江大学自然语言处理实验室”获取往期的所有图文消息

您可以查找公众号:hlju_nlp 或扫描如下二维码,即可关注“黑龙江大学自然语言处理实验室”:

如未说明则本站原创,转载请注明出处:NULL » 【深度学习】浅谈Word Embeddings