深度学习、自然语言处理和表征方法

机器学习 2820 Views

数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】

简介

单隐层神经网络

单词嵌入(Word Embeddings)

判断5元组是否成立的模块网络(来自于Bottou (2011))

t-SNE对单词嵌入的可视化结果。左图:数字区间。右图:工作岗位区间。来源:Turianet al.(2010),全图在此

哪些词的嵌入离一个给定词最近?来自于Collobertet al.(2011)

来自于Mikolovet al.(2013a)

单词嵌入展示了一个更引人注目的属性:单词间的类比仿佛是被编码在了单词向量的区别中。比如,这个看来是个男-女区别向量:

W(‘‘woman”)−W(‘‘man”) ≃ W(‘‘aunt”)−W(‘‘uncle”)

W(‘‘woman”)−W(‘‘man”) ≃ W(‘‘queen”)−W(‘‘king”)

单词嵌入中的关系对。来自 Mikolovet al.(2013b).

共同表征

W和F学习完成任务A, G可以根据W来学习完成任务B

双语单词嵌入的t-SNE可视化图。绿色是中文,黄色是英文。来自(Socheret al.(2013a))

(来自Socheret al.(2013b))

(来自Socheret al.(2013b))

递归神经网络

学习单词嵌入的模块化网络(来自Bottou (2011))

(来自 Bottou (2011))

我们可以通过加入一个关联模块A来解决这个问题。这个关联模块可以将两个单词或词组的表征合并起来。

(来自Bottou (2011))

这样的模型通常被称作“递归神经网络”因为一个模块经常会使用另外一个同类型模块的输出。有时候它们也被称作“树形神经网络tree-structured neural networks”。

(来自 Socheret al.(2013c))

(来自 Bottou (2011))

词组表征的t-SNE的一小部分(来自Choet al.(2014))

批判

结论

致谢

  1. 当你有n个输入神经元时,构建所有可能的输入情况需要2^n个隐神经元。在实际操作中,通常不会这么严重。你可以采取能够包含不同输入的情况。你也可以采用重叠的情况,他们利用叠加的方式来在交集处获得正确的输入。

  2. 不仅是感知器网络才有普适性。多层感知器(sigmoid neurons)网络(及其他激发函数)也具有普适性:给予足够的隐节点,他们估算任何连续函数都可以得到不错的结果。因为你不能简单地孤立输入,所以想看明白这点是十分复杂的。

  3. 单词嵌入最初是由(Bengio et al, 2001; Bengio et al, 2003)开发的。那是2006年深度学习重构开始的前几年,那时神经网络被认为是过时的。而符号话的向量表示(distributed representations)的概念就更老了,比如(Hinton 1986)。

  4. 这篇开创性的文章:A Neural Probabilistic Language Model (Bengio, et al.2003)里包含了很多单词嵌入为何有力的解释。

  5. 之前也有对图像和标签联合分布建模的工作,但他们的观点和我们要描述的截然不同。

  6. 我十分清楚利用性别的外表特征可能是十分误导人的。来暗示诸如每个秃头的人都是男性或者每个有胸部的人都是女性并不是我的本意。只是这些是通常的情况而已,而它们可以用来很大程度上的调节我们的先验知识。

—————————————————

数盟网站:www.dataunion.org

数盟微博:@数盟社区

数盟微信:DataScientistUnion

数盟【大数据群】272089418

数盟【数据可视化群】 179287077

数盟【数据分析群】 110875722

—————————————————

点击阅读原文,更多精彩技术、资讯内容~

如未说明则本站原创,转载请注明出处:NULL » 深度学习、自然语言处理和表征方法