【机器翻译】Moses系统的搭建过程

机器学习 2710 Views

大家好,欢迎大家关注“黑龙江大学自然语言实验室”,在这里,我们会将我们最近学习的知识告诉大家,带领大家共同学习论文、算法与工具,与大家共同讨论。这个平台将成为大家了解科研,了解自然语言处理的一个很好的途径。希望大家多多提些建议与意见,达到我们互相学习、共同进步的目的。

Moses是当今最著名的开源统计机器翻译系统。绝大多数的统计机器翻译技术是Moses中都有支持,比如基于短语的模型、基于句法的模型、各种解码方法、各种特征权重训练方法。其历史悠久(相对),技术全面,性能出色,适合做论文的baseline。

小编近日来在使用Moses构建翻译模型,过程中也参考了很多资料和讲解,下面小编将向大家介绍小编搭建Moses的方法。由于小编只需要训练翻译模型,故是在虚拟机上搭建的,采用Linux Mint发行版。

这里向大家推荐一种方便虚拟机与Windows系统交互的工具,首先开启Linux系统中的SSH,然后Windows端下载并安装putty,就可以通过putty中的SSH链接到Linux中的终端进行编译训练模型等操作,还可以使用winscp来完成Windows与Linux的文件互传工作。

下面开始具体说明Moses系统的搭建过程:

1. 安装 Boost 库:(基础库,用于组件的编译等)

sudo apt-get install libboost-all-dev

2. 安装GIZA++(对平行语料进行对齐)

tar xzvf giza-pp-v1.0.7.tar.gz

cd giza-pp

make

如果最后一步编译不通过就敲:

sudo apt-get install build-essential

编译完成后,将生成三个可执行文件:

giza-pp/GIZA++-v2/GIZA++

giza-pp/GIZA++-v2/snt2cooc.out

giza-pp/mkcls-v2/mkcls

记得在编译完之后将上面的三个文件拷到一个目录下,便于访问使用。

小编是直接将其放在/home/user/tools/gizapp文件夹下的。

3. 安装IRSTLM: (训练语言模型)

sudo apt-get install automake

sudo apt-get install libtool

到 http://sourceforge.net/projects/irstlm/files/ 下载IRSTLM

然后输入以下命令:

tar zxvf irstlm-5.80.03.tgz

cd irstlm-5.80.03/

./regenerate-makefiles.sh

./configure --prefix=/home/panda/irstlm-5.80.03

make

sudo make install

4. 安装Moses (训练翻译模型)

    sudo apt-get install git

    git clone git://github.com/moses-smt/mosesdecoder.git

    进入mosesdecoder目录,编译Moses,一条完整的简单命令如下,其中分别指定了irstlm和giza的位置

    ./bjam -j8 --with-irstlm=/home/panda/irstlm-5.80.03 --with-giza=/home/panda/giza-pp

    j8说明CPU是8核的,另外两个参数分别指定了IRSTLM和GIZA++的路径,耐心等待一段时间,会看到编译成功的提示。 至此,Moses系统就安装完成了。

    下周同一时间小编会为大家讲解Moses的使用方法,敬请期待 🙂

    一种句子的词向量表示方法”中具体细节的疑问

    A:想继续深入研究有关于句子词向量的同学,推荐看一下【基于深度学习的微博情感分析_梁军_柴玉梅_原慧斌_昝红英_刘铭】这篇文章,讲得还不错。论文链接:http://nlp.zzu.edu.cn/uploadfiles/downloadPaper/2014paper/基于深度学习的微博情感分析_梁军_柴玉梅_原慧斌_昝红英_刘铭.pdf

    Q:如何查往期内容

    A:给大家一个查hlju_nlp往期内容的方法,比如在搜狗微信搜索(weixin.sogou.com) 上输入【黑龙江大学自然语言处理实验室 分词】就能找到我们关于分词的相关内容。也可通过搜索公众号获取往期的所有图文消息。

    您可以查找公众号:hlju_nlp 或扫描如下二维码,即可关注“黑龙江大学自然语言处理实验室”:

    如未说明则本站原创,转载请注明出处:NULL » 【机器翻译】Moses系统的搭建过程