NiuTrans / MTBook

《机器翻译:基础与模型》肖桐 朱靖波 著 - Machine Translation: Foundations and Models
https://opensource.niutrans.com/mtbook/index.html
2.73k stars 760 forks source link
deep-learning machine-learning machine-translation natural-language-processing neural-machine-translation statistical-machine-translation tex

机器翻译:基础与模型

Machine Translation: Foundations and Models

作者:肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)

单位:东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)

顾问:姚天顺 (Tianshun Yao) 王宝库 (Baoku Wang)

网站:https://niutrans.github.io/MTBook/ or https://opensource.niutrans.com/mtbook/homepage.html

GitHub:https://github.com/NiuTrans/MTBook

百度网盘: https://pan.baidu.com/s/1a0OG5Qnb9WGlitPsvbtx6A 提取码:MTBK

纸质版: 京东 当当

豆瓣评分: 豆瓣

这是一个教程,目的是对机器翻译的基础知识和建模方法进行较为系统的介绍,并在此基础上对机器翻译的一些前沿技术展开讨论(前身为《机器翻译:统计建模与深度学习方法》)。其内容被编纂成书,可以供计算机、人工智能相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex编写,所有源代码均已开放。

本书共分为四个部分,每部分由若干章节组成,章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各部分的主要关系如下(如果无法显示图片可以稍后再试):

完整PDF版

本书的完整pdf版本:mt-book.pdf

章节内容(Web版)

封面、前言和目录

Part I 机器翻译基础

  1. 机器翻译简介

  2. 统计语言建模基础

  3. 词法分析和语法分析基础

  4. 翻译质量评价

Part II 统计机器翻译

  1. 基于词的机器翻译建模

  2. 基于扭曲度和繁衍率的模型

  3. 基于短语的模型

  4. 基于句法的模型

Part III 神经机器翻译

  1. 人工神经网络和神经语言建模

  2. 基于循环神经网络的模型

  3. 基于卷积神经网络的模型

  4. 基于自注意力的模型

Part IV 机器翻译前沿

  1. 神经机器翻译模型训练

  2. 神经机器翻译模型推断

  3. 神经机器翻译结构优化

  4. 低资源神经机器翻译

  5. 多模态、多层次机器翻译

  6. 机器翻译应用技术

随笔

Part V 附录

参考文献

索引

源代码

本书的tex源代码地址为:https://github.com/NiuTrans/MTBook/tree/master/src

编译前需要安装MikTeX,并在MikTeX Console中下载并更新编译所需宏包。之后,编译src目录下的mt-book-xelatex.tex即可得到pdf文件,编译指令如下:

xelatex mt-book-xelatex
biber mt-book-xelatex
makeindex mt-book-xelatex
xelatex mt-book-xelatex
xelatex mt-book-xelatex

在编译中可能会遇到内存不足的问题,可以通过以下方式解决:

Windows下使用MiKTeX或CTEX

  1. 运行cmd打开命令行窗口,输入:initexmf --edit-config-file=xelatex

  2. 在弹出的文件中输入以下内容:main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000

  3. 在cmd窗口输入: initexmf --dump=xelatex 更新latex格式文件

TeXLive & MacTeX(Linux,OS X等)

  1. 打开texmf.cnf文件,更改其内容为:main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000

  2. 调用texhash更新latex格式文件

注1:编译tex文件会依赖一些宏包。如果有任何编译错误,建议将宏包更新至最新版本。

注2:部分系统可能需要安装中文字体,在网站https://www.wfonts.com/搜索字体,如:SimSun(宋体)和Microsoft YaHei(微软雅黑),安装字体即可。

引用

肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.

bib文件

@book{xiao-zhu:2021mtbook,
      title = {机器翻译:基础与模型},
      publisher = {电子工业出版社},
      year = {2021},
      author = {肖桐 and 朱靖波},
      address = {北京},
      isbn = {9787121335198}
}

课件

本教程部分章节的课件已开放(我们对部分章节进行了合并,课件的顺序与书中章节的顺序并不完全一致)。pdf版本的地址为https://github.com/NiuTrans/MTBook/tree/master/slides

开源协议

本书的开源内容基于The Creative Commons Attribution-NonCommercial 4.0 Unported License(link

更新历史

2024年9月14日 勘误与部分内容修正 V0.33

2021年8月25日 勘误与部分内容修正 V0.32

2021年2月1日 修复大量的文字错误 V0.31

2021年2月1日 《机器翻译:基础与模型》,完整版 V0.3

2020年12月1日 《机器翻译:基础与模型》(更名后),基础篇 V0.2

2020年5月21日 《机器翻译:统计建模与深度学习方法》,第一版 V0.1

致谢

感谢为本书做出贡献的小牛团队(部分)成员

曹润柘、曾信、孟霞、单韦乔、周涛、周书含、许诺、李北、许晨、林野、李垠桥、王子扬、刘辉、张裕浩、冯凯、罗应峰、魏冰浩、王屹超、李炎洋、胡驰、姜雨帆、田丰宁、刘继强、张哲旸、陈贺轩、牛蕊、吴钰璋、甘阳、杜权、张春良、王会珍、张俐、马安香、胡明涵

联系我们

有任何问题请联系xiaotong [at] mail.neu.edu.cn (肖桐) 或 614517171 [at] qq.com(吴钰璋)