未分类 – 有道技术沙龙博客 - 分享有道人的技术思考

本文主要是分享在NLPCC2018会议语法错误修正任务中有道AI团队的相关工作和方法，我们在该任务中取得了综合指标第一名的结果。该方法对应论文已被NLPCC会议收录，论文题目为：《Youdao’s Winning Solution to the NLPCC-2018 Task 2 Challenge: A Neural Machine Translation Approach to Chinese Grammatical Error Correction》

背景篇

NLPCC的全称为“CCF国际自然语言处理与中文计算会议”，英文为“Natural Language Processing and Chinese Computing”，是中国首个NLP领域的国际会议，由中国计算机学会（CCF）主办，至今已经举办了七届。在今年的竞赛单元中，首次增加了中文语法错误修正任务（Shared Task 2: Grammatical Error Correction）。该项任务的目标是：检测并修正由非中文母语者书写的中文句子中的语法错误[1]。可以认为该项任务的输入是一句可能含有语法错误的中文句子，输出是一句经过修正后的中文句子。作为一个比赛任务，这个工作更关注算法的效果，即结果的正确性，而不太考虑处理速度、资源占用等应用落地的问题。

数据篇

比赛方要求参赛者主要使用主办方提供的数据进行模型算法的训练和调试，在比赛截止前一周发布测试集原文，参赛者使用算法生成指定格式的自动批改结果以后提交结果。主办方给出的训练数据来源于一个语言学习网站，该网站提供了一个开放平台让对应语言的母语者可以自由地对平台上语言学习者写的作文进行语法修正。训练数据共有71万条记录，每一条记录包含一个可能含有语法错误的句子和零到多句对应句子修正结果。如果是零句修正结果，则可以认为这句话是不需要修正的；如果是多句修正结果，可以认为有多种修改方法。在一个传统的自然语言处理任务中，训练数据的收集和清洗往往会占到整个策略工作的50%甚至70%的时间，数据预处理的策略也会对后续算法的选择和效果有非常大的影响。通过对训练语料的分析，我们最终使用的策略是：将训练语料中每条记录拆成多个错误到正确的语句对，如果某条记录没有修正结果，则生成一个正确到正确的语句对。经过上述处理后，我们最终获得了122万条训练语料，并且将其中的3000句预留作为调试用的开发集，不参与到训练当中。原始训练数据的对应修正结果分布及样例分别如图表 1和图表 2所示。

David

特殊字符的转义（escaping）对于网页安全和用户体验至关重要，由于在 HTML 的不同位置，需要对不同的字符进行不同的转义，各种框架/脚本语言提供了若干个不同的函数，但是，这里要介绍的是 Go 的自带 Web 框架，它能够识别 HTML，自动的选择转义含糊进行正确的转义。

Go 语言是 Google 发起的开源项目，现在已经有大量的外部人员参与到开发当中，其中不乏中国的程序员。由于是一门新兴的语言，因此设计不少之前编程语言的经验与教训。为了适应当前开发的需要，Go 自带了 Web 框架：template。

template 的一个最大的特点就是会解析模板中的 HTML 语法，从而知道所要替换的变量在网页中的位置，从而正确的进行转义，下面看一段例子程序（边边角角省掉了，template 需使用 “html/template”）：

t, _ := template.New("foo").Parse(  
  `<a title="{{.}}" href="http://example.com/{{.}}/hello?q={{.}}">{{.}}</a>` +
  `<script>var s = '#Hello? I\x27m David='</script>`)  
t.ExecuteTemplate(os.Stdout, "foo", "#Hello? I'm David=")