背景

CSC很重要；
任务存在特殊性，与MT等生成式不同，输入与输出大部分相同；
因此生成策略如下：

copy输入
从混淆集选择（相比词表减少搜索空间）

主要方法

seq2seq架构；
架构图

encoder

采用一个双向LSTM进行编码
$h_j^s=BiLSTM(h_{i-1}^s,e_i^s)$

decoder

LSTM得到一个特征表示 $h_j^t$
$h_j^t=LSTM(h_{j-1}^t,e_{j-1}^t)$
与encoder隐层做attention机制得到 ${h_j^t}'$
$\begin{aligned} &u_i=v^Ttanh(W_1h_j^t+W_2h_i^s)\\ &\alpha_i=softmax(u_i)\\ &{h_j^t}'=\sum_{i=0}^n{a_ih_i^s} \end{aligned}$
将 $h_j^t$ 与 ${h_j^t}'$ 拼接整合得到 $C_j$ 用于计算：
$C_j=tanh(W(h_j^t;{h_j^t}'))$

该token是否有语法错误
若有错，从混淆集中选择改正后的token

首先判断该token是否有错：

计算 $L_j$ ，其中 $Loc_j$ 作为onehot编码该token的位置信息
$L_j=softmax(W_i[W_gC_j;Loc_j])$
训练阶段损失函数为：
$Loss_l=\sum_i^m-\log L_j[L_j^{loc}]$
其中
$L_j^{loc}=\begin{cases} max(z)&if \exist z, s.t. c_j^t=X[z]\\ n+1&otherwise\\ \end{cases}$