训练大规模语音数据集后的结果分析报告-CFANZ编程社区

训练语音识别后的结果分析，首先经过人工观测预测结果，很多的错来自同音不同字。个人分析原因就是训练集中该意思的词出现的多少会影响，输出的结果，比如ABCD 其中BC出现的次数比较少而和其同音不同意思的词出现的非常多虽然这个同音词word 的前后不是A和D 但是也会最先预测出这个词而不是BC 故而要解决这个问题就要增加该句话的出现次数而不是单独的增加这个词语数据的出现次数，其实这就相当于你的语感是一样的其实就是出现的次数导致的。

但是，同音不同意思的词语对于中文来说肯定不止一个，所以要均衡添加就要将数据集合进行同音词的句子全部的找出来进行同样的出现次数相同处理。可以采取语音变声加噪声，（也可以采取逐一mask这样有多少序列就有多少条本句内容，这也是bert为啥能结合上下文的一个原因）等一系列操作来增多同音不同意思的数量。这样的话在相同的音的时候，神经网络就不会采取词频多的先预测。而是根据上下文来判断。

其实这也说明了我的神经网络不是直接根据上下文去推断的，更加的依赖于整个数据集总结出来的特征，而不是每句输入特征来判断。这或者是目前神经网络一个巨大问题，就是解决问题的优先级不是从当前输入本身去推理，整个数据集输入特征去辅助。而是这个数据集输入的特征作为统一规则和标准来覆盖和压制每个个体。目前来看只有过拟合才会尊重个体数据。

总结：数据量大的同时也要均衡每个词甚至是每个字出现的次数。

除了上面的数据结构的方式，如何能从神经网络本身解决这个问题才是一劳永逸的方法，毕竟平衡那些数据会增算力消耗

不经济（像bert那样的变相增加数据数量，实在是不可取）

这样我们就需要让网络以当前输入为主要分析对象

网络么有学习到这个词和这个字是只有这句话才会使用。

如何不通过数据结构或者是增加数据只改变编码或者是网络结构来告诉网络

要有一层是表达这句话彼此固定性的关系。mask层，代替数据结构上的mask。

使用卷积按照序列方向一维度卷积卷积核大小从1到序列长度或者是一定长度。

将这么多层cat到一起输入到fc层 cat到主网络。这样有可能解决数据量的问题

但是同时也增加了层数消耗算力看来要守恒啊数据量和网络只能省一个

但是如果数据量少的话可采取加mask层

其实可能还有一点原因也能证明为什么词频要相同，这是是一个分类问题故而要也就是各个类别之间要均衡