NLP中几点Trick-CFANZ编程社区

有时候魔改模型或者各种改损失函数等，都收效甚微，不如从数据出发、从bad case出发。
阅读了https://blog.csdn.net/herosunly/category_9393702.html总结一些以后可以用的trick。
1、NER任务时BIOE标注可能或比BIO标注更好一点，因为增加了更多的特征。
2、在我们使用Bert的时候看数据集是否有些生僻字在bert的词表中没有。
3、假设文本提取需要提取的种类很多or数据不平衡，可以用几个不同的模型进行分别提取。
4、错别字纠正或者用拼音替换。
5、Roberta large或许好一些