上篇文章:【Pytorch Lightning】基于Pytorch Lighting和TextCNN的中文文本情感分析模型实现 介绍了基于textcnn模型效果。而基于Bert的效果有将如何呢?本文就介绍如何使用Bert构建一个中文文本情感分类模型。
技术选型
编程包
python 3.7
pytorch 1.10
pytorch_lightning 1.5
transformers 4.7.0
本文选取的预训练模型是:roberta-wwm-ext
模型选择
Bert 微调。
数据获取
测试的数据来自于开源项目:bigboNed3/chinese_text_cnn
程序书写
数据加载模块
数据加载模块主要使用pytorch_lightning中的LightningDataModule,以及pytorch中的DataLoader, Dataset去完成, 由于BERT预训练有自己确定的分词方法和词表,数据的处理需要处理成bert输入的格式。
几个特殊字符:“[CLS]、[SEP]、[PAD]、[UNK]”以及其对应bert字典中的id可以通过下面的方式查看。
from tr