CMeKG代码解读-CFANZ编程社区

本文的核心内容是对CMeKG的python代码进行学习和解读，供大家讨论参考共同进步。

CMeKG（Chinese Medical Knowledge Graph）是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。

项目来源：中文医学知识图谱CMeKG2.0版发布-自然语言处理实验室北京大学计算语言学研究所、郑州大学自然语言处理实验室与鹏城实验室人工智能研究中心智慧医疗课题组联合发布中文医学知识图谱CMeKG2.0版http://cmekg.pcl.ac.cn/ 欢迎大家试用并提出宝贵意见！ CMeKG（Chinese Medical Knowledge Graph）是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源...http://www5.zzu.edu.cn/nlp/info/1018/1785.htm项目成果展示：

CMeKG中文医学知识图谱http://cmekg.pcl.ac.cn/项目源代码获取：

https://github.com/king-yyf/CMeKG_toolshttps://github.com/king-yyf/CMeKG_toolsmedical_re.py

首先是第一个类 config类

class config:
    batch_size = 32
    max_seq_len = 256
    num_p = 23
    learning_rate = 1e-5
    EPOCH = 2

    PATH_SCHEMA = "/Users/yangyf/workplace/model/medical_re/predicate.json"
    PATH_TRAIN = '/Users/yangyf/workplace/model/medical_re/train_data.json'
    PATH_BERT = "/Users/yangyf/workplace/model/medical_re/"
    PATH_MODEL = "/Users/yangyf/workplace/model/medical_re/model_re.pkl"
    PATH_SAVE = '/content/model_re.pkl'
    tokenizer = BertTokenizer.from_pretrained("/Users/yangyf/workplace/model/medical_re/" + 'vocab.txt')

    id2predicate = {}
    predicate2id = {}

此类中定义了部分基础变量，例如一个批的数据大小是32，最大字长是256等等。同时还定义了部分文件路径，在使用是需要根据自己电脑中文件的位置进行修改。

tokenizer = BerTokenizer.from_pretrained 是 transformers 当中的一个方法，该方法的工作流程是它会先判断 from_pretrained 函数的参数，如果是 PRETRAINED_MODEL_ARCHIVE_MAP 已有的，就会去cache里找；如果不是，就会判断它是不是一个路径，会在这个路径下找需要的文件，一个config文件和一个bin文件。

 PRETRAINED_MODEL_ARCHIVE_MAP = {
        'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased.tar.gz",
        'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased.tar.gz",
        'bert-base-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased.tar.gz",
        'bert-base-multilingual': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual.tar.gz",
        'bert-base-chinese': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz",
    }
"""
    Params:
    pretrained_model_name: either:
    - a str with the name of a pre-trained model to load selected in the list of:
    . `bert-base-uncased`
    . `bert-large-uncased`
    . `bert-base-cased`
    . `bert-base-multilingual`
    . `bert-base-chinese`
    - a path or url to a pretrained model archive containing:
    . `bert_config.json` a configuration file for the model
    . `pytorch_model.bin` a PyTorch dump of a BertForPreTraining instance
    *inputs, **kwargs: additional input for the specific Bert class
    (ex: num_labels for BertForSequenceClassification)
"""