0
点赞
收藏
分享

微信扫一扫

NLP专业术语及工具【hanlp、jiolp】

343d85639154 2024-07-24 阅读 17

NLP专业术语

缩写术语中文描述
tokTokenization分词将文本切分成独立的语义单位,通常是单词或标点符号等。
posPart-of-Speech Tagging词性标注每个单词标注语法类别,例如名词、动词、形容词等。
nerNamed Entiy Recognition命名实体识别识别文本中的专有名词,如人名、地名、机构名等。
depDependency Parsing依存句法分析分析单词之间的语法依赖关系,确定它们在句子中的功能和关系。
conConsituency Parsing成分句法分析分析句子在语法上的递归构成,通常表示为树形结构。
srlSemantic Role Labeling语义角色标注分析句子的谓词论元结构,即识别谓词和其对应的论元(如施事者、受事者等)。
sdpSemantic Dependency Parsing语义依存分析分析句子中单词之间的语义关系,通常表示为有向无环图。
amrAbstract Meaning Representation抽象意义表示将句子的意义表示为以概念为节点的单源有向无环图,用于跨语言的语义表示。
lemLemmatization词形还原将单词转换为其基本形式或词根形式的过程。
例如,将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性,使得文本处理更加一致和高效。
feaFeature特征通常指单词或短语的属性或属性集合
- 形态学特征:如词性(名词、动词、形容词等)、时态(过去时、现在时、将来时)、格(主格、宾格等)、数(单数、复数)等。
- 语义特征:如词义、词义关系(同义、反义、上下义等)。
- 句法特征:如依存关系、句法角色(主语、宾语、定语等)。
- 文本特征:如词频、TF-IDF(词频-逆文档频率)等,这些特征常用于文本分类、文本聚类等任务。
stsSemantic Textual Similarity语义文本相似性从语义上比较2段文本的相似性
word2vecWord2Vec是一系列模型架构和优化,可用于从大型未标记数据集中学习词嵌入。在本文中,它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。
word2vec.most_similar(‘上海’) – 广州、北京、上海
word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷
gloveGlobal Vectors for Word Representation一种用于生成词嵌入(word embeddings)的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系,并将这些关系表示为向量空间中的点。
FastText由Facebook AI Research团队在2016年提出的一个词嵌入算法,它旨在提高文本分类和词向量学习的速度和效率

hanlp

hanlp 2.x功能

功能RESTful多任务单任务模型标注标准
分词教程教程教程tok粗分、细分
词性标注教程教程教程posCTB、PKU、863
命名实体识别教程教程教程nerPKU、MSRA、OntoNotes
依存句法分析教程教程教程depSD、UD、PMT
成分句法分析教程教程教程conChinese Tree Bank
语义依存分析教程教程教程sdpCSDP
语义角色标注教程教程教程srlChinese Proposition Bank
抽象意义表示教程暂无教程amrCAMR
指代消解教程暂无暂无暂无OntoNotes
语义文本相似度教程暂无教程sts暂无
文本风格转换教程暂无暂无暂无暂无
关键词短语提取教程暂无暂无暂无暂无
抽取式自动摘要教程暂无暂无暂无暂无
生成式自动摘要教程暂无暂无暂无暂无
文本语法纠错教程暂无暂无暂无暂无
文本分类教程暂无暂无暂无暂无
情感分析教程暂无暂无暂无[-1,+1]
语种检测教程暂无教程暂无ISO 639-1编码

hanlp 1.x功能

  • 中文分词
    • HMM-Bigram(速度与精度最佳平衡;一百兆内存)
      • 最短路分词、N-最短路分词
    • 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)
      • 感知机分词、CRF分词
    • 词典分词(侧重速度,每秒数千万字符;省内存)
      • 极速词典分词
    • 所有分词器都支持:
      • 索引全切分模式
      • 用户自定义词典
      • 兼容繁体中文
      • 训练用户自己的领域模型
  • 词性标注
    • HMM词性标注(速度快)
    • 感知机词性标注、CRF词性标注(精度高)
  • 命名实体识别
    • 基于HMM角色标注的命名实体识别 (速度快)
      • 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
    • 基于线性模型的命名实体识别(精度高)
      • 感知机命名实体识别、CRF命名实体识别
  • 关键词提取
    • TextRank关键词提取
  • 自动摘要
    • TextRank自动摘要
  • 短语提取
    • 基于互信息和左右信息熵的短语提取
  • 拼音转换
    • 多音字、声母、韵母、声调
  • 简繁转换
    • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
  • 文本推荐
    • 语义推荐、拼音推荐、字词推荐
  • 依存句法分析
    • 基于神经网络的高性能依存句法分析器
    • 基于ArcEager转移系统的柱搜索依存句法分析器
  • 文本分类
    • 情感分析
  • 文本聚类
    • KMeans、Repeated Bisection、自动推断聚类数目k
  • word2vec
    • 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
    • 文档语义相似度计算
  • 语料库工具
    • 部分默认模型训练自小型语料库,鼓励用户自行训练。所有模块提供训练接口,语料可参考98年人民日报语料库。

JioNLP

JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。

功能函数描述星级
查找帮助help若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索
车牌号解析parse_motor_vehicle_licence_plate给定一个车牌号,对其进行解析
时间语义解析parse_time给定时间文本,解析其时间语义(时间戳、时长)等
关键短语抽取extract_keyphrase给定一篇文本,抽取其对应关键短语
抽取式文本摘要extract_summary给定一篇文本,抽取其对应文摘
停用词过滤remove_stopwords给定一个文本被分词后的词 list,去除其中的停用词
分句split_sentence对文本按标点分句
地址解析parse_location给定一个包含国内地址字符串,识别其中的省、市、县区、乡镇街道、村社等信息
电话号码归属地
运营商解析
phone_location
cell_phone_location
landline_phone_location
给定一个电话号码(手机号、座机号)字符串,识别其中的省、市、运营商
新闻地名识别recognize_location给定新闻文本,识别其中的国内省、市、县,国外国家、城市等信息
公历农历日期互转lunar2solar
solar2lunar
给定某公(农)历日期,将其转换为农(公)历
身份证号解析parse_id_card给定一个身份证号,识别对应的省、市、县、出生年月、
性别、校验码等信息
成语接龙idiom_solitaire成语接龙,即前一成语的尾字和后一成语的首字(读音)相同
色情数据过滤--
反动数据过滤--
体转tra2sim繁体转简体,支持逐字转最大匹配两种模式
体转sim2tra简体转繁体,支持逐字转最大匹配两种模式
汉字转拼音pinyin找出中文文本对应的汉语拼音,并可返回声母韵母声调
汉字转偏旁与字形char_radical找出中文文本对应的汉字字形结构信息,
包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、
四角编码(“河”31120)、汉字拆解(“河”水可)、
五笔编码(“河”ISKG)
金额数字转汉字money_num2char给定一条数字金额,返回其汉字大写结果
新词发现new_word_discovery给定一语料文本文件,统计其中高可能成词

参考

hanlp预训练模型

举报

相关推荐

0 条评论