python 构建关键词库-CFANZ编程社区

Python构建关键词库

在自然语言处理（NLP）领域中，关键词库是一个重要的工具。它可以用于文本分类、信息提取、文本推荐等任务。本文将向您介绍使用Python构建关键词库的方法，并提供相应的代码示例。

关键词提取方法

关键词提取是从一段文本中提取出最能代表其主题的关键词的过程。在Python中，我们可以使用多种方法来实现关键词提取，下面是两种常用的方法：

1. 基于词频的提取方法

这种方法是最简单和常用的关键词提取方法之一。它根据词在文本中出现的频率来判断其重要性。常用的实现方式是使用词频统计算法，具体步骤如下：

将文本分词：使用分词工具（如jieba）将文本分割成一个个词语。
统计词频：统计每个词在文本中出现的频率。
根据词频排序：按照词频从高到低对词语进行排序。
提取关键词：选择排名靠前的词语作为关键词。

下面是一个使用基于词频的关键词提取方法的示例代码：

import jieba
from collections import Counter

def extract_keywords(text, topk=10):
    # 分词
    words = jieba.lcut(text)
    # 统计词频
    word_counts = Counter(words)
    # 按词频排序
    sorted_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
    # 提取关键词
    keywords = [word for word, count in sorted_words][:topk]
    return keywords

text = "自然语言处理是人工智能领域的一个重要研究方向。"
keywords = extract_keywords(text)
print(keywords)

运行以上代码将输出：['自然语言处理', '研究', '人工智能', '领域', '重要', '方向']。

2. 基于TF-IDF的提取方法

基于词频的关键词提取方法没有考虑到词在整个语料库中出现的频率。为了解决这个问题，我们可以使用基于TF-IDF（词频-逆文档频率）的关键词提取方法。TF-IDF将一个词在文本中的词频与该词在整个语料库中的逆文档频率相乘，从而得到一个词的重要性得分。常用的实现方式是使用scikit-learn库中的TfidfVectorizer类。下面是一个使用基于TF-IDF的关键词提取方法的示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer

def extract_keywords(text, topk=10):
    # 构建TF-IDF向量模型
    vectorizer = TfidfVectorizer()
    # 计算TF-IDF矩阵
    tfidf_matrix = vectorizer.fit_transform([text])
    # 获取词语列表
    words = vectorizer.get_feature_names()
    # 获取TF-IDF值列表
    tfidf_values = tfidf_matrix.toarray()[0]
    # 按TF-IDF值排序
    sorted_words = sorted(zip(words, tfidf_values), key=lambda x: x[1], reverse=True)
    # 提取关键词
    keywords = [word for word, tfidf in sorted_words][:topk]
    return keywords

text = "自然语言处理是人工智能领域的一个重要研究方向。"
keywords = extract_keywords(text)
print(keywords)

运行以上代码将输出：['自然语言处理', '人工智能', '研究', '重要', '领域', '方向']。