1、文本预处理,分词,POS
2、筛选候选词,保留最长的名词和形容词序列;
3、采用HAC(层次凝聚聚类算法)聚类;(在超过25%重叠词的情况下,认为两个候选序列是相似的)
解释HAC
聚类算法
4、权重计算
w(i,j)为权重,其中 dist(ci, cj ) 是文档中候选关键词 ci 和
微信扫一扫
1、文本预处理,分词,POS
2、筛选候选词,保留最长的名词和形容词序列;
3、采用HAC(层次凝聚聚类算法)聚类;(在超过25%重叠词的情况下,认为两个候选序列是相似的)
解释HAC
聚类算法
4、权重计算
w(i,j)为权重,其中 dist(ci, cj ) 是文档中候选关键词 ci 和
相关推荐