因为工作需要,又开始上手R语言。比起从前,面对新知识比更有耐心,也更愿意优化代码,提高效率。
网上作词云的工具很多,但如果是公司比较重要的数据信息,我不建议用网上工具,会造成信息泄露。所以,不如花点时间,琢磨以下自己去做。
要做词云,有两件事情要做:1)文本分词;2)制作词云。
先说文本分词,主要用到jiebaR包,处理txt文本,变成关键词+频次的数据框形式,然后提取需要的高频词汇,使用wordcloud2包制作词云。
一、案例展示:
2021年中国世界500强企业,我想知道这些优秀企业有哪些关键字,怎么做出来呢?先给大家看最终的结果:
我们可以看到最突出的关键字:国际、科技股份,然后是上海,电力,能源,汽车,钢铁,银行。因为我们分析的是世界500强企业,所以可以得出结论:业务面向国际的企业,类型是科技股份制,然后从区域来看上海500强最多,其次是江苏(居然不是北京~),接下来行业电力(垄断行业,铁饭碗),能源(新趋势行业),汽车、钢铁。从这些关键字对大家择业赛道也会有所启发。
- 接下来如何做出这个图:
install.packeges("jiebaR")#下载jiebaR包
install.packeges("wordcloud2")#下载词云包,推荐用词云2
library(jiebaR)#载入jiebaR包
library(wordcloud2)#载入词云2包
data<-readLin