0
点赞
收藏
分享

微信扫一扫

R语言论文插图模板第9期—滑珠散点图

Separes 2024-09-15 阅读 28

偶然间读到一篇文章,分享06年《书摘》的内容,今天来看都不过时,所以起了找下这本老杂志合集的心思。

首先是在网上搜现成的pdf合集,没有,只现刊可以订阅,但找到了一个官方网站,刚好有00-10年老杂志的合集,多层链接,且文档是以前2G时代的瞎眼论坛模式,阅读不太友好。
打算根据这个网站,先获取文档,然后整理为带目录的txt文档,手机党就很方便。
在这里插入图片描述
具体分了这几步:
1、文档资源获取(爬虫步骤跳过啦),为了整理方便,处理成一篇文章一行的形式,序号、标题作为目录名称,时间用于分割文件(00-10年合计2k+篇文章,如果全放到一个txt文档,估计看一点人就废了,所以按年度分了11个文档)
在这里插入图片描述
2、接下来就是按上面思路把excel文档转为txt了,我是用R实现的,要点是函数、循环和字符串的拼接

d1<-read.xlsx('正文.xlsx')
#按年拆
d1$year<-str_sub(d1$文本1,1,4)
d1list<-split(d1,d1$year)

#每年一合集
ab<-function(test){
  tt<-c()
  for (i in 1:nrow(test)) {
    tt[i]<-str_c(
      str_trim(str_c('第',test$篇章[i],'篇:',test$文本[i])),
      test$字段1[i],sep="\n")
  }
  rr<-paste(tt, collapse = '\n\n')
  rr<-str_remove_all(rr,'_x000D_')
  return(rr)
}

for (j in 1:length(d1list)) {
  test<-d1list[[j]]
  book<-ab(test)
  bookname<-str_c('书摘/',names(d1list),'.txt')[j]
  write.table(book,bookname,
              col.names = FALSE,row.names = FALSE,quote = FALSE)
}

3、最后整理如下,手机效果也给大家看下,个别段落可能因为爬虫时间等待问题漏采,但是不影响阅读。需要杂志资源的可以评论或者私信。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

举报

相关推荐

0 条评论