R语言论文插图模板第9期—滑珠散点图-CFANZ编程社区

R语言论文插图模板第9期—滑珠散点图

偶然间读到一篇文章，分享06年《书摘》的内容，今天来看都不过时，所以起了找下这本老杂志合集的心思。

首先是在网上搜现成的pdf合集，没有，只现刊可以订阅，但找到了一个官方网站，刚好有00-10年老杂志的合集，多层链接，且文档是以前2G时代的瞎眼论坛模式，阅读不太友好。
打算根据这个网站，先获取文档，然后整理为带目录的txt文档，手机党就很方便。
在这里插入图片描述
具体分了这几步：
1、文档资源获取（爬虫步骤跳过啦），为了整理方便，处理成一篇文章一行的形式，序号、标题作为目录名称，时间用于分割文件（00-10年合计2k+篇文章，如果全放到一个txt文档，估计看一点人就废了，所以按年度分了11个文档）
在这里插入图片描述
2、接下来就是按上面思路把excel文档转为txt了，我是用R实现的，要点是函数、循环和字符串的拼接

d1<-read.xlsx('正文.xlsx')
#按年拆
d1$year<-str_sub(d1$文本1,1,4)
d1list<-split(d1,d1$year)

#每年一合集
ab<-function(test){
  tt<-c()
  for (i in 1:nrow(test)) {
    tt[i]<-str_c(
      str_trim(str_c('第',test$篇章[i],'篇:',test$文本[i])),
      test$字段1[i],sep="\n")
  }
  rr<-paste(tt, collapse = '\n\n')
  rr<-str_remove_all(rr,'_x000D_')
  return(rr)
}

for (j in 1:length(d1list)) {
  test<-d1list[[j]]
  book<-ab(test)
  bookname<-str_c('书摘/',names(d1list),'.txt')[j]
  write.table(book,bookname,
              col.names = FALSE,row.names = FALSE,quote = FALSE)
}