数据分析与可视化实验室项目相关资料-CFANZ编程社区

资料：

爬虫教程：
Python爬虫学习系列教程
Python3网络爬虫开发实战
爬虫:新浪微博爬虫的最简单办法
词云图带大家分析“带全家来京确诊女子被美国公司解雇”大家都评论了什么？

数据可视化的成功案例：
惊艳外网的15个数据可视化案例
2017年十大数据可视化项目
统计纪录片：《统计的喜悦》
信息可视化设计下的非物质文化遗产保护和传承

使用python-flask和echarts完成数据可视化

目前我有的想法：

北京景区推荐系统（按空间、景点类型、景点历史、游览旺季分类推荐，增加网友词云功能）
目前想法是这个。北京景区名录可以在北京市旅游局官网上找到。每个景区的地址可以在它的惠民地图里找到，或者在百度地图里找。类型可以从景区名称直接获取。词云主要通过爬取微博/大众点评上的用户评价，找出出现最频繁的词汇作为景区特色展示，使用户更鲜明的了解到每个景区在近阶段的看点和特色。
在可视化实现上，用词云表示各个景区的看点（微博/大众点评内容），空间图表示各个景区的分布（加以类型、看点等关键词过滤；悬浮展示景区名称；选择展示景区具体信息，包括名称、地址、类别、词云、人流量图；同时可用颜色区分不同景区的热门程度），时间图表示各个景区不同时间的人流量信息（从微博/大众点评发布时间获取）。
世界名画欣赏平台（按作品类型、派系、时期、作者分类，通过同作者/同时期进行关联）
类似的还有名著推荐系统
世界观复杂的书籍/影视作品人物关系图/族谱分析（已有案例：指环王系列；可做：四大名著均可，哈利波特，星球大战）
非物质文化遗产展示平台（可以关联博物馆、展览馆等地点信息，增加线下体验的可能） 这个似乎做不了了，已经有非物质文化遗产数字博物馆了。

项目实现过程：

收集景点信息

我首先尝试在马蜂窝网站上收集北京景点信息，但由于马蜂窝网站有加密设置，数据无法直接爬取，故放弃。
随后我在北京市文化和旅游局官网找到了星级景区名录，并成功爬取了这个名单。而后发现这个名单仅有景区名称和星级，并无详细地址，不方便之后地区分布图的绘制，故放弃。
我又在北京市文化和旅游局官网找到了如下网址
http://s.visitbeijing.com.cn/index.php?m=content&c=search&catid=7&area=3848&theme2=0&crowd=0&level=0&ticselect=0
此网站为北京市文化和旅游局非营利性网站，其中有所有北京景点的信息，包括名称、详细地址及导语。由于此网站由北京市文化和旅游局制作，来源较为权威，且具备所需信息，故爬取了此网站中的景点信息，并以csv文件形式存储。

收集景点评价

原计划为在微博中搜索相关景点，收集用户评论。但观察搜索后数据发现微博中的评论内容不单一，有大量新闻等非景区评价性信息，故改为专用的景区评价网站去哪儿网。
观察去哪儿网中北京的景点信息，发现有大量极少人参过甚至没有访问记录的景点，且其中包含部分景点并非北京景点。故决定首先爬取所有景点信息，随后抛弃无访问记录的景点和北京市旅游局官网中未爬取到的景点，为剩余景点爬取评论数据。