资料:
爬虫教程:
Python爬虫学习系列教程
Python3网络爬虫开发实战
爬虫:新浪微博爬虫的最简单办法
词云图带大家分析“带全家来京确诊女子被美国公司解雇”大家都评论了什么?
数据可视化的成功案例:
惊艳外网的15个数据可视化案例
2017年十大数据可视化项目
统计纪录片:《统计的喜悦》
信息可视化设计下的非物质文化遗产保护和传承
使用python-flask和echarts完成数据可视化
目前我有的想法:
-
北京景区推荐系统(按空间、景点类型、景点历史、游览旺季分类推荐,增加网友词云功能)
目前想法是这个。北京景区名录可以在北京市旅游局官网上找到。每个景区的地址可以在它的惠民地图里找到,或者在百度地图里找。类型可以从景区名称直接获取。词云主要通过爬取微博/大众点评上的用户评价,找出出现最频繁的词汇作为景区特色展示,使用户更鲜明的了解到每个景区在近阶段的看点和特色。
在可视化实现上,用词云表示各个景区的看点(微博/大众点评内容),空间图表示各个景区的分布(加以类型、看点等关键词过滤;悬浮展示景区名称;选择展示景区具体信息,包括名称、地址、类别、词云、人流量图;同时可用颜色区分不同景区的热门程度),时间图表示各个景区不同时间的人流量信息(从微博/大众点评发布时间获取)。 -
世界名画欣赏平台(按作品类型、派系、时期、作者分类,通过同作者/同时期进行关联)
-
类似的还有名著推荐系统
-
世界观复杂的书籍/影视作品人物关系图/族谱分析(已有案例:指环王系列;可做:四大名著均可,哈利波特,星球大战)
-
非物质文化遗产展示平台(可以关联博物馆、展览馆等地点信息,增加线下体验的可能) 这个似乎做不了了,已经有非物质文化遗产数字博物馆了。
项目实现过程:
收集景点信息
- 我首先尝试在马蜂窝网站上收集北京景点信息,但由于马蜂窝网站有加密设置,数据无法直接爬取,故放弃。
- 随后我在北京市文化和旅游局官网找到了星级景区名录,并成功爬取了这个名单。而后发现这个名单仅有景区名称和星级,并无详细地址,不方便之后地区分布图的绘制,故放弃。
- 我又在北京市文化和旅游局官网找到了如下网址
http://s.visitbeijing.com.cn/index.php?m=content&c=search&catid=7&area=3848&theme2=0&crowd=0&level=0&ticselect=0
此网站为北京市文化和旅游局非营利性网站,其中有所有北京景点的信息,包括名称、详细地址及导语。由于此网站由北京市文化和旅游局制作,来源较为权威,且具备所需信息,故爬取了此网站中的景点信息,并以csv文件形式存储。
收集景点评价
- 原计划为在微博中搜索相关景点,收集用户评论。但观察搜索后数据发现微博中的评论内容不单一,有大量新闻等非景区评价性信息,故改为专用的景区评价网站去哪儿网。
- 观察去哪儿网中北京的景点信息,发现有大量极少人参过甚至没有访问记录的景点,且其中包含部分景点并非北京景点。故决定首先爬取所有景点信息,随后抛弃无访问记录的景点和北京市旅游局官网中未爬取到的景点,为剩余景点爬取评论数据。