流程:1.采集雪球网约50万股票数据存入mysql; 2.使用pandas+numpy或hadoop+mapreduce对mysql中的数据进行数据清洗并转存.csv文件上传到hdfs; 3.使用hive建表建库导入hdfs中的.csv数据集; 4.一半指标使用hive_sql进行离线计算分析,一半指标使用Spark之Scala语法进行实时计算分析; 5.分析结果使用sqoop导入mysql数据库; 6.使用flask+echarts搭建可视化大屏界面; 创新点:Python爬虫、海量数据、可视化大屏、实时+离线计算双实现 选装(如果觉得功能还不够,可以选装推荐系统、预测系统、知识图图谱可以对接选装)