第十届蓝桥杯省赛真题（C/C++大学B组）-CFANZ编程社区

1.大数据概述

1.大数据概述

1.1.大数据的概念

大数据即字面意思，大量数据。那么这个数据量大到多少才算大数据喃？通常，当数据量达到TB乃至PB级别时，传统的关系型数据库在处理能力、存储效率或查询性能上可能会遇到瓶颈，这时考虑采用大数据技术是合理的。

当然可以通过分库分表等方式来让关系型数据库来强行抗住这个量级，所以数据量大外数据结构是不是够杂（结构化、半结构化、非结构化数据）也是要不要上大数据技术的重要考量点。

当然数据杂也可以通过关系型+非关系型数据库（如MySQL+MongoDB+ES）组合式的存储来分别存储，所以还要看要求对数据的使用上的诉求是什么？实时或近实时的分析处理（例如实时推荐系统、金融风控、物联网监控等），这些对数据的使用方式上需要对大量数据进行计算，而不再是关系型数据库中那种小批量的增删改查，这时候即使是用了组合式的存储来存放数据，要去各种存储上跑计算任务再汇总到一起，明显是很低效的，这时候上大数据技术就是十分合理的。

大数据场景中的数据往往具有4V的特点：

大量化：数据量大。
快速化：增长速度快。
多样化：数据类型多样，结构化、非结构化都有。
价值密度低：价值密度低，商业价值高。

1.2.大数据的应用场景

大数据的应用总结起来就是：决策、预测。

1.零售行业
个性化推荐：基于用户购物历史、浏览记录、社交媒体行为等数据，实现商品个性化推荐，提高转化率和用户满意度。
库存优化：通过分析销售数据、季节性趋势、供应链信息等，精准预测需求，减少库存积压，提升供应链效率。
价格策略：利用市场动态、竞品分析、消费者敏感度数据制定动态定价策略，提高竞争力和利润水平。
客户细分与营销：对客户数据进行聚类分析，识别不同消费群体特征，实施精细化营销策略。
2. 金融行业
风险评估与管理：运用大数据分析进行信用评分、欺诈检测、市场风险预测，提升信贷决策准确性，降低风险敞口。
交易监控与反洗钱：实时监测异常交易行为，运用机器学习算法识别潜在的洗钱活动，确保合规运营。
投资决策支持：结合宏观经济数据、公司财务报告、社交媒体情绪等多元数据源，辅助投资者进行量化投资分析和策略制定。
3. 教育行业
学生学习行为分析：通过分析在线学习平台数据，了解学生学习进度、难点、偏好，提供个性化教学建议和资源推荐。
教育资源优化：依据课程访问量、完成率、互动数据等，评估教学效果，优化课程设计与资源配置。
教育政策制定：利用大数据研究教育公平、教学质量、就业趋势等问题，为教育政策制定提供数据支持。
4. 医疗行业
疾病预测与预防：通过对电子病历、基因组数据、生活方式数据的分析，预测疾病风险，指导早期干预和预防措施。
精准医疗：基于个体基因、生理指标、环境因素等大数据，制定个性化治疗方案，提高疗效和患者生活质量。
医疗资源管理：利用大数据预测医疗需求，优化医院床位、设备、人力资源分配，提升医疗服务效率。
5. 市场营销与客户关系管理
市场趋势分析：通过分析社交媒体、搜索引擎、行业报告等数据，洞察市场动态、消费者偏好变化，指导产品开发和市场定位。
精准广告投放：基于用户画像、行为数据、地理位置等信息，实现广告的定向投放和效果优化。
客户满意度与忠诚度提升：利用客户反馈、社交媒体舆情、购买行为数据，识别影响满意度的关键因素，制定针对性的改进策略。
6. 其他行业与通用场景
智慧城市：集成交通、能源、环境、公共服务等多源数据，实现城市运行状态监测、资源调度优化、应急响应管理等。
工业制造：通过设备数据、生产流程数据的实时分析，实现预测性维护、质量控制、产能优化等智能制造应用。
社交媒体分析：挖掘用户社交网络行为、情感倾向、话题热度等数据，为企业品牌管理、舆情监控、产品推广提供决策支持。

1.3.大数据的关键技术

大数据技术，其实就是一套解决方案，是基于各种现实的业务场景的成功的解决方案的总结。

大数据技术可以看作对传统技术的延申，是由于大数据的量传统技术不是很好应付了才出现了大数据的解决方案。传统的单点扛不住，扩集群，集群也扛不住就可以考虑大数据，或者即使集群扛得住，但是数据类型太杂了需要也可以考虑大数据。所以大数据和传统技术只是AB两套方案罢了。

大数据的整个流程：

数据采集->数据存储与管理->数据处理与分析

其中最为核心的是：数据存储和数据分析，也就是：

数据的存储
数据的运算

1.数据存储

其实就是当数据量很小的时候，存在单台机器上，当单台机器扛不住的时候存在多台机器上。存在多台机器上就需要进行统一的管理，对外给出统一的API让操作者去操作整个集群中的数据，让操作者体感愉悦，感知上觉得面对的就是一台存储容量无限大的单点服务器。

统一的管理、统一的操作API，这两点合在一起，像不像个系统？是的，这就是大数据中的存储系统，分布式文件系统——HDFS。

2.数据的运算

花这么大代价用HDFS存储起来的数据肯定不是拿来看的，而是要用起来的，是要用于计算的。在大数据系统中由于其存储采用了分布式的架构，计算任务不再是单点的，而是分布式的，是要分发到集群中的各个存储节点上去的，由各个结点计算后汇总出最终的结果。很明显这种多节点间的协作计算是需要进行任务调度的，这就是分布式计算引擎需要干的活儿，经典的分布式计算引擎是HDFS中内置的——MapReduce。其主要就是负责计算任务的调度。

除此之外还有一个目前市面上常用的强力的计算引擎——spark。mapreduce是基于磁盘的计算，spark是基于内存的计算，两者之间互有优劣。

扩展功能

有HDFS+MapReduce其实大数据系统就已经可以工作了，但是每次对数据进行查询都要写mapreduce任务，作为一个分布式的处理程序，mapreduce的任务写起来还是要求一些专业的计算机背景的。为了能像SQL一样，方便的查询HDFS中的数据，从而将使用者从繁琐的mapreduce的编写中解放，出现了hive之类的分布式系统的结构化数据解决方案。