1、服务器之间数据文件传递
1)服务器之间传递数据,依赖ssh协议
2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据
3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输
4)在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接
ssh 用户@ip地址或域名
ssh免密登录
每次登录不需要再输入密码
分别在node1、node2、node3上执行如下命令
1)生成密钥
ssh-keygen
2)分别拷贝密钥
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
3)基于ssh协议进行服务器之间的文件或者目录的传输
使用指令scp
scp -r 本机文件或目录路径 目标服务器名:目标服务器路径
2、解压和压缩
tar xvf 压缩包文件
x 代表解压
v 显示解压详情
f 代表解压文件
1)压缩
tar cvf 压缩包名.tar.gz 文件或者目录
3、数据导论[了解]
4、大数据诞生[了解]
5、大数据概述[了解]
6、大数据的特点
-
数据量大
-
数据种类多
-
结构化数据
-
表
-
-
半结构化数据
-
xml
-
json
-
-
非结构数据
-
文本数据
-
-
-
数据低价值密度
-
分析用户的消费习惯
-
用户注册基本信息 姓名,性别,年龄 1个
-
用户的购买信息 订单数据 手机,2023-10-22 100个
-
用户浏览信息 浏览哪些商品 100个
-
用户访问信息 访问网站时间,地点,设备 100000条
-
1000201条数 有价值的数据200条
-
-
-
增长速度快
-
每天都会产生大量数据
-
-
数据结果质量高
-
对海量数据结果更接近真实情况
-
7、大数据软件生态[了解]
存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台
计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink
传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop
8、Apache Hadoop概述[了解]
1)Hadoop的功能组件
2)Hadoop发展
3)Hadoop版本
9、为什么需要分布式存储[了解]
数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件
存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部
此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.