内容涉及excel和SPSS

数据分析的分类

课件：链接：https://pan.baidu.com/s/1RgRm0d24okUkWudKEQ7Q2g
提取码：gntv

数据分析的分类

在统计学邻域，数据分为三类：

描述性统计分析	对一组数据的各种基本特征进行分析，便于描述测量样本的各种特征，常用的方法包括对比分析、平均分析、交叉分析等，是复杂统计的基础
探索性数据分析	利用一定的分析方法返现数据中的隐藏特征规律，常用的分析方法包括相关分析、因子分析、回归分析、预测分析等，是一种高阶数据分析
验证性数据分析	利用分析方法验证假设的真伪准确性，比如顾客忠诚度，假设需要用购买频率、消费比例等指标来衡量，那么验证数据分析就是检验购买频率、消费比例等是否能反映出来

数据分析流程

确认分析目的
明确分析思路
数据采集
数据输入
数据整理
数据处理
数据分析
数据呈现
数据分析报告

数据采集

数据采集方式

公开出版物

互联网

数据库

数据分析职位

自定义单元格格式

原始数据	单元格显示数据	自定义格式代码
123	一百二十三	[DBNum1]
123	查佰贰拾叁	[DBNum2]
123	123.00	#0. 00
123	123.0	#0.0
12. 23	12. 23%	0.00%
123456	1, 235	#,##0
1234567890	人民币1, 235百万	"人民币“#,##0,“百万”
河南	中国移动河南分公司	“中国移动“@"分公司”
91	优秀	[>90]“优秀”;[>80]"及格”;"不及格”
59	59	[>90][红色]0;[>80][绿色]0;[黄色]0

数据分列

数据提取

数据合并

数据表格的规范化

一些常用函数

删除重复值

判断错误值

相同字段查找匹配

保护工作表和工作簿

高级筛选

在这里插入图片描述

条件格式

1.满足条件的单元格突出显示

数据透视表

注意：对数值排序的时候，选中任意一个可排序的单元格，单击鼠标右键–排序–降序，不要选择透视表
【设计】-【报表布局】-【以表格形式显示】
值显示方式：
单击鼠标右键-【值显示方式】-【列汇总的百分比】：各列的每行数据占所有行数据的百分比
单击鼠标右键-【值显示方式】-【行汇总的百分比】：和行相反
【数据透视表工具】-【分析】-【插入切片器】-选择筛选字段

三组9个常用统计函数

求和：sum、sumif、sumifs
计数：count、countif、COUNTIFS
平均：AVERAGE、AVERAGEIF、AVERAGEIFS
在这里插入图片描述
2.countif函数：两列数据核对

2)帮助vlookup函数实现一对多查找:

现有一份学生成绩单，现需要在I4:N9区域根据I2生源地查找所有记录，构造辅助列A列，在A2单元格中输入公式=countif(c$2:c2,c2)&c2,用countif函数将生源地出现次数和生源地联系起来，形成序号+生源地的形式，在i5单元格中输入公式=iferror(vlookup(row(a1)&$i$2,$a:$g,column(b1),0),""),横向纵向单元格填充，完成。在这里插入图片描述
3)中国式排名
使用rank函数排名属于美式排名，比如有两个第一名，那么下一个就是第三名，没有第二名；中国无论几个第一名，下一个排名是第二名。
在h2单元格输入：=rank(g2,$g$2:$g$10),美式排名
在i2单元格输入公式 =sumproduct(($g$2:$g$10>g2)*(1/(countif($g$2:$g$10,$g$2:$g$10))))+1,中国排名，利用countif统计不重复值得计数原理，实现踢出重复之后的排名；i2单元格输入公式方法二：=SUM(--IF($G$2:$G$10>=G2,MATCH($G$2:$G$10,$G$2:$G$10,)=ROW($2:$10)-1)),按下组合键。

筛选与隐藏状态下的数据统计

1）subtotal函数可以忽略被筛选的和隐藏的行，函数结果会随着筛选结果的变化而变化。
subtotal函数用法：subtotal(function_num,ref1,···),function_num代表不同的函数，对于筛选模式下，不再统计这部分行数据。对于手动隐藏的行，1-11表示统计隐藏的行，101-111表示不统计隐藏的行。
subtotal是一组函数，用来对列表或数据库进行分类汇总。
在这里插入图片描述
2）subtotal函数实现分类汇总

【数据】-【分类汇总】

计算最值与排序

MAX、MIN、LARGE、SMALL
1.在浮动分值有上下限的条件下计算得分
现有一组销售人员业务完成率的数据，需要根据公司政策来计算各销售人员销售KPl。公司政策:基准分5分，完成率每超过目标1%加0.15分，每相差1%减0.12分。销售KPI最高得6分，最低得4分。
计算方式:①利用IF函数根据目标完成率和实际完成率的差值计算销售得分，在D2单元格中输入公式"=IF(B2>=C2,5+(B2-C2/1% *0.15,5+(B2-C21/19% *0.12)" ;②利用MAX 和MIN函数的特点，在E2单元格中输入公式"=MAX(MIN(D2,6).4)"，即可完成销售KPI 的测算，如图所示。
在这里插入图片描述

2.计算前三名总销售额
现有一组销售数据，需要计算前三名销售人员的总销售额。
计算方法:在D3单元格中输入公式“=SUMIL ARGE(B2:B10,{1,2,3})"，按Ctrl+Shift+Enter组合键结束运算，如图所示。其中，LARGE(B2:B10,{1,2,3})表示在数据区域B2:B10中找出排名第一、第二、第三的3个数字。
在这里插入图片描述
3.按条件排序
现有一组销售数据，需要将大于100的销售额降序排序，其余数据不显示。
计算方法:①在C2单元格中输入公式“=L ARGE(IF($B$2:$B$10> 100,$B$2:$B$10),ROWIA1)"，按Ctrl+Shift+Enter组合键结束运算;②在D2单元格中输入公式“=IFERROR (C2,"”)，屏蔽C列中的错误值，如图所示。
在这里插入图片描述
4.一对多查找
在4.4节中我们掌握了COUNTIF函数帮助VL OOKUP函数实现一对多查找的方法，这里我们学习如何使用INDEX和SMALL函数嵌套来完成一对多查找。
现有一组生源地和学生姓名数据，需要根据提供的生源地提取学生名单。
计算方式:在D5单元格中输入公式“=INDEX($B:$B, SMALL(IF($A$2:$A$10=$D$2,RO W($A$2:$A$10),4"8),COLUM1I))&*""，按Ctrl+Shift+Enter组合键结束运算。向右拖动公式即可完成同一生源地学生名单的查找，如图4.85所示。其中，利用SMALL函数来定位所有D2在第一列的位置，COLUMN(A1) 用来显示第几个D2，这样在拖动D5单元格的填充柄往右填充公式时，在D5时为COLUMN(A1)即1，第一个D2;在E5时为COL UMN(B1)即2，第二个D2;以此类推。在这个公式末尾添加&"，是为了实现公式在向右拖动的过程中，如果没有匹配值，就用空格代替。
在这里插入图片描述

身份证

一个18位数的身份证号码，
隐藏着我们每个人的很多秘密。
1.出生日期
每个人的出生日期都是身份证号码中从第7位开始的8位数字。提取出生日期需要
利用DATE 函数。计算方法:在C2单元格中输入公式"=DATEIMID(B2,7.4),MIDIB2,11,2),MIDIB2.13.2)",
其中，MID(B2,7.4)为年份， MID(B211,2)为月份，MID[B2,132)为日。结果如图所示。
工龄月份 =DATEDIF(D3,“2021/12/31”,“M”)
在这里插入图片描述
2.年龄
当前年份减去出生年份就是我们每个人的年龄。
计算方法:在D2单元格中输入公式“=YEAR（TODAY（)-MIDA2,7，4)"。或者=YEAR(NOW())-MID(I3,7,4)结果如图

3.性别
我们每个人的18位身份证号码中第17位是判断性别的数字，奇数代表男性，偶数代表女性。
首先利用MID函数将第17位数字提取出来，然后利用MOD函数判断奇偶(能否被2整除)，最后用IF函数判断男女。
计算方法:在E2单元格中输入公式“=IF(MOD(MID(B2,17,1),2)," 男",“女””。结果如图
在这里插入图片描述
4.籍贯
在18位身份证号码中，前6位代表地址信息，其中第1、2位代表省，第3、4位代表地(市)，第5、6位代表县(市)。如果能找到原始籍贯信息表，则通过VLOOKUP函数进行匹配是最简单易懂的方法，但是信息收集、存储及使用相对烦琐。
这里提供一种直接可以匹配到省的方法:先将代表身份的前两位数字提取出来，然后使用LOOKUP函数进行匹配，代表省份的数字与省份用数组公式表示。
计算方法:在C2单元格中输入公式“=LOOKUP(VALUE(LEFT(B2,2)),{11,"北京市”;12,"天津市";13,"河北省";14," 山西省";15,"内蒙古自治区";21,"辽宁省:22,吉林省";23,"黑龙江省";31,“上海市";32,"江苏省";33,"浙江省";34,"安徽省";35,"福建省";36,"江西省;37,"山东省";41,‘河南省";42,"湖北省";43,"湖南省";44,"广东省";45,"广西壮族自治区";46,"海南省";50,"重庆市";51,"四川省";52,"贵州省";53,"云南省‘;54,"西藏自治区“;61,"陕西省“;62,"甘肃省“;63,‘青海省”;64,"宁夏回族自治区"; 65,"新疆维吾尔自治区";71,"台湾省";81,"香港特别行政区；82,"澳门特别行政区“;"","0"})”。结果如图。
LOOKUP函数有两种应用形式:
一是向量形式，函数语法为LOOKUP(lookup_ value,lookup_ vector,result vector)。
二是数组形式，函数语法为LOOKUP(lookup _value,array)。
这里使用LOOKUP函数数组形式的语法，由省份代码和省份名称组成第二个参数array,且数组升序排列。
在这里插入图片描述
5.星座
星座与我们每个人的出生月和日相关，所以提取星座需要先提取出生的月份和具体日期。同样，我们也可以先编制一张出生日期与星座对照表，然后使用VLOOKUP函数进行匹配。
这里提供一种直接计算的方法，与提取籍贯相似，也使用LOOKUP函数。
计算方法:在D2单元格中输入公式“ =LOOKUP(–MID(B2,11,4),{100;120;219;321;421;521;622;723;823;923;1023;1122;1222},“摩羯座”,水瓶座";双鱼座",”白羊座",”金牛座";“双子座9,巨蟹座",狮子座",处女座",“天秤座”;“天蝎座”;”射手座",“摩羯座”})”。结果如图所示。
此处将日期变成数值进行计算，如6月23日，变成数值为623，在622和723之间，所以为巨蟹座。
在这里插入图片描述
6.属相
属相与我们每个人的出生年份相关，所以提取属相需要先提取出生年份。
这里同样提供两种计算方法。
计算方法1:在E2单元格中输入公式"=CHOOSE(MOD(MID(B2,7.4)- 2008.12+1.*鼠”，“牛”，”虎",“兔”，”龙",“蛇”，”马",“羊，”猴”,“鸡”,“狗”,“猪”)”。
CHOOSE函数的语法1 CHOOSE(index _num, value1, (vlue2.,…当index _num为1时，计算结果为value1 ;当index. _num为2时，计算结果为value2 ;以此类推。
2008年为鼠年，每12年为一轮，与12相除的余数加1，得到的结果即为后面对应的属相。
计算方法2在E2单元格中输入公式“-MDOr 鼠牛虎免龙轮马羊聚鸡狗猪MOOMD (2.7,4)- 20+.121"结果如图。
在这里插入图片描述

数据分析

1.对比分析

2.交叉分析

3.综合评价分析法

4.矩阵分析法

5.对应分析

漏斗分析法

7.杜邦分析法

数据呈现

1.数据图表使用原则：简洁明确
2.数据图表的四大构成元素

3.图表：

数据分析报告

1.数据分析报告的种类
行业级分析报告：针对某一行业的发展历史、发展现状、发展趋势进行分析，采用的分析方法主要有PEST\波特五力模型
企业级分析报告：针对企业的客户、产品、服务等方面进行分析，采用的分析方法有SWOT、4P、5W2H
综合型分析报告：多维度拆解分析方法
专题型分析报告：
日常型分析报告：定期数据为基础，用来反映计划执行情况、业务发展情况、投诉量变动等，特征是时效性
三方机构分析报告：
其他常用的分析方法：逻辑树分析方法、对比分析方法、假设检验分析、相关分析方法、群组分析方法、RFM分析方法、AARRR模型分析、漏斗分析。
2.数据分析报告结构
在这里插入图片描述
其中，
解释说明：是对影响数据分析质量的关键因素进行详细描述，一般包括
{
项目执行方式：比如线上调研
总样本量：2000
样本构成：20-40岁男性和女性
指标解释：
特殊情况说明等
}
分析背景：
{
内部环境：企业市场目标调整、新产品上市、新技术研发
外部环境：市场需求变化、政策导向变化、竞争对手战略调整
}
分析目的：围绕背景的变化，解决企业现阶段的各种问题。
核心结论：行为现象的结论–这种结论涉及到的社会学、经济学、心理学现象–现象背后的原因。