0
点赞
收藏
分享

微信扫一扫

数据分析入门到精通

内容涉及excel和SPSS


课件:链接:https://pan.baidu.com/s/1RgRm0d24okUkWudKEQ7Q2g
提取码:gntv

数据分析的分类

在统计学邻域,数据分为三类:

描述性统计分析对一组数据的各种基本特征进行分析,便于描述测量样本的各种特征,常用的方法包括对比分析、平均分析、交叉分析等,是复杂统计的基础
探索性数据分析利用一定的分析方法返现数据中的隐藏特征规律,常用的分析方法包括相关分析、因子分析、回归分析、预测分析等,是一种高阶数据分析
验证性数据分析利用分析方法验证假设的真伪准确性,比如顾客忠诚度,假设需要用购买频率、消费比例等指标来衡量,那么验证数据分析就是检验购买频率、消费比例等是否能反映出来

数据分析流程

  1. 确认分析目的
  2. 明确分析思路
  3. 数据采集
  4. 数据输入
  5. 数据整理
  6. 数据处理
  7. 数据分析
  8. 数据呈现
  9. 数据分析报告

数据采集

数据采集方式

公开出版物

互联网

数据库

数据分析职位

自定义单元格格式

原始数据单元格显示数据自定义格式代码
123一百二十三[DBNum1]
123查佰贰拾叁[DBNum2]
123123.00#0. 00
123123.0#0.0
12. 2312. 23%0.00%
1234561, 235#,##0
1234567890人民币1, 235百万"人民币“#,##0,“百万”
河南中国移动河南分公司“中国移动“@"分公司”
91优秀[>90]“优秀”;[>80]"及格”;"不及格”
5959[>90][红色]0;[>80][绿色]0;[黄色]0

数据分列

数据提取

数据合并

数据表格的规范化

一些常用函数

删除重复值

判断错误值

相同字段查找匹配

保护工作表和工作簿

高级筛选

在这里插入图片描述

条件格式

1.满足条件的单元格突出显示

数据透视表

注意:对数值排序的时候,选中任意一个可排序的单元格,单击鼠标右键–排序–降序,不要选择透视表
【设计】-【报表布局】-【以表格形式显示】
值显示方式:
单击鼠标右键-【值显示方式】-【列汇总的百分比】:各列的每行数据占所有行数据的百分比
单击鼠标右键-【值显示方式】-【行汇总的百分比】:和行相反
【数据透视表工具】-【分析】-【插入切片器】-选择筛选字段

三组9个常用统计函数

求和:sum、sumif、sumifs
计数:count、countif、COUNTIFS
平均:AVERAGE、AVERAGEIF、AVERAGEIFS
在这里插入图片描述
2.countif函数:两列数据核对
在这里插入图片描述
2)帮助vlookup函数实现一对多查找:
在这里插入图片描述
现有一份学生成绩单,现需要在I4:N9区域根据I2生源地查找所有记录,构造辅助列A列,在A2单元格中输入公式=countif(c$2:c2,c2)&c2,用countif函数将生源地出现次数和生源地联系起来,形成序号+生源地的形式,在i5单元格中输入公式=iferror(vlookup(row(a1)&$i$2,$a:$g,column(b1),0),""),横向纵向单元格填充,完成。在这里插入图片描述
3)中国式排名
使用rank函数排名属于美式排名,比如有两个第一名,那么下一个就是第三名,没有第二名;中国无论几个第一名,下一个排名是第二名。在这里插入图片描述
在h2单元格输入:=rank(g2,$g$2:$g$10),美式排名
在i2单元格输入公式 =sumproduct(($g$2:$g$10>g2)*(1/(countif($g$2:$g$10,$g$2:$g$10))))+1,中国排名,利用countif统计不重复值得计数原理,实现踢出重复之后的排名;i2单元格输入公式方法二:=SUM(--IF($G$2:$G$10>=G2,MATCH($G$2:$G$10,$G$2:$G$10,)=ROW($2:$10)-1)),按下组合键。

筛选与隐藏状态下的数据统计

1)subtotal函数可以忽略被筛选的和隐藏的行,函数结果会随着筛选结果的变化而变化。
subtotal函数用法:subtotal(function_num,ref1,···),function_num代表不同的函数,对于筛选模式下,不再统计这部分行数据。对于手动隐藏的行,1-11表示统计隐藏的行,101-111表示不统计隐藏的行。
subtotal是一组函数,用来对列表或数据库进行分类汇总。
在这里插入图片描述
2)subtotal函数实现分类汇总
在这里插入图片描述
【数据】-【分类汇总】
在这里插入图片描述

计算最值与排序

MAX、MIN、LARGE、SMALL
1.在浮动分值有上下限的条件下计算得分
现有一组销售人员业务完成率的数据,需要根据公司政策来计算各销售人员销售KPl。公司政策:基准分5分,完成率每超过目标1%加0.15分,每相差1%减0.12分。销售KPI最高得6分,最低得4分。
计算方式:①利用IF函数根据目标完成率和实际完成率的差值计算销售得分,在D2单元格中输入公式"=IF(B2>=C2,5+(B2-C2/1% *0.15,5+(B2-C21/19% *0.12)" ;②利用MAX 和MIN函数的特点,在E2单元格中输入公式"=MAX(MIN(D2,6).4)", 即可完成销售KPI 的测算,如图所示。
在这里插入图片描述
在这里插入图片描述
2.计算前三名总销售额
现有一组销售数据,需要计算前三名销售人员的总销售额。
计算方法:在D3单元格中输入公式“=SUMIL ARGE(B2:B10,{1,2,3})",按Ctrl+Shift+Enter组合键结束运算,如图所示。其中,LARGE(B2:B10,{1,2,3})表示在数据区域B2:B10中找出排名第一、第二、 第三的3个数字。
在这里插入图片描述
3.按条件排序
现有一组销售数据,需要将大于100的销售额降序排序,其余数据不显示。
计算方法:①在C2单元格中输入公式“=L ARGE(IF($B$2:$B$10> 100,$B$2:$B$10),ROWIA1)",按Ctrl+Shift+Enter组合键结束运算;②在D2单元格中输入公式“=IFERROR (C2,"”),屏蔽C列中的错误值,如图所示。
在这里插入图片描述
4.一对多查找
在4.4节中我们掌握了COUNTIF函数帮助VL OOKUP函数实现一对多查找的方法, 这里我们学习如何使用INDEX和SMALL函数嵌套来完成一对多查找。
现有一组生源地和学生姓名数据,需要根据提供的生源地提取学生名单。
计算方式:在D5单元格中输入公式“=INDEX($B:$B, SMALL(IF($A$2:$A$10=$D$2,RO W($A$2:$A$10),4"8),COLUM1I))&*"",按Ctrl+Shift+Enter组合键结束运算。向右拖动公式即可完成同一生源地学生名单的查找,如图4.85所示。其中,利用SMALL函数来定位所有D2在第一列的位置,COLUMN(A1) 用来显示第几个D2,这样在拖动D5单元格的填充柄往右填充公式时,在D5时为COLUMN(A1)即1,第一个D2;在E5时为COL UMN(B1)即2,第二个D2;以此类推。在这个公式末尾添加&",是为了实现公式在向右拖动的过程中,如果没有匹配值,就用空格代替。
在这里插入图片描述

身份证

一个18位数的身份证号码,
隐藏着我们每个人的很多秘密。
1.出生日期
每个人的出生日期都是身份证号码中从第7位开始的8位数字。提取出生日期需要
利用DATE 函数。计算方法:在C2单元格中输入公式"=DATEIMID(B2,7.4),MIDIB2,11,2),MIDIB2.13.2)",
其中,MID(B2,7.4)为年份, MID(B211,2)为月份,MID[B2,132)为日。结果如图所示。
工龄月份 =DATEDIF(D3,“2021/12/31”,“M”)
在这里插入图片描述
2.年龄
当前年份减去出生年份就是我们每个人的年龄。
计算方法:在D2单元格中输入公式“=YEAR(TODAY()-MIDA2,7,4)"。或者=YEAR(NOW())-MID(I3,7,4)结果如图
在这里插入图片描述
3.性别
我们每个人的18位身份证号码中第17位是判断性别的数字,奇数代表男性,偶数代表女性。
首先利用MID函数将第17位数字提取出来,然后利用MOD函数判断奇偶(能否被2整除),最后用IF函数判断男女。
计算方法:在E2单元格中输入公式“=IF(MOD(MID(B2,17,1),2)," 男",“女””。结果如图
在这里插入图片描述
4.籍贯
在18位身份证号码中,前6位代表地址信息,其中第1、2位代表省,第3、4位代表地(市),第5、6位代表县(市)。如果能找到原始籍贯信息表,则通过VLOOKUP函数进行匹配是最简单易懂的方法,但是信息收集、存储及使用相对烦琐。
这里提供一种直接可以匹配到省的方法:先将代表身份的前两位数字提取出来,然后使用LOOKUP函数进行匹配,代表省份的数字与省份用数组公式表示。
计算方法:在C2单元格中输入公式“=LOOKUP(VALUE(LEFT(B2,2)),{11,"北京市”;12,"天津市";13,"河北省";14," 山西省";15,"内蒙古自治区";21,"辽宁省:22,吉林省";23,"黑龙江省";31,“上海市";32,"江苏省";33,"浙江省";34,"安徽省";35,"福建省";36,"江西省;37,"山东省";41,‘河南省";42,"湖北省";43,"湖南省";44,"广东省";45,"广西壮族自治区";46,"海南省";50,"重庆市";51,"四川省";52,"贵州省";53,"云南省‘;54,"西藏自治区“;61,"陕西省“;62,"甘肃省“;63,‘青海省”;64,"宁夏回族自治区"; 65,"新疆维吾尔自治区";71,"台湾省";81,"香港特别行政区;82,"澳门特别行政区“;"","0"})”。结果如图。
LOOKUP函数有两种应用形式:
一是向量形式,函数语法为LOOKUP(lookup_ value,lookup_ vector,result vector)。
二是数组形式,函数语法为LOOKUP(lookup _value,array)。
这里使用LOOKUP函数数组形式的语法,由省份代码和省份名称组成第二个参数array,且数组升序排列。
在这里插入图片描述
5.星座
星座与我们每个人的出生月和日相关,所以提取星座需要先提取出生的月份和具体日期。同样,我们也可以先编制一张出生日期与星座对照表,然后使用VLOOKUP函数进行匹配。
这里提供一种直接计算的方法, 与提取籍贯相似,也使用LOOKUP函数。
计算方法:在D2单元格中输入公式“ =LOOKUP(–MID(B2,11,4),{100;120;219;321;421;521;622;723;823;923;1023;1122;1222},“摩羯座”,水瓶座";双鱼座",”白羊座",”金牛座";“双子座9,巨蟹座",狮子座",处女座",“天秤座”;“天蝎座”;”射手座",“摩羯座”})”。结果如图所示。
此处将日期变成数值进行计算,如6月23日,变成数值为623,在622和723之间,所以为巨蟹座。
在这里插入图片描述
6.属相
属相与我们每个人的出生年份相关,所以提取属相需要先提取出生年份。
这里同样提供两种计算方法。
计算方法1:在E2单元格中输入公式"=CHOOSE(MOD(MID(B2,7.4)- 2008.12+1.*鼠”,“牛”,”虎",“兔”,”龙",“蛇”,”马",“羊,”猴”,“鸡”,“狗”,“猪”)”。
CHOOSE函数的语法1 CHOOSE(index _num, value1, (vlue2.,…当index _num为1时,计算结果为value1 ;当index. _num为2时,计算结果为value2 ;以此类推。
2008年为鼠年,每12年为一轮,与12相除的余数加1,得到的结果即为后面对应的属相。
计算方法2在E2单元格中输入公式“-MDOr 鼠牛虎免龙轮马羊聚鸡狗猪MOOMD (2.7,4)- 20+.121"结果如图。
在这里插入图片描述

数据分析

1.对比分析

2.交叉分析

3.综合评价分析法

4.矩阵分析法

5.对应分析

  1. 漏斗分析法

7.杜邦分析法

数据呈现

1.数据图表使用原则:简洁明确
2.数据图表的四大构成元素

3.图表:

数据分析报告

1.数据分析报告的种类
行业级分析报告:针对某一行业的发展历史、发展现状、发展趋势进行分析,采用的分析方法主要有PEST\波特五力模型
企业级分析报告:针对企业的客户、产品、服务等方面进行分析,采用的分析方法有SWOT、4P、5W2H
综合型分析报告:多维度拆解分析方法
专题型分析报告:
日常型分析报告:定期数据为基础,用来反映计划执行情况、业务发展情况、投诉量变动等,特征是时效性
三方机构分析报告:
其他常用的分析方法:逻辑树分析方法、对比分析方法、假设检验分析、相关分析方法、群组分析方法、RFM分析方法、AARRR模型分析、漏斗分析。
2.数据分析报告结构
在这里插入图片描述
其中,
解释说明:是对影响数据分析质量的关键因素进行详细描述,一般包括
{
项目执行方式:比如线上调研
总样本量:2000
样本构成:20-40岁 男性和女性
指标解释:
特殊情况说明等
}
分析背景:
{
内部环境:企业市场目标调整、新产品上市、新技术研发
外部环境:市场需求变化、政策导向变化、竞争对手战略调整
}
分析目的:围绕背景的变化,解决企业现阶段的各种问题。
核心结论:行为现象的结论–这种结论涉及到的社会学、经济学、心理学现象–现象背后的原因。

举报

相关推荐

0 条评论