0
点赞
收藏
分享

微信扫一扫

《如何用数据解决实际问题》(柏木吉基 著)笔记

ZGtheGreat 2021-09-19 阅读 50
读书笔记

知识点总结


第1章 解决问题,你需要“流程”

  • 目的:针对“原因是什么,需要采取哪些行动”等问题得出结论
  • 问题:思考“怎样才是最理想的状态”,现状与理想状态之间的差距就是问题
  • 通过“假设”分解问题和寻找原因,再收集证据(数据)证明或推翻假设。难以收集全部数据是很正常的,但也不应该根据“现有数据”来开始所有的工作,需要设法借用相同或相近的数据来代替理论上所需的数据

第2章 分解数据,找到“问题的关键”

  • 趋势:捕捉数据在一段时间内的变化
  • 快照:截取某个期间的情况,查看指标在期间内的大小、比例和分布等
  • WHAT型假设 将较大变量分解为具体指标,找到最小的具体指标以后再通过维度拆分
  • 平均值&中位数
指标 优点 缺点
平均值 能够用一个数值表现整体的“大小”
易于计算及使用
平均之后,看不出来原始数据
存在极大(或极小)数值时,会受其影响
中位数 不受离群值影响,用位于中间的数据表示 表示整体“大小”的程度不够精确(因为消除了离群值的影响)
与平均值相同,看不出来原始数据
  • 平均值会忽略“数据构成要素的差异”,可能会使读者误入“辛普森悖论”
  • 标准差。体现数据波动,前提是两个数据大小相当或相同
  • 变异系数。变异系数=标准差/平均值,变异系数可以消除数据大小(规模)给标准差带来的影响
  • 通过直方图可以直观查看数据分布
  • 矩阵表
维度 “快照”视点 “趋势”视点
大小/比例维度
波动维度

第3章 采用交叉视点,锁定“原因”

前两章是对现状更加清晰的了解,但仍属于“整理数据”的范畴,第3章的原因分析才开始真正“分析数据”

  • 相关分析。散点图和相关系数。可先计算相关系数,对重要内容绘制散点图确认。相关系数一般达到0.5或0.7即相关。
  • WHY模型 ①寻找接近结果的原因,在关联更密切的数据之间考察相关关系;②选择能够采取对策的原因,找到原因以后要可控制可解决
  • 两种相关分析模式。第1种,找出对最终目标具有密切影响的原因;第2种,在某个业务流程中找出瓶颈


  • 得出结论时的4大误区:①因果关系。相关关系不等于因果关系;②疑似相关。找到更直接的原因,两个高相关的数据中间可能有更密切的要素;③数据范围。数据的相关性可能在指定范围内表现,从全局来看也许不明显;④离群值。没有明确理由不可删除离群值

图4是“讨论及实施对策”前所有步骤的举例总结,包括如何拆解一个大变量和如何找到影响细分指标的原因


第4章 制定对策,要依据“方程式”

将第3章提及的“相关”量化

  • 一元线性回归。R2(相关系数的平方),R2 一般达0.25或0.49即表示线性回归方程拟合良好,有可解释性。回归时注意:①数据之间必须具有单纯的比例关系;②离群值以及不同的数据选择范围,会导致分析结果产生很大不同
  • 用相关分析判断数据关联的紧密程度,用回归分析判断其影响大小

第5章 用数据讲故事

  • 把解决问题的过程展现出来,把精力用来考虑“核心信息是什么”“对方想知道什么”
  • 随时与相关人员分享分析的过程,必要时与他们展开讨论,了解对方的想法和困惑
  • 高级技能简介。多元回归,注意多重共线性的问题;假设检验,能够帮助我们了解自己所使用的数据范围的局限,并在此基础上进行分析

感谢阅读,欢迎点赞

举报

相关推荐

0 条评论