0
点赞
收藏
分享

微信扫一扫

数据分析笔记(二)

魔都魅影梅杜萨 2022-05-02 阅读 56
数据分析

数据分析笔记(二)

1.过拟合 高方差 低偏差 欠拟合 低方差 高偏差 ,

高偏差意味模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差

2.Excel中vlookup函数:

VLOOKUP(要查找的值,查找的区域,查找区域返回的列,查找模式)

即vlookup(who,where,what,how)

3.在EXCEL输入以零开头的文本型数字时需在输入的数据前面加 `

4.散点图可以用来刻画两个变量之间是否具有相关关系

5.模型选择就是选择在未知数据集上预测性能较好的模型,两种常用的模型选择方法:正则化与交叉验证。

6.反映数据离散程度的有 方差,标准差,极差

7.sql函数中,substring()的用法如下:

1》SUBSTRING(name,5,3) 截取name这个字段 从第五个字符开始 只截取之后的3个字符

2》SUBSTRING(name,3) 截取name这个字段 从第三个字符开始,之后的所有个字符

3》SUBSTRING(name, -4) 截取name这个字段的第 4 个字符位置(倒数)开始取,直到结束

4》SUBSTRING(name, -4,2) 截取name这个字段的第 4 个字符位置(倒数)开始取,只截取之后的2个字符

8.抽样估计的优良标准:无偏性,一致性,有效性

9.影响时间序列的因素有:长期趋势,季节变动,循环波动,不规则波动

10,题目:某运河中客船和货船的数量之比是5:1,客船中途停修的概率为0.05,货船为0.02,今有一辆船中途停船修理,求该船是客船的概率()

解:

考察条件概率、贝叶斯概率、全概率公式:
事件A = {船是客船} 
事件B = {船是货船}
事件C = {船中途停修}

目前已知:
P(A) = 5/6  
P(B) = 1/6  
P(C|A) = 0.05 = 1/20 
P(C|B) = 0.02 = 1/50

现在要求的是:P(A|C) = ?
由条件概率公式可知 P(A|C) = P(AC)/P(C)
P(AC) = P(A) * P(C|A) = 5/6 * 1/20 
P(C) = P(A)*P(C|A) + P(B)*P(C|B) = 5/6 * 1/20 + 1/6 * 1/50
所以 P(A|C) = ( 5/6 * 1/20 ) / (5/6 * 1/20 + 1/6 * 1/50) = 25/27
举报

相关推荐

0 条评论