查询各种数学定义的时候,经常会查出来一大堆数学公式,个人非常不喜欢这种解释,因为很多时候数学公式对于个人的初步理解并没有任何帮助,所以我比较想写一点初学者也能一眼看懂并理解的东西。
这里我也在复习统计知识,所以我想把我自己对于统计学里面的各种知识点结合自己的个人理解留下一些笔记。
首先,我们要简单的总结一下回归关系。那就是:想办法算出一大堆数里面的代表值,这个值和其他所有的值的差距都很小,也就是这个值可以一定程度上代表其他的数。
要理解回归关系,我们需要从一个定义入手,那就是“集合”。例如,我们把所有身高160cm的人作为一个集合,这个集合有一个特点,那就是里面的人虽然千差万别,有人是男的,有认识女的,有人胖,有人瘦,但是他们有一个共同特征,那就是,他们都160cm。
有时候,我们需要去探讨这个集合的人身高和体重之间的关系,那么我们就可以把这个集合里的人的身高和体重放到散点图里去分析。
横轴身高,纵轴体重。就像我们刚才提到的,这里面的人体重各不相同,但是身高是一致的,都是160cm。
现在,请考虑这样一个问题。如果要从这里面找一个人出来代表这个集体,找谁好?那肯定是平均数。原因就是平均数不管是离最轻的人和离最重的人,差的都并不太多。用平均数的定义来说,就是用平均数计算的方差,是所有数里面最小的。
现在,我们增加集合的数量,把156和164的人也放进来。
现在,我们有了三个集合,分别是156,160和164的人的集合。同样的,每一个集合都有一个可以代表自己的值。
想象一下,如果你的上司告诉你,现在立刻马上告诉我160的人大概多少斤,你会告诉他哪个数?是不是上图里我们160集合的人的平均体重?同样的,其他的集合的人,也可以用平均体重来一定程度上代表他们的体重。
到了这个程度,就有人有想法了。能不能给我一个公式,让我能够把所有集合的平均体重算出来?也就是说,我想知道160的人的平均体重,带入一个公式就能把它算出来的话,是不是很方便?
事实上这个公式是存在的。如果我们把我们现有的三个集合的平均数所在的点连接起来,可以得到一个非常接近直线的折线。但是,折线在使用时非常不方便,再加上这个折线已经非常非常接近于直线了,所以我们就干脆做一个近似,把折现那点小小的弯曲掰直,就可以得到下图。
这条线虽然没有准确的经过三个集合的均值,但是可以做到最接近经过三个集合的平均值,这条线就是回归线。注意,回归线是【最接近】同时经过三个集合均值的,只要你不是最接近的,你就不算是回归线。假如,把我们现有的集合扩大到无限个,再去计算出上图这样一条线,就能得到一条可以估算所有身高的人的体重的回归线了。