生物统计学是数理统计在生物学研究中的应用,是用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料的一门学科,属于应用统计学的一个分支。
基本概念
总体(population):具有相同性质的个体所组成的集合。
个体(individual):组成总体的基本单位。
样本(sample):从总体中抽出若干个体所构成的集合。
- 样本单位(sample unit):构成样本的每个个体称为样本单位。
- 样本容量(sample size):样本中个体的数量,记作n。
参数(paramenter):也称参量,是对总体的度量,希腊字母表示。平均值和方差等。
概率(probability):某事件A在n次重复实验中,发生m次,随着试验次数增加,发生频率逐渐接近确定值。
准确度和精确度
- 准确性(准确度):观测值与真值接近的程度。
- 准确性反映测定值与真值符合程度的大小
- 精确性(精确度):重复观测值彼此之间的接近程度。
- 精确性反映多次测定值的变异程度
误差和错误
实验误差:观测值偏离真值的差异
- 随机误差:抽样误差、偶然误差,不可避免。
- 系统误差:片面误差,只要够精细可以避免。
错误(过失性误差):是指在试验过程中,人为因素所引起的差错.在科学研究过程中,这类错误是不允许产生的.
平均数
反映集中性的特征数是平均数,其中应用最普遍的是算术平均数.此外,还有几何平均数、中位数和众数等.
样本方差
变异系数
样本方差减样本均值;总体方差减总体均值。
全概率公式和贝叶斯公式
大数定律(law of large number)
是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。
伯努利大数定律(Bernoulli theorem),可描述为:设m是n次独立实验中A出现的次数,p是A出现的概率
样本容量越大,样本统计数与总体参数之差越小。只要抽取变量多,就可以用样本估计总体。
二项分布
适用于对立事件。
泊松分布
适用于稀有事件,p<0.1;np>5;
很小的p值和很大的n值。
当较小时,泊松分布是偏倚的。用均值代替。
正态分布
正态分布(normal distribution)把方程背熟。
标准正态分布
标准化才能查表。右侧转成1-左侧。
分位数
双侧分位数的点,x的正半轴,右侧概率是a/2的位置,代表的整体概率是a的概率,包括这个点的右侧和相反数的左侧。
上侧分位数,只在正半轴,a<0.5,分布在正半轴,代表右侧的a概率。
下侧分位数,代表左侧的概率为a的位置。
获取分位数需要进行查表。
无偏估计值
在统计上,如果所有的可能样本的某一统计数的平均值等于总体的相应参数,则称该统计数为总体相应参数的无偏估值(unbiased estimated value)