一、线性代数
二、函数,微积分
三、数据度量,统计量及抽样分布,参数估计
四、假设检验,相关分析,回归分析
——————————
离散:N
稠密:Q
连续:R
离散型数据:离散随机变量是指 一个只取有限个数或可数无限个数值的随机变量。自然数。
连续型数据:连续随机变量是指 一个取任何实数的概率都为零的变量。(稠密+连续),几何型数据。
————————————
横截面数据:在一个时间点/一个时间段内取到的所有数据(企业一个月的销量)
时间序列数据:数据带有时间,就带有天然的相关性。默认一次只研究一个序列。
面板数据:既有时间属性又有空间属性。(去年一年企业在全国各大城市的销量数据)
————————————
排序 | 计算 | 数据类型 | 例子 |
NO | NO | 定类型 | 国籍 |
YES | NO | 定序型 | 健康状况 |
YES | YES | 数值型 | 时间 |
以前做的更多是“数值型”;现在做得更多是“定序型”。例如:消费者偏好(不好量化)。
*多多积累定序型数据分析的研究方法。
*存在不可排序但可计算的数据,仅仅一种叫复数型 z=x+iy
————————————
数据模型:基于统计数据的拟合函数的方法
支持向量机:用一条直线,一刀将数据分开
线性代数:
重点:线性空间/数据空间/向量空间
向量的加法:二维空间内,给定2个向量所围成的平行四边形的对角线
思考方法一:形成平时四边形的对角线
思考方法二:把一根向量平移到另一根向量的端点
减法是加法的逆运算
向量的数乘:将给定向量按比例缩放(拉伸),负数表示反向拉伸
二维空间的向量的线性组合:
张成空间:所有可以表示为给定向量的线性组合的向量集合,被成为给定的向量张成(span)的空间
开集&闭集:开集(,)的边界取不到。闭集【,】是开集的补集。开集在内,闭集在外。
紧集:有界闭集,即闭集在内开集在外。鼓励用紧集做数据。