目录
1.模型目标
预测某一区域的房价中位数
2.选择框架
有监督学习任务:训练集中的每个实例都有标签(该区域的房价中位数)
回归任务:因为你要对某个值进行预测。更具体地说,这是一个多重回归问题,因为系统要使用多个特征进行预测(使用区域的人口、收入中位数等)。这也是一元回归问题,因为我们仅尝试预测每个区域的单个值。
简单的批量学习应该就能胜任:我们没有一个连续的数据流不断流进系统,所以不需要针对变化的数据做出特别调整。批量学习:当系统投入生产环境后,学习就停止。在线学习:系统发布了,还需要根据输入的训练数据逐步累积学习成果。
3.选择性能指标
均方根误差(RMSE)(Root Mean Square Error) --- 回归问题的首选性能指标
m表示数据集中的实例数是数据集中第i个实例的所有特征值的向量,
是其标签(该实例的期望输出值)
h是系统的预测函数,也称为假设。当给系统输入一个实例的特征向量时,它会为该实例输出一个预测值
=h(
)
X是一个矩阵,包含数据集中所有实例的所有特征值。每个实例占一行,第 i 行等于的转置
RMSE(X,h)表示使用预测函数h在一组示例中测量的成本函数