4.4. 模型选择、欠拟合和过拟合

要点

1. 训练误差与泛化误差

训练误差（training error）是指，模型在训练数据集上计算得到的误差。

泛化误差（generalization error）是指，模型应用在新数据（测试集）（同样从原始样本的分布中抽取的无限多数据样本时），模型误差的期望。

验证数据集：一个用来选超参数的数据集，评估模型好坏，看是否过拟合

注意

代码里常用 test set 表示验证数据集，虽然名字叫 test set，但实际上是 validation set

测试数据集：只用一次的数据集，报告模型性能

通常我们没有很多数据来训练，所以分给评估模型好坏的数据也很少；同时由于很多学习算法的随机性、初始值设置的随机性，需要多次验证来求平均，从而相对准确的反应模型好坏。

算法过程：

注意

是拿同一个模型训练 K 次，计算这 K 次的平均误差，不是接着第一折训练数据，在第二折数据的基础上继续训练

模型复杂度对欠拟合和过拟合的影响，中间是最优

注意

这里横轴是模型复杂度，比如神经网络的深度，而课程 Notebook 里横轴是一个模型多次训练的训练次数

深度学习一个核心思路就是模型足够复杂，再去调整模型复杂度达到最优

思考：如何估计模型的复杂度

用来衡量模型的复杂度，定义为：对于一个分类模型，VC 维等于一个最大数据集的大小，不管数据集的 target 怎么标号，这个模型都能完美分类

线性模型最多能完美划分 3 个点，四个点就不能完美划分了，所以 VC 维 = 3