单层网络:回归 (Regression)

Summary by Chandery | Chapter 4 in Deep Learning: Foundation and Concepts | 2025年10月

在本章中，我们使用线性回归框架讨论了神经网络背后的一些基本思想，这能简要地帮助我们了解多项式曲线拟合。我们将看到，线性回归模型对应于具有单层可学习参数的简单形式的神经网络。尽管单层网络的实际应用非常有限，但它们具有简单的分析性质，并为引入许多核心概念提供了一个很好的框架，这些概念将为我们在后面的章节中讨论深度神经网络奠定基础。

线形回归

回归的目的是在给定维向量作为输入变量的条件下预测连续的目标向量。一般来说我们有训练集包括个观察值({},{})，目标是对于一个新值预测它的目标值。我们建立一个函数来表示这种转换，其中表示从训练集中训练而得的参数向量。

最简单的回归模型的形式被表示为对输入变量的线性组合:

其中。

线性回归这一术语有时特指这种形式的模型。该模型的关键特性是它是参数,…,的线性函数。然而，它也是输入变量的线性函数，这对模型造成了很大的限制。

注意: 这里是因为由于对于输入变量是线性的，模型不管怎么叠加，都存在一种一层的线性变换与之等价。模型无法表达非线性的分布。

基函数

我们可以把先前简单的模型形式扩展为使用非线性函数对输入变量进行修正的形式:

被称为基函数。j的最大值时M-1，所以模型的最大值是M。

为模型提供了偏移矫正，通常被称为偏移量(bias)。这里我们可以定义使得形式可以化简为：

其中，，图4.1展示了使用神经网络的形式表示这个等式：

这里，每个基函数都由一个输入节点表示，实心节点表示”偏置”基函数，函数由一个输出节点表示。每个参数由连接相应基函数和输出的线表示。

使用了基于非线性的函数后，对于输入向量来说变成了一个非线性的函数。然而，当前的表达形式被称为线性模型因为它对于w是线性的。这种对于参数的线性性极大的简化了对于此类模型的分析。但是，它依然拥有一些显著的限制。

在深度学习出现之前，机器学习的时间中通常对输入变量\textbf{x}进行一些形式的预处理——通常被称为特征提取(feature extraction)——用一组基函数表示{}。我们希望找到一个高效强力的基函数集使得训练任务可以用一个很简单的模型表示。不幸的是，出了最简单的应用外，我们很难构造一个适合所有应用的基函数。深度学习使用训练数据集本身的方式训练处所需的非线性变换来解决这个问题。

在第一章中简要提到的线性模型的形式为：

这里的。当然，基函数还有很多表达方式，例如

这里的控制了基函数在输入空间中的位置，参数控制了空间范围。这些通常被称为”高斯”基函数，但应该注意的是，它们不需要有概率意义。特别是归一化系数不重要，因为这些基函数将乘以可学习参数。

注意: 归一化系数指的是高斯分布前面的

或者用sigmoid(> 注意: S型的)基函数

是逻辑sigmoid函数，其表达式为

同样我们也可以用tanh函数因为它的表达式与有关，因此，函数的一般线性组合等价于tanh函数的一般直线组合，因为它们可以表示同一类输入-输出函数。图4.2展示了不同选择基函数的图像。

左边展示基于多项式的基函数；中间展示高斯基函数；右边展示Sigmoidal(S型)基函数

似然函数

我们使用最小化平方损失函数的方法来你和多项式函数，在一种高斯噪声模型的假定下，这种误差函数可以作为最大似然解。

推导说明:

这里对这句话进行一个推导：

我们考察一个假设：对于观测值，我们认为它是某个真实函数的输出加上高斯噪声。假设有一个模型预测值，其中是我们要拟合的函数，是模型参数。

模型设定：
我们假设观测值可以表示为：

其中是一个高斯噪声，满足。

似然函数：
因此，在给定参数的条件下，观测值的概率密度可以表达为：

对数似然函数：
对上述似然函数取对数，得到对数似然函数：

最大化对数似然：
为了执行最大似然估计，我们需要最大化对数似然函数。由于是一个常数，不依赖于，因此最大化对数似然函数相当于最大化项：

最大化这个表达式意味着最小化平方项，即：

因此，从这里我们得出最小化平方损失函数与最大化似然函数是等价的。

同样的，我们假设目标变量来自于确定的函数加上高斯噪声

这里是一个均值为0方差为的高斯噪声。因此我们可以写

然后我们考虑输入的集合以及与之对应的目标值，我们把这个集合写成。假设这些数据从式(9)中独立抽取的，我们可以得到一个似然函数的表达（这里我们用到式（3））

对这个似然函数取对数

$$\ln p(\textbf{t}|X, \textbf{w},\sigma^2) = \sum_{n=1}^{N}\ln\mathcal{N}(t_n|\textbf{w}^T\phi(\textbf{x}n),\sigma^2)=-\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)-\frac{1}{2\sigma^2}\sum{n=1}^{N}{t_n-\textbf{w}^T\boldsymbol{\phi}(\textbf{x}_n)}^2 \quad (11)$$

极大似然

写完似然函数之后我们使用极大似然来得到\textbf{w}和。首先考虑\textbf{w}。式(11)对\textbf{w}求导得

令该梯度为零得

$$0=\sum_{n=1}^{N}t_n\boldsymbol{\phi}(\textbf{x}n)^T-\textbf{w}^T\left(\sum{n=1}^{N}\boldsymbol{\phi}(\textbf{x}_n)\boldsymbol{\phi}(\textbf{x}_n)^T\right) \quad (13)$$

化简得到\textbf{w}的值为

这个被称为最小二乘法问题的正规方程。这里的是一个的矩阵，被称为设计矩阵，其中元素,因此

$$\boldsymbol{\Phi}=\left(\begin{array}{cccc}\phi_0(\mathbf{x}_1) & \phi_1(\mathbf{x}1) & \cdots & \phi{M-1}(\mathbf{x}_1) \phi_0(\mathbf{x}_2) & \phi_1(\mathbf{x}2) & \cdots & \phi{M-1}(\mathbf{x}_2) \vdots & \vdots & \ddots & \vdots \phi_0(\mathbf{x}_N) & \phi_1(\mathbf{x}N) & \cdots & \phi{M-1}(\mathbf{x}_N)\end{array}\right) \quad (15)$$

式子

被称为矩阵的Moore-Penrose广义逆，它可以被看成是逆矩阵在非方阵的泛化。当然如果其是方阵，使用定理可以容易看出

此时我们可以对偏置参数的作用有一些了解。如果我们显式地将偏置项写出来，式(11)中的误差函数就变成

令该式对的导数为0并化简，我们得到

其中我们定义

可以看到偏差补偿了目标值的平均值（在训练集上）与基函数值的平均值的加权和之间的差异。

同样的，我们可以对取对数后的似然函数对方差求导，得到

因此，我们看到方差参数的最大似然值由回归函数周围目标值的残差方差给出。

最小二乘法的几何意义

我们考虑一个N维空间的轴由来定，因此\textbf{t}=是空间中的一个向量。每个基函数可以表示为N个点，也可以看成是空间中的一个向量，如图4.3。可以注意到表示矩阵的第j列，而表示矩阵第n行的转置。如果M小于N，M个向量会从N维空间中分割出一个维度为M的子空间。我们定义向量\textbf{y}表示第n个分量由给出的N维向量。因为\textbf{y}是向量组的任意组合，因此\textbf{y}也处于M维子空间中。这时候均方误差就表示\textbf{y}和\textbf{t}的平方欧几里得距离。因此，最小二乘法算出来的\textbf{w}表示在子空间S中选择出离\textbf{t}最近的\textbf{y}的参数。在图4.3中直观的来说，我们希望\textbf{y}是\textbf{t}在子空间S上的垂直投影。

在实际应用中，如果接近奇异值的时候，直接求解方程可能会导致数值困难。特别是，当两个活多个基向量共线或几乎共线时，得到的参数值可能具有较大的范围。在处理真是数据集的时候，这种近乎退化的情况并不罕见。由此产生的数值困难可以使用奇异值分解的技术来解决。注意，添加正则化项可以确保矩阵是非奇异的，即使在存在退化的情况下也是如此。

注意: 这点在后面的 1.6正则化最小二乘会详细阐述

最小二乘法的几何解释

顺序学习

极大似然估计的方法设计一次性处理整个训练集，被称为批处理方法。这种方法对于发数据集来说计算成本变得很高。如果使用顺序算法（也被称为在线算法）可能是更好的。在这种算法中，依次考虑一个数据点，并在每次实施后更新模型参数。

我们可以通过一个叫随机梯度下降也叫顺序梯度下降的技巧来实现顺序学习算法。具体的，如果误差函数被表示为和的形式如，在数据点n给出后，随机梯度下降算法使用以下式子来更新参数向量\textbf{w}

其中表示轮数，表示学习率。参数\textbf{w}的值被初始化为。把式(11)代入上式可得

其中。这个被称为最小均方或LMS算法。

正则化最小二乘

我们先前介绍了在误差函数中天机啊正则项来控制过拟合的想法，因此总的误差函数的形式为

其中是正则项的系数，用于控制依赖数据的误差和正则项的相对重要性。最简单的正则项形式是使用权重向量的平方和

如果我们考虑均方误差函数

那么总的误差函数就变成

在统计学中，这个正则化提供了参数收缩方法的一种示例，因为它将参数值收缩到零。他的优点是误差函数仍是\textbf{w}的二次函数，因此它的精确最小值可以以闭合形式找到。具体来说，将式(26)对\textbf{w}的梯度设为零，并且求解\textbf{w}，得到

这提供了一个最小二乘法(式14)的简单的扩展。

多输出

目前，我们已经考虑了只有一个目标变量的情况。在一些应用中，我们希望预测多个目标变量。我们可以把它们集中表示为向量。通过对的每一个分量都引入不同的基函数集可以实现多重、独立的回归算法。然而，更多的方法使用同一个基函数集来对所有目标向量的分量进行建模，因此表示为

其中是一个K 维的列向量，是一个的矩阵。是一个 K 维列向量，其中。同样的，这个式子也可以表示为一个神经网络表示，如图4.4

类似图4.1,输出端换成了多输出

考虑使目标向量的条件分布写成一个高斯各向同性的形式(> 注意: 每个方向的协方差都相等，没有偏好)

如果我们有一组观测值，我们可以把它们合并称为一个的矩阵，第 n 行为。同样的，我们把输入向量合并为。对数似然函数就变为

$$\begin{aligned}\ln p(\mathbf{T}|\mathbf{X},\mathbf{W},\sigma^2) & =\sum_{n=1}^N\ln\mathcal{N}(\mathbf{t}_n|\mathbf{W}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}n),\sigma^2\mathbf{I}) \& =-\frac{NK}{2}\ln\left(2\pi\sigma^2\right)-\frac{1}{2\sigma^2}\sum{n=1}^N\left|\mathbf{t}_n-\mathbf{W}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right|^2.\end{aligned} \quad (30)$$

和之前一样，我们对\textbf{W}求导，令它为零，得到

其中我们把输入特征向量 ,…, 合并为矩阵。对于每个目标变量，我们有

其中 $\textbf{t}k $是一个分量$ t{nk} $组成的维列向量。因此，回归问题的解在不同的目标变量之间解耦，我们只需要计算一个广义逆矩阵$ \Phi \dagger $，这个矩阵由所有向量$ \textbf{w}_k$ 共享。

对具有任意协方差矩阵的一般高斯噪声分布的扩展是直接的。同样，这导致了与K无关的回归问题的解耦。这一结果并不令人惊讶，因为参数\textbf{W}仅定义了高斯噪声分布的均值，我们知道多元高斯均值的最大似然解与其协方差无关。因此，从现在开始，为了简单起见，我们将考虑单个目标变量t。

决策理论

先前，我们把回归任务转化为了建立一个条件概率分布，然后我们选择了高斯噪声模型对真实分布进行建模，得到了\textbf{x}依赖的均值。这个均值由参数\textbf{w}和方差控制。参数\textbf{w}和方差都可以使用极大似然在数据中学到，其预测分布的结果为

$$p(t|\textbf{x},\textbf{w}{ML}，\sigma^2{ML})=\mathcal{N}(t|y(\textbf{x},\textbf{w}{ML}),\sigma^2{ML}) \quad (33)$$

这个预测分布表达了我们在重新输入一个新的\textbf{x}之后结果的\textbf{t}的不确定性。然而，在很多实际的应用中我们需要具体的值而不是一整个分布，特别是当我们需要做一个具体的操作的时候。例如，如果我们的目标是确定用于治疗肿瘤的最佳辐射水平，并且我们的模型预测了辐射剂量的概率分布，那么我们必须使用该分布来决定要施用的特定剂量。因此，我们的任务分为两个阶段。

推理阶段：我们经过推理得到预测的分布。
决策阶段：我们使用得到的分布确定一个具体的值，这个值依赖于\textbf{x}，并且遵循一系列的最优判别标准。

我们可以使用最小化同时依赖于预测分布和的损失函数。

直觉来说，我们会选择条件分布的均值，因此我们令。在一些例子中这个直觉是成立的，但是在一些情况下结果却很糟糕。因此很有必要构建一种能够让我们理解应该在什么时候施行，应该基于什么前提施行的框架。这种框架被称为决定理论(decision theory)。

考虑我们在预测的时候选择一个值，并假设此时的真实值是。这么做了之后我们就可以引入某种形式的惩罚或者花费——损失，我们将其表示为。当然我们不知道真实值，因此我们并不是直接最小化本身，而是最小化的期望，表示为

其中，我们对输入变量和目标变量的分布进行平均，由它们的联合分布加权。在回归问题中一个常见的选择是使用均方损失，表示为。因此，期望损失被写为

注意: 值得注意的是，不要弄混均方损失函数和前面介绍的平方和误差函数。误差函数用来在训练中设置参数，从而确定条件概率分布，而损失函数控制着如何使用条件分布来对于每一个\textbf{x}值确定具体的预测函数。

我们的目标是选择一个来最小化。如果我们假设一个完全灵活的函数——> 注意: 这里的灵活我认为是能够适应目标函数，满足符合下述变分式的条件——我们可以使用变分法得到

使用概率的和与积的法则，我们可以推到

它是以\textbf{x}为条件的的条件平均值，被称为回归函数。

回归函数$f^(x) $通过条件分布$ p(t|\textbf{x})$的平均值给出最小化预期平方损失的平均值。*

结果如图4.5所示，并且很容易扩展到多输出的t,此时最优的条件均值解为。对于一个高斯条件分布而言，条件均值可以被简化为

在式(37)中使用变分法进行推导意味着我们正在优化所有可能的函数。
我们可以从一种不同的方式来推导这个问题，同样可以阐明回归问题的本质。首先明确优化问题本质上是一种条件期望，我们可以把平方项扩展为

其中为了符号简洁，我们使用来表示。代入损失函数式（35）并在t上进行积分，我们看到交叉项消失，我们得到损失函数的表达式

$Missing or unrecognized delimiter for \left\mathbb{E}[L]=\int\left{f(\mathbf{x})-\mathbb{E}[t|\mathbf{x}]\right}^2p(\mathbf{x})\operatorname{d}\mathbf{x}+\int\operatorname{var}\left[t|\mathbf{x}\right]p(\mathbf{x})\operatorname{d}\mathbf{x}. \quad (40)$

推导说明:

这里进行推导

交叉项是因为，首先不依赖,

第三项,

只在第一项中，当的时候，该项最小，而这种情况下该项就会消失。这是我们之前就得到的结果，表明最优最小二乘预测器由条件均值给出，第二项是 t 分布的方差，在 x 上平均，表示目标数据的内在变异性，可以视为噪声。因为它与无关，所以它是损失函数的不可约最小值。

均方损失并不是这里的唯一选择，我们可以简单地考虑一种经过简单泛化的函数，被称为闵可夫斯基损失，其期望值由下式给出

图4.6展示了不同 q 的取值下和的关系

不同 q 的损失图像

偏差和方差的权衡

在线性模型中目前有几个问题：

太多的基函数会导致过拟合
如果限制基函数的数量又会导致欠拟合
虽然正则化可以一定程度控制过拟合，但是引出了如何选择系数的问题
如果同时考虑权重向量\textbf{w}和正则化系数来最小化正则损失显然不行，因为这会使

这时候考虑模型复杂性问题中的频率论观点，即偏差-方差权衡。

在决策理论中我们使用了很多不同类型的损失函数，当我们引入条件分布后，他们无一例外的和最优预测有关。我们定义

使用我们常用的平方损失得

$Missing or unrecognized delimiter for \left\mathbb{E}[L]=\int\left{f(\mathbf{x})-h(\mathbf{x})\right}^2p(\mathbf{x})\operatorname{d\mathbf{x}}+\int\int{h(\mathbf{x})-t}^2p(\mathbf{x},t)\operatorname{d\mathbf{x}}\operatorname{d}t. \quad (43)$

其中第二项和无关，它表示来自数据上固有噪声时损失最小的可实现值。第一项依赖于函数的选择，我们需要找到一个来使得这一项最小。上面讲过这里应该取零。

如果我们有无限的数据，无限的计算资源，理论上我们可以在任意的精度下找到回归函数，然后这就是。但是实际上我们的数据集只有有限个数个数据点，因此我们无法准确得到。

如果我们使用由参数向量\textbf{w}控制的函数对进行建模，那么从贝叶斯的角度来看，我们模型中的不确定性将通过\textbf{w}上的后验分布来表示。然而，频率主义的处理会根据数据集D对\textbf{w}进行点估计，并试图通过以下思维实验来解释这一估计的不确定性。假设我们有大量数据集，每个数据集的大小为，并且每个数据集都独立地从分布获取。对于任何给定的数据集，我们可以运行我们的学习算法并获得预测函数。来自集合的不同数据集将给出不同的函数，从而产生不同的平方损失值。然后通过取该数据集集合的平均值来评估特定学习算法的性能。

对于式(43)中第一项的被积函数，我们加入特定的数据集
同样的我们对其进行类似式(39)的变形

$$\begin{gathered}{f(\mathbf{x};\mathcal{D})-\mathbb{E}_\mathcal{D}[f(\mathbf{x};\mathcal{D})]+\mathbb{E}_\mathcal{D}[f(\mathbf{x};\mathcal{D})]-h(\mathbf{x})}^2 \={f(\mathbf{x};\mathcal{D})-\mathbb{E}\mathcal{D}[f(\mathbf{x};\mathcal{D})]}^2+{\mathbb{E}\mathcal{D}[f(\mathbf{x};\mathcal{D})]-h(\mathbf{x} \+2{f(\mathbf{x};\mathcal{D})-\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]}{\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]-h(\mathbf{x})}.\end{gathered} \quad (4)$$

然后我们对它在给定数据集算期望，> 注意: 注意到交叉项中的${\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]-h(\mathbf{x})} $都是常数和$ D $无关，$ {f(\mathbf{x};\mathcal{D})-\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]}$期望后显然为零，所以交叉项又没了，剩下

$$\begin{aligned}& \mathbb{E}{\mathcal{D}}\left[{f(\mathbf{x};\mathcal{D})-h(\mathbf{x})}^2\right] \& ={\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]-h(\mathbf{x})}^2+\mathbb{E}{\mathcal{D}}\left[{f(\mathbf{x};\mathcal{D})-\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]}^2\right].\end{aligned} \quad (45)$$

该式分为两项

第一项称为偏差平方()，表示所有数据集的平均预测和期望回归函数的不同程度
第二项$\mathbb{E}{\mathcal{D}}\left[{f(\mathbf{x};\mathcal{D})-\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]}^2\right]$被称为方差，用来衡量每个数据集的结果和所有数据集平均预测之间的不同程度。

现在如果我们把上述过程代入到式(43)中可得期望平方损失为

其中

$$\mathrm{variance}=\int\mathbb{E}{\mathcal{D}}\left[{f(\mathbf{x};\mathcal{D})-\mathbb{E}{\mathcal{D}}[f(\mathbf{x};\mathcal{D})]}^2\right]p(\mathbf{x})\operatorname{d}\mathbf{x} \quad (48)$$

注意: 这里相当于把损失项的第一项拆开，对于有限的数据集进行考虑，得到偏差和方差；而 noise 就是我们刚提到的因为高斯噪声模型而得到的期望损失最小可实现值。

因此这个损失函数的优化可以被看作是偏差和方差的权衡。对于约束少的模型来说可以做到偏差很小，但是方差较大；对于约束较多的模型来说可以做到方差很小，但是偏差较大。

作者在这里做了个实验，对函数进行采样，拟合，使用式(26)中的平方正则项形式进行拟合，结果如图4.7。

使用三种不同大小的值得到的结果对比。左边可以看出方差，右边可以看出偏差

定量地，我们可以计算平均预测

偏差方和方差的积分式可以用离散均值的方式给出

$Missing or unrecognized delimiter for \left(\mathrm{bias})^2=\frac{1}{N}\sum_{n=1}^N\left{\overline{f}(x_n)-h(x_n)\right}^2 \quad (51)$

$Missing or unrecognized delimiter for \left\mathrm{variance}=\frac{1}{N}\sum_{n=1}^N\frac{1}{L}\sum_{l=1}^L\left{f^{(l)}(x_n)-\overline{f}(x_n)\right}^2 \quad (52)$

图4.8展示了定量的结果对比。

可以看到偏差方和方差的曲线趋势是相反的，这进一步印证了权衡。其中偏差方+方差的曲线的最小值和测试误差的最小值出现在相同点

偏差-方差分解的实用价值有限，因为它基于数据集集合的平均值，而在实践中，我们只有一个观察到的数据集。如果我们有大量给定大小的独立训练集，我们最好将它们组合成一个更大的训练集，这当然会降低对给定模型复杂性的过度拟合程度。然而，偏差-方差分解经常为模型复杂性问题提供有用的见解，尽管我们在本章中从回归问题的角度介绍了它，但潜在的直觉具有广泛的适用性。

Chandery's Blog

Deep Learning: Foundation & Concepts - Chapter 4