STAT313 chap1&2 Nonparametric Regression
好的,我们来谈谈非参数回归。在统计学中,非参数回归是一种不依赖于参数假设的回归分析方法。在普通的参数回归,比如线性回归中,我们假设因变量Y和自变量X之间有一个明确的参数化形式,例如,我们假设Y等于X乘以系数加上一个常数项。但在非参数回归中,我们不做这样的假设。 你给出的PPT截图中给出了非参数回归的模型, $ Y = f(X) + $ ,其中:
$ Y $ 是因变量,或者说是我们想要预测或估计的变量。
$ f(X) $ 是一个未知函数,它描述了X和Y之间的关系。在非参数回归中,这个函数的形式不是预先设定的。
$ $ 是误差项,表示除了X影响Y之外的随机扰动。这个误差项有一个重要的属性,即条件期望 $ E[| X] = 0 $ ,这意味着误差项在给定X的条件下,它的平均值是0,即误差是随机的,不会系统地偏离某一个值。
非参数回归的目的是估计函数 $ f $ ,即找到一个函数 $ $ ,这个函数可以很好地拟合数据中的Y和X之间的关系,而不需要指定 $ f $ 的具体形式。例如,我们不需要假设 $ f $ 是线性的,或者是任何特定的数学形式。 非参数回归的一大优势是它的灵活性,因为它不需要强加任何特定的模型形式,它可以捕捉数据中的复杂关系。但这也意味着我们需要有足够的数据来准确估计这种关系,而且估计出的模型可能不如参数模型那么容易解释。
205名加拿大工人估计回归函数
这张幻灯片显示了一个非参数回归的例子,其中研究的是年龄与收入(取对数)之间的关系。让我们一步步分析:
在图中,每一个蓝点代表一个数据点,可能是一名工人的年龄和对应的收入。
曲线是通过非参数回归方法估计出来的,它试图捕捉年龄和收入之间的关系。这条曲线不是直线,这说明非参数回归没有假设这两个变量之间关系是线性的。
曲线表明在年龄较小的时候,收入增长较快(曲线左侧的斜率较大)。到了中年,似乎有一个收入的下降(曲线中间的“低谷”),然后随着年龄的增长,收入增长放缓(曲线右侧的斜率较小)。
幻灯片的注释提到:
非参数估计器捕获了中间的低谷和左侧的陡增。这意味着非参数回归能够描述数据的实际变化,即使这种变化不是一个简单的线性趋势。
与参数回归相比,非参数回归的拟合要好得多。这是因为参数回归,比如线性回归,可能无法捕捉复杂的模式,如中间的低谷或变化的斜率。
没有必要预先知道关于函数形式的信息。也就是说,在非参数回归中,我们不需要预先设定 $ Y $ 和 $ X $ 之间的关系(例如, $ Y $ 是 $ X $ 的线性函数,或者 $ Y $ 是 $ X $ 的多项式等),非参数方法能够从数据本身“学习”这种关系。
通过这个例子,我们可以看到非参数回归分析的一个显著优势:它能够适应数据中存在的任何关系的形状,而不是限定在某些预设的函数形式中。这就给予了非参数方法极大的灵活性和适应性,允许它在应对真实世界复杂数据时表现得更好。
Density estimation
现在让我们来看一下密度估计。
密度估计是统计学中的一个概念,用于估计一个未知的概率密度函数(pdf),这个函数描述了一个连续随机变量的概率分布。
假设我们有一个随机样本 \(X_1, X_2, \ldots, X_n\) ,这些样本来自于一个连续随机变量 \(X\) 。这里的“随机样本”意味着每一个样本 \(X_i\) 都是独立同分布的,即每个样本都是独立于其他样本抽取的,并且每个样本都服从相同的分布,这种性质我们称为i.i.d.(独立同分布)。我们想要从这个样本中学习 \(X\) 的概率密度函数 \(f_X\) 。
要了解概率密度函数,我们首先需要复习概率密度函数和累积分布函数(cdf)。概率密度函数给出了随机变量取特定值的概率密度,而累积分布函数 \(F_X(x)\) 给出了随机变量 \(X\) 取值小于或等于 \(x\) 的概率,即 \(P(X \leq x)\) 。累积分布函数 \(F_X\) 是单调递增的,其值在0到1之间,对于所有的 \(x \in \mathbb{R}\) ,且包含了关于 \(X\) 的概率行为的全部信息。
幻灯片中的图展示了离散和连续随机变量的累积分布函数。我们可以看到离散的CDF是阶梯形的,而连续的CDF是平滑的曲线。
了解这些基础之后,我们可以使用这些样本来估计 \(X\) 的概率密度函数。这是非参数估计中的一个任务,因为我们不假设概率密度函数 \(f_X\) 有任何特定的形式,而是让数据自己告诉我们它的形状。常用的非参数密度估计方法包括核密度估计(KDE)和直方图。
离散和连续随机变量
我们现在进入到离散和连续随机变量的讨论。 离散随机变量的特点是其可能的结果是有限个或可数无限个,比如掷骰子的结果就是典型的离散随机变量,因为它只能取1到6这几个离散的值。离散随机变量的累积分布函数(CDF)是阶梯形的,因为每个可能的结果都会导致CDF发生跳跃。
而连续随机变量则有一个概率密度函数(PDF),这个函数定义了随机变量在任何特定值上的概率密度。对于连续随机变量 \(X\) ,概率密度函数 \(f_X(x)\) 满足以下属性:
概率 \(P(a < X \leq b)\) 等于 \(f_X(x)\) 从 \(a\) 到 \(b\) 的积分。
累积分布函数 \(F_X(x)\) 可以通过 \(f_X(x)\) 从负无穷积分到 \(x\) 来得到,即 \(F_X(x) = \int_{-\infty}^x f_X(t) dt\) 。
概率密度函数 \(f_X(x)\) 在几乎所有点上都是非负的,并且其整个定义域上的积分等于1,即 \(\int_{-\infty}^{\infty} f_X(x) dx = 1\) 。
概率密度函数可能在某些点上不连续,但累积分布函数总是连续的。
连续随机变量与离散随机变量的主要区别在于其可能结果是无限且不可数的,且概率是通过密度来定义的,而不是通过具体值的概率。例如,对于掷骰子,我们可以说“掷出一个6”的概率是1/6;但是对于连续随机变量,如人的身高,我们不能说一个具体身高的概率,而是说在一定区间内的身高的概率。
现在我们来讨论概率密度函数(PDF),它是描述连续随机变量概率分布的函数。
这个幻灯片展示了两个常见的概率密度函数的例子,标准正态分布和指数分布,以及它们对应的公式和样本分布。
标准正态分布: 标准正态分布的概率密度函数表达式为 $ f_X(x) = e^{-} $ 。它是对称的,并且其最高点在 $ x=0 $ 。这个分布在统计学中非常重要,经常用来作为其他分布的近似,或者在许多统计方法中作为基础假设。这是因为许多随机变量在大量独立因素的影响下其分布趋向于正态分布,这就是中心极限定理的内容。
指数分布: 指数分布的概率密度函数为 $ f_X(x) =
\[\begin{cases} e^{-x} & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}\]$ 。指数分布通常用来描述时间间隔,例如,某个事件发生的时间间隔。指数分布的一个关键特点是无记忆性,即未来的概率分布不依赖于已经过去的时间。
在幻灯片上的图中,蓝色的点代表从相应分布中抽取的样本数据。通过这些样本点,我们可以观察到数据的分布情况。对于正态分布的样本,数据点主要集中在均值附近,即中心的峰值区域。而对于指数分布的样本,数据点随 $ x $ 值的增大而快速减少,这表明较大值出现的概率较小。
幻灯片中的最后一条注释说明我们更可能观察到 $ X $ 在 $ f_X $ 较大的区域,这是因为概率密度函数的值较大意味着随机变量取该值的概率更高。所以对于正态分布,我们更可能观察到 $ X $ 接近均值的值;而对于指数分布,我们更可能观察到 $ X $ 接近零的值。
Density estimation
回到密度估计,我们的任务是:观测一个随机样本 \(X_1, X_2, \ldots, X_n\) ,这个样本来自于某个连续随机变量 \(X\) ,然后估计 \(X\) 的概率密度函数 \(f_X\) 。
参数密度估计方法需要假设随机变量 \(X\) 属于某个特定的密度函数族,这个族是由一些参数决定的。
最常见的假设是 \(X\) 服从正态分布,正态分布的密度函数为 $ f_X(x; , ^2) = ( - ) $ ,其中 $ $ 是均值, $ ^2 $ 是方差。
在参数密度估计中,我们会用样本均值 $ {X} $ 来估计 $ $ ,用样本方差 $ S^2 $ 来估计 $ ^2 $ 。样本均值是所有样本值的平均,而样本方差是所有样本值与样本均值之差的平方的平均。
然后我们可以用这些估计值来构建随机变量 \(X\) 的概率密度函数的估计。这个估计的概率密度函数表达式为 $ _X = ( - ) $ 。
与非参数密度估计相比,参数密度估计的优点在于其简单性和计算效率。如果参数化的假设正确,参数方法通常可以给出非常准确的估计。然而,如果实际数据的分布与假定的参数模型不符,这种估计就可能会产生误导。这时候非参数方法就会更有优势,因为它不依赖于任何特定的分布假设,能更灵活地适应数据的真实分布。不过,非参数方法通常需要更多的数据,并且计算上可能更复杂。
Parametric density estimation
在这张幻灯片中,我们看到的是参数密度估计的一个例子,但这里展示了当假设违背真实情况时,估计会失败的情况。具体来说,这个例子展示了对数正态分布的真实密度(黑色曲线),以及基于错误假设(即数据来自正态分布)得到的参数密度估计(红色曲线)。蓝色的点表示的是样本数据。
当我们对数据进行参数密度估计时,我们通常会假设这些数据来自我们所选择的某个密度函数族。在这个例子中,原本数据是对数正态分布的,这意味着 $ X $ 本身不是正态分布,但 $ (X) $ 是正态分布的,满足 $ (X) (, ^2) $ 。然而,如果我们错误地假设 $ X $ 本身是正态分布,并基于这个错误的假设进行参数估计,那么我们得到的估计结果就会与数据的真实分布不匹配。
从图中我们可以看到,基于正态分布假设的参数估计曲线(红色)不能很好地匹配样本数据点(蓝色),特别是在数据的分布更加偏向于右侧的时候。这展示了当模型假设不正确时,参数估计可能会给出误导的结果。这是为什么在实践中,在进行参数估计之前,验证数据是否满足模型的假设是非常重要的。如果我们有理由相信数据可能不满足简单的假设,那么使用非参数估计方法可能是更好的选择。
{:height 479, :width 678}
在这张幻灯片中,展示了非参数密度估计的一个例子,以及它如何用于标准正态分布的样本数据。这里,真实的密度曲线用黑色表示,而非参数估计的密度曲线用红色表示,样本数据用蓝色点标出。
非参数估计,如核密度估计(KDE),不会对数据分布做出特定的参数化假设。它使用样本数据直接估计概率密度函数,通常通过平滑处理样本点来构建密度曲线。从图中可以看出,非参数估计的曲线虽然捕捉了样本数据的分布趋势,但可能不如参数估计曲线那样紧密贴合真实的密度函数。这通常是因为非参数估计需要较大的样本量来减少估计误差和提高估计的精确度。
此外,非参数估计的精确度还取决于所选取的带宽大小,带宽决定了估计曲线的平滑程度。过小的带宽可能会导致过度拟合,即曲线会在样本点间出现很多波动,而过大的带宽可能导致曲线过于平滑,从而掩盖数据中的结构。
幻灯片的注释指出,虽然非参数估计工作得很好,但它可能不如参数估计精确,因为参数估计在正确的假设下能够提供非常准确的模型。而且,非参数估计通常需要更大的样本量,这是因为它依赖于数据本身来构建密度估计,而没有任何关于分布形式的先验假设。在样本量较少的情况下,非参数估计可能会受到随机波动的较大影响。
好的,我们来谈谈非参数回归。在统计学中,非参数回归是一种不依赖于参数假设的回归分析方法。在普通的参数回归,比如线性回归中,我们假设因变量Y和自变量X之间有一个明确的参数化形式,例如,我们假设Y等于X乘以系数加上一个常数项。但在非参数回归中,我们不做这样的假设。 你给出的PPT截图中给出了非参数回归的模型, $ Y = f(X) + $ ,其中:
$ Y $ 是因变量,或者说是我们想要预测或估计的变量。
$ f(X) $ 是一个未知函数,它描述了X和Y之间的关系。在非参数回归中,这个函数的形式不是预先设定的。
$ $ 是误差项,表示除了X影响Y之外的随机扰动。这个误差项有一个重要的属性,即条件期望 $ E[| X] = 0 $ ,这意味着误差项在给定X的条件下,它的平均值是0,即误差是随机的,不会系统地偏离某一个值。
非参数回归的目的是估计函数 $ f $ ,即找到一个函数 $ $ ,这个函数可以很好地拟合数据中的Y和X之间的关系,而不需要指定 $ f $ 的具体形式。例如,我们不需要假设 $ f $ 是线性的,或者是任何特定的数学形式。 非参数回归的一大优势是它的灵活性,因为它不需要强加任何特定的模型形式,它可以捕捉数据中的复杂关系。但这也意味着我们需要有足够的数据来准确估计这种关系,而且估计出的模型可能不如参数模型那么容易解释。
205名加拿大工人估计回归函数
这张幻灯片显示了一个非参数回归的例子,其中研究的是年龄与收入(取对数)之间的关系。让我们一步步分析:
在图中,每一个蓝点代表一个数据点,可能是一名工人的年龄和对应的收入。
曲线是通过非参数回归方法估计出来的,它试图捕捉年龄和收入之间的关系。这条曲线不是直线,这说明非参数回归没有假设这两个变量之间关系是线性的。
曲线表明在年龄较小的时候,收入增长较快(曲线左侧的斜率较大)。到了中年,似乎有一个收入的下降(曲线中间的“低谷”),然后随着年龄的增长,收入增长放缓(曲线右侧的斜率较小)。
幻灯片的注释提到:
非参数估计器捕获了中间的低谷和左侧的陡增。这意味着非参数回归能够描述数据的实际变化,即使这种变化不是一个简单的线性趋势。
与参数回归相比,非参数回归的拟合要好得多。这是因为参数回归,比如线性回归,可能无法捕捉复杂的模式,如中间的低谷或变化的斜率。
没有必要预先知道关于函数形式的信息。也就是说,在非参数回归中,我们不需要预先设定 $ Y $ 和 $ X $ 之间的关系(例如, $ Y $ 是 $ X $ 的线性函数,或者 $ Y $ 是 $ X $ 的多项式等),非参数方法能够从数据本身“学习”这种关系。
通过这个例子,我们可以看到非参数回归分析的一个显著优势:它能够适应数据中存在的任何关系的形状,而不是限定在某些预设的函数形式中。这就给予了非参数方法极大的灵活性和适应性,允许它在应对真实世界复杂数据时表现得更好。
Density estimation
现在让我们来看一下密度估计。
密度估计是统计学中的一个概念,用于估计一个未知的概率密度函数(pdf),这个函数描述了一个连续随机变量的概率分布。
假设我们有一个随机样本 \(X_1, X_2, \ldots, X_n\) ,这些样本来自于一个连续随机变量 \(X\) 。这里的“随机样本”意味着每一个样本 \(X_i\) 都是独立同分布的,即每个样本都是独立于其他样本抽取的,并且每个样本都服从相同的分布,这种性质我们称为i.i.d.(独立同分布)。我们想要从这个样本中学习 \(X\) 的概率密度函数 \(f_X\) 。
要了解概率密度函数,我们首先需要复习概率密度函数和累积分布函数(cdf)。概率密度函数给出了随机变量取特定值的概率密度,而累积分布函数 \(F_X(x)\) 给出了随机变量 \(X\) 取值小于或等于 \(x\) 的概率,即 \(P(X \leq x)\) 。累积分布函数 \(F_X\) 是单调递增的,其值在0到1之间,对于所有的 \(x \in \mathbb{R}\) ,且包含了关于 \(X\) 的概率行为的全部信息。
幻灯片中的图展示了离散和连续随机变量的累积分布函数。我们可以看到离散的CDF是阶梯形的,而连续的CDF是平滑的曲线。
了解这些基础之后,我们可以使用这些样本来估计 \(X\) 的概率密度函数。这是非参数估计中的一个任务,因为我们不假设概率密度函数 \(f_X\) 有任何特定的形式,而是让数据自己告诉我们它的形状。常用的非参数密度估计方法包括核密度估计(KDE)和直方图。
离散和连续随机变量
我们现在进入到离散和连续随机变量的讨论。 离散随机变量的特点是其可能的结果是有限个或可数无限个,比如掷骰子的结果就是典型的离散随机变量,因为它只能取1到6这几个离散的值。离散随机变量的累积分布函数(CDF)是阶梯形的,因为每个可能的结果都会导致CDF发生跳跃。
而连续随机变量则有一个概率密度函数(PDF),这个函数定义了随机变量在任何特定值上的概率密度。对于连续随机变量 \(X\) ,概率密度函数 \(f_X(x)\) 满足以下属性:
概率 \(P(a < X \leq b)\) 等于 \(f_X(x)\) 从 \(a\) 到 \(b\) 的积分。
累积分布函数 \(F_X(x)\) 可以通过 \(f_X(x)\) 从负无穷积分到 \(x\) 来得到,即 \(F_X(x) = \int_{-\infty}^x f_X(t) dt\) 。
概率密度函数 \(f_X(x)\) 在几乎所有点上都是非负的,并且其整个定义域上的积分等于1,即 \(\int_{-\infty}^{\infty} f_X(x) dx = 1\) 。
概率密度函数可能在某些点上不连续,但累积分布函数总是连续的。
连续随机变量与离散随机变量的主要区别在于其可能结果是无限且不可数的,且概率是通过密度来定义的,而不是通过具体值的概率。例如,对于掷骰子,我们可以说“掷出一个6”的概率是1/6;但是对于连续随机变量,如人的身高,我们不能说一个具体身高的概率,而是说在一定区间内的身高的概率。
现在我们来讨论概率密度函数(PDF),它是描述连续随机变量概率分布的函数。
这个幻灯片展示了两个常见的概率密度函数的例子,标准正态分布和指数分布,以及它们对应的公式和样本分布。
标准正态分布: 标准正态分布的概率密度函数表达式为 $ f_X(x) = e^{-} $ 。它是对称的,并且其最高点在 $ x=0 $ 。这个分布在统计学中非常重要,经常用来作为其他分布的近似,或者在许多统计方法中作为基础假设。这是因为许多随机变量在大量独立因素的影响下其分布趋向于正态分布,这就是中心极限定理的内容。
指数分布: 指数分布的概率密度函数为 $ f_X(x) =
\[\begin{cases} e^{-x} & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}\]$ 。指数分布通常用来描述时间间隔,例如,某个事件发生的时间间隔。指数分布的一个关键特点是无记忆性,即未来的概率分布不依赖于已经过去的时间。
在幻灯片上的图中,蓝色的点代表从相应分布中抽取的样本数据。通过这些样本点,我们可以观察到数据的分布情况。对于正态分布的样本,数据点主要集中在均值附近,即中心的峰值区域。而对于指数分布的样本,数据点随 $ x $ 值的增大而快速减少,这表明较大值出现的概率较小。
幻灯片中的最后一条注释说明我们更可能观察到 $ X $ 在 $ f_X $ 较大的区域,这是因为概率密度函数的值较大意味着随机变量取该值的概率更高。所以对于正态分布,我们更可能观察到 $ X $ 接近均值的值;而对于指数分布,我们更可能观察到 $ X $ 接近零的值。
Density estimation
回到密度估计,我们的任务是:观测一个随机样本 \(X_1, X_2, \ldots, X_n\) ,这个样本来自于某个连续随机变量 \(X\) ,然后估计 \(X\) 的概率密度函数 \(f_X\) 。
参数密度估计方法需要假设随机变量 \(X\) 属于某个特定的密度函数族,这个族是由一些参数决定的。
最常见的假设是 \(X\) 服从正态分布,正态分布的密度函数为 $ f_X(x; , ^2) = ( - ) $ ,其中 $ $ 是均值, $ ^2 $ 是方差。
在参数密度估计中,我们会用样本均值 $ {X} $ 来估计 $ $ ,用样本方差 $ S^2 $ 来估计 $ ^2 $ 。样本均值是所有样本值的平均,而样本方差是所有样本值与样本均值之差的平方的平均。
然后我们可以用这些估计值来构建随机变量 \(X\) 的概率密度函数的估计。这个估计的概率密度函数表达式为 $ _X = ( - ) $ 。
与非参数密度估计相比,参数密度估计的优点在于其简单性和计算效率。如果参数化的假设正确,参数方法通常可以给出非常准确的估计。然而,如果实际数据的分布与假定的参数模型不符,这种估计就可能会产生误导。这时候非参数方法就会更有优势,因为它不依赖于任何特定的分布假设,能更灵活地适应数据的真实分布。不过,非参数方法通常需要更多的数据,并且计算上可能更复杂。
Parametric density estimation
在这张幻灯片中,我们看到的是参数密度估计的一个例子,但这里展示了当假设违背真实情况时,估计会失败的情况。具体来说,这个例子展示了对数正态分布的真实密度(黑色曲线),以及基于错误假设(即数据来自正态分布)得到的参数密度估计(红色曲线)。蓝色的点表示的是样本数据。
当我们对数据进行参数密度估计时,我们通常会假设这些数据来自我们所选择的某个密度函数族。在这个例子中,原本数据是对数正态分布的,这意味着 $ X $ 本身不是正态分布,但 $ (X) $ 是正态分布的,满足 $ (X) (, ^2) $ 。然而,如果我们错误地假设 $ X $ 本身是正态分布,并基于这个错误的假设进行参数估计,那么我们得到的估计结果就会与数据的真实分布不匹配。
从图中我们可以看到,基于正态分布假设的参数估计曲线(红色)不能很好地匹配样本数据点(蓝色),特别是在数据的分布更加偏向于右侧的时候。这展示了当模型假设不正确时,参数估计可能会给出误导的结果。这是为什么在实践中,在进行参数估计之前,验证数据是否满足模型的假设是非常重要的。如果我们有理由相信数据可能不满足简单的假设,那么使用非参数估计方法可能是更好的选择。
{:height 479, :width 678}
在这张幻灯片中,展示了非参数密度估计的一个例子,以及它如何用于标准正态分布的样本数据。这里,真实的密度曲线用黑色表示,而非参数估计的密度曲线用红色表示,样本数据用蓝色点标出。
非参数估计,如核密度估计(KDE),不会对数据分布做出特定的参数化假设。它使用样本数据直接估计概率密度函数,通常通过平滑处理样本点来构建密度曲线。从图中可以看出,非参数估计的曲线虽然捕捉了样本数据的分布趋势,但可能不如参数估计曲线那样紧密贴合真实的密度函数。这通常是因为非参数估计需要较大的样本量来减少估计误差和提高估计的精确度。
此外,非参数估计的精确度还取决于所选取的带宽大小,带宽决定了估计曲线的平滑程度。过小的带宽可能会导致过度拟合,即曲线会在样本点间出现很多波动,而过大的带宽可能导致曲线过于平滑,从而掩盖数据中的结构。
幻灯片的注释指出,虽然非参数估计工作得很好,但它可能不如参数估计精确,因为参数估计在正确的假设下能够提供非常准确的模型。而且,非参数估计通常需要更大的样本量,这是因为它依赖于数据本身来构建密度估计,而没有任何关于分布形式的先验假设。在样本量较少的情况下,非参数估计可能会受到随机波动的较大影响。