泊松回归（Poisson Regression）

泊松回归（Poisson Regression）是一种统计建模方法，主要用于处理计数数据的回归分析。它是一种广义线性模型（GLM），特别适用于目标变量为非负整数（即计数数据）的情况。泊松回归的基础是泊松分布，适用于事件在固定时间或空间内发生的次数的建模。以下是泊松回归的关键特点和使用场景：

泊松分布

泊松回归假设目标变量 $ Y $ 服从泊松分布，其概率质量函数为： \[ P(Y = y) = \frac{\lambda^y e^{-\lambda}}{y!} \] 其中， $ $ 是泊松分布的参数，即事件发生的平均次数。

模型形式

泊松回归模型假设目标变量的对数期望值与解释变量 $ X $ 的线性组合有关： \[ \log(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p \] 其中， $ $ 是目标变量的期望值， $ _0, _1, _2, , _p $ 是待估计的回归系数。

链接函数

泊松回归使用对数链接函数（log link function）将线性预测器 $ = _0 + _1 X_1 + _2 X_2 + + _p X_p $ 转化为泊松分布参数 $ $ ： \[ \lambda = e^{\eta} \]

使用场景

事件计数数据：例如，单位时间内某地发生的交通事故次数、一天内一个商店的顾客人数等。

稀疏事件：例如，某种罕见疾病的发病率、制造过程中产品的缺陷数等。

离散非负整数数据：例如，调查中某种行为的发生次数、体育比赛中的得分等。

优点

自然处理零值：泊松回归适合处理数据中包含大量零值的情况。

解释性强：回归系数 $ $ 可以直接解释为自变量变化对目标变量期望值的影响。

限制

均值-方差相等假设：泊松回归假设目标变量的均值和方差相等（即泊松分布的特性），这在某些情况下可能不成立。当数据表现出过度离散（即方差大于均值）时，负二项回归（Negative Binomial Regression）可能是更好的选择。

不适用于负值：泊松回归无法处理负值，因为计数数据本身不可能为负。

扩展

对于存在过度离散的数据，可以使用以下方法进行处理：

负二项回归（Negative Binomial Regression）：通过引入额外的参数来处理数据的过度离散现象。

零膨胀泊松回归（Zero-Inflated Poisson Regression）：适用于包含大量零值且数据分布不均匀的情况。

泊松回归在实际应用中非常广泛，特别是在社会科学、生命科学、工程等领域。它提供了一种有效的方式来建模和分析计数数据，帮助研究人员和数据分析师理解和预测事件的发生频率。

泊松分布

模型形式

链接函数

使用场景

优点

限制

扩展

Vincent Huang