2026/2/7 21:51:51
网站建设
项目流程
北京网站建设浩森宇特,十大网站黄页免费,对网站进行优化,三明注册公司一、最大似然估计概念
最大似然估计是一种参数估计方法#xff0c;其核心思想是#xff1a;在已知观测数据的情况下#xff0c;选择使得观测数据出现概率最大的参数值作为模型参数。形式化描述#xff1a;
假设我们有一组观测数据Xx1,x2,...,xnX {x_1, x_2, ..., x_n}Xx1…一、最大似然估计概念最大似然估计是一种参数估计方法其核心思想是在已知观测数据的情况下选择使得观测数据出现概率最大的参数值作为模型参数。形式化描述假设我们有一组观测数据Xx1,x2,...,xnX {x_1, x_2, ..., x_n}Xx1,x2,...,xn它们服从某个概率分布f(x∣θ)f(x|\theta)f(x∣θ)θ为模型参数。最大似然估计的目标是找到θ\thetaθ使得观测数据的联合概率似然函数最大θ^∗MLEargmax∗θL(θ)其中L(θ)∏i1nf(xi∣θ) \hat{\theta}*{MLE} \arg\max*{\theta} L(\theta) \quad \text{其中} \quad L(\theta) \prod_{i1}^n f(x_i|\theta)θ^∗MLEargmax∗θL(θ)其中L(θ)i1∏nf(xi∣θ)在实际计算中我们通常使用对数似然函数因为乘积形式在计算机上容易下溢并且对数函数单调递增不改变最大值点ℓ(θ)lnL(θ)∑i1nlnf(xi∣θ) \ell(\theta) \ln L(\theta) \sum_{i1}^n \ln f(x_i|\theta)ℓ(θ)lnL(θ)i1∑nlnf(xi∣θ)二、最大似然估计的直觉理解核心直觉想象你有一个模型例如正态分布和一些数据点MLE的做法是找到一个参数使得“生成这些观测数据的概率最大”换句话说“如果这个参数是对的那么观测到的数据最合理”。示例直观化假设你在掷硬币观测结果是H,T,H,H,TH, T, H, H, TH,T,H,H,T硬币正面概率为pppMLE就是找ppp使观测到这些掷硬币结果的概率最大L(p)p3(1−p)2 L(p) p^3 (1-p)^2L(p)p3(1−p)2对L(p)L(p)L(p)求最大值或对数似然ℓ(p)3lnp2ln(1−p)\ell(p) 3\ln p 2 \ln (1-p)ℓ(p)3lnp2ln(1−p)最大化得到 MLE 估计p^3/50.6\hat{p} 3/5 0.6p^3/50.6三、MLE在逻辑回归中的应用逻辑回归预测二分类问题标签yi∈0,1y_i \in {0,1}yi∈0,1。模型假设piP(Y1∣Xi)σ(zi)11e−zi,ziβ0∑j1nβjxij p_i P(Y1|X_i) \sigma(z_i) \frac{1}{1e^{-z_i}}, \quad z_i \beta_0 \sum_{j1}^n \beta_j x_{ij}piP(Y1∣Xi)σ(zi)1e−zi1,ziβ0j1∑nβjxij对样本iii观测yiy_iyi的概率为P(Yyi∣Xi)piyi(1−pi)1−yi P(Yy_i|X_i) p_i^{y_i} (1-p_i)^{1-y_i}P(Yyi∣Xi)piyi(1−pi)1−yi对全体样本的似然函数L(β)∏i1mpiyi(1−pi)1−yi L(\beta) \prod_{i1}^m p_i^{y_i} (1-p_i)^{1-y_i}L(β)i1∏mpiyi(1−pi)1−yi对数似然函数ℓ(β)∑i1m[yilnpi(1−yi)ln(1−pi)] \ell(\beta) \sum_{i1}^m \Big[ y_i \ln p_i (1-y_i) \ln (1-p_i) \Big]ℓ(β)i1∑m[yilnpi(1−yi)ln(1−pi)]训练目标找到β\betaβ使ℓ(β)\ell(\beta)ℓ(β)最大即最可能产生观测标签的数据分布。β^∗MLEargmax∗βℓ(β) \hat{\beta}*{MLE} \arg \max*\beta \ell(\beta)β^∗MLEargmax∗βℓ(β)3.1 对数似然函数求解逻辑回归无法直接解析求解β\betaβ因为σ(z)\sigma(z)σ(z)非线性所以采用迭代优化方法梯度上升法迭代更新公式β(t1)β(t)η∂ℓ(β)∂β \beta^{(t1)} \beta^{(t)} \eta \frac{\partial \ell(\beta)}{\partial \beta}β(t1)β(t)η∂β∂ℓ(β)对数似然梯度∂ℓ(β)∂β∑i1m(yi−pi)xi \frac{\partial \ell(\beta)}{\partial \beta} \sum_{i1}^m (y_i - p_i) x_i∂β∂ℓ(β)i1∑m(yi−pi)xi牛顿-Raphson法 / IRLS迭代加权最小二乘在风控评分卡中常用更新公式β(t1)β(t)−H−1∇ℓ(β) \beta^{(t1)} \beta^{(t)} - H^{-1} \nabla \ell(\beta)β(t1)β(t)−H−1∇ℓ(β)其中HHH为对数似然的 Hessian 矩阵3.2 直观解释(yi−pi)(y_i - p_i)(yi−pi)表示预测误差梯度告诉我们如何调整参数使模型预测概率pip_ipi更接近真实标签yiy_iyi迭代直到对数似然函数不再显著增加 → 参数收敛 → MLE求得四、MLE的性质渐近无偏性样本量足够大时MLE是无偏的即E[θ^]≈θ\mathbb{E}[\hat{\theta}] \approx \thetaE[θ^]≈θ渐近有效性MLE方差最小达到了 Cramer-Rao 下界渐近正态性样本量大时θ^\hat{\theta}θ^服从正态分布θ^∼N(θ,I−1(θ)) \hat{\theta} \sim N(\theta, I^{-1}(\theta))θ^∼N(θ,I−1(θ))其中I(θ)I(\theta)I(θ)为 Fisher 信息矩阵局限性小样本可能有偏对异常值敏感需要模型假设正确五、MLE在风控建模中的实战意义概率预测输出违约概率pip_ipi可直接转化为评分卡分数系数可解释性每个βj\beta_jβj表示特征xjx_jxj对 log-odds 的影响便于业务理解和监管审查可扩展性可与正则化L1/L2结合处理高维特征算法稳定性MLE与梯度优化结合可在大规模数据上稳定训练与 WOE 结合WOE分箱使特征与 log-odds 近似线性 → 满足 MLE线性假设六、MLE总结最大似然估计是逻辑回归训练的核心原理通过最大化观测数据的似然函数得到最可能的参数优势概率可解释、参数直观、可结合正则化在风控中与 WOE 分箱、评分卡转换、线上审批决策紧密结合