2026/2/9 14:34:05
网站建设
项目流程
只做域名跳转和关停网站,网站手机自动跳转,互联网系统,兴义 网站建设1. 基本概念
1.1 贝叶斯决策论的定义
贝叶斯决策论#xff08;Bayesian Decision Theory#xff09;#xff1a;
概率框架下实施决策的基本方法。
分类任务中的贝叶斯决策论#xff1a;
在理想情况下#xff0c;当所有相关概率都已知时#xff0c;贝叶斯决策论考虑如何基…1. 基本概念1.1 贝叶斯决策论的定义贝叶斯决策论Bayesian Decision Theory概率框架下实施决策的基本方法。分类任务中的贝叶斯决策论在理想情况下当所有相关概率都已知时贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。基本假设假设有NNN种可能的类别标记即Y{c1,c2,…,cN}\mathcal{Y} \{c_1, c_2, \ldots, c_N\}Y{c1,c2,…,cN}。1.2 误判损失误判损失λij\lambda_{ij}λij将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失。0/1损失函数若目标是最小化分类错误率则误判损失可写为λij{0,if ij1,otherwise\lambda_{ij} \begin{cases} 0, \text{if } i j \\ 1, \text{otherwise} \end{cases}λij{0,1,ifijotherwise即正确分类损失为0错误分类损失为1。1.3 条件风险条件风险Conditional Risk基于后验概率P(cj∣x)P(c_j | x)P(cj∣x)可获得将样本xxx分类为cic_ici所产生的期望损失即在样本xxx上的条件风险R(ci∣x)∑j1NλijP(cj∣x)R(c_i | x) \sum_{j1}^{N} \lambda_{ij} P(c_j | x)R(ci∣x)j1∑NλijP(cj∣x)条件风险的含义条件风险表示在给定样本xxx的情况下将xxx分类为cic_ici的期望损失。1.4 总体风险总体风险Overall Risk寻找一个判定准则h:X→Yh: \mathcal{X} \to \mathcal{Y}h:X→Y以最小化总体风险R(h)Ex[R(h(x)∣x)]R(h) \mathbb{E}_x [R(h(x) | x)]R(h)Ex[R(h(x)∣x)]总体风险的含义总体风险表示判定准则hhh在所有样本上的平均期望损失。1.5 贝叶斯判定准则贝叶斯判定准则Bayes Decision Rule对每个样本xxx若hhh能最小化条件风险R(h(x)∣x)R(h(x) | x)R(h(x)∣x)则总体风险R(h)R(h)R(h)也将被最小化。为最小化总体风险只需在每个样本上选择那个能使条件风险R(c∣x)R(c | x)R(c∣x)最小的类别标记h∗(x)argminc∈YR(c∣x)h^*(x) \arg\min_{c \in \mathcal{Y}} R(c | x)h∗(x)argc∈YminR(c∣x)贝叶斯最优分类器h∗h^*h∗称为贝叶斯最优分类器Bayes Optimal Classifier与之对应的总体风险R(h∗)R(h^*)R(h∗)称为贝叶斯风险Bayes Risk。贝叶斯风险的意义1−R(h∗)1 - R(h^*)1−R(h∗)反映了分类器所能达到的最好性能即通过机器学习所能产生的模型精度的理论上限。2. 具体方法2.1 最小化分类错误率0/1损失下的条件风险当使用0/1损失函数时条件风险为R(c∣x)1−P(c∣x)R(c | x) 1 - P(c | x)R(c∣x)1−P(c∣x)最小化分类错误率的贝叶斯最优分类器此时最小化分类错误率的贝叶斯最优分类器为h∗(x)argmaxc∈YP(c∣x)h^*(x) \arg\max_{c \in \mathcal{Y}} P(c | x)h∗(x)argc∈YmaxP(c∣x)直观理解即对每个样本xxx选择能使后验概率P(c∣x)P(c | x)P(c∣x)最大的类别标记。这符合直觉选择最可能的类别。2.2 后验概率的估计核心问题欲使用贝叶斯判定准则来最小化决策风险首先要获得后验概率P(c∣x)P(c | x)P(c∣x)。然而在现实任务中这通常难以直接获得。机器学习的目标从这个角度来看机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c∣x)P(c | x)P(c∣x)。两种建模策略判别式模型Discriminative Models给定xxx可通过直接建模P(c∣x)P(c | x)P(c∣x)来预测ccc例如决策树、BP神经网络、支持向量机等生成式模型Generative Models先对联合概率分布P(x,c)P(x, c)P(x,c)建模然后再由此获得P(c∣x)P(c | x)P(c∣x)例如朴素贝叶斯分类器等2.3 贝叶斯定理贝叶斯定理基于贝叶斯定理P(c∣x)P(c | x)P(c∣x)可写为P(c∣x)P(x,c)P(x)P(c)P(x∣c)P(x)P(c | x) \frac{P(x, c)}{P(x)} \frac{P(c) P(x | c)}{P(x)}P(c∣x)P(x)P(x,c)P(x)P(c)P(x∣c)各项的含义P(c)P(c)P(c)类先验概率表达了样本空间中各类样本所占的比例根据大数定律当训练集包含充足的独立同分布样本时P(c)P(c)P(c)可通过各类样本出现的频率来进行估计P(x∣c)P(x | c)P(x∣c)样本xxx相对于类标记ccc的类条件概率或称为似然P(x)P(x)P(x)用于归一化的证据因子对给定样本xxx证据因子P(x)P(x)P(x)与类标记ccc无关因此估计P(c∣x)P(c | x)P(c∣x)的问题就转化为如何基于训练数据DDD来估计先验P(c)P(c)P(c)和似然P(x∣c)P(x | c)P(x∣c)2.4 估计类条件概率的困难类条件概率的特点类条件概率P(x∣c)P(x | c)P(x∣c)涉及关于xxx所有属性的联合概率。估计困难直接根据样本出现的频率来估计将会遇到严重的困难。具体例子假设样本的ddd个属性都是二值的则样本空间将有2d2^d2d种可能的取值。在现实应用中这个值往往远大于训练样本数mmm。核心问题很多样本取值在训练集中根本没有出现未被观测到与出现概率为零通常是不同的。解决方案需要采用其他方法来估计类条件概率例如假设属性之间相互独立朴素贝叶斯使用参数估计方法使用非参数估计方法3. 总结贝叶斯决策论的核心思想概率框架在概率框架下实施决策基于概率和误判损失选择最优类别标记最小化风险通过最小化条件风险来最小化总体风险理论最优贝叶斯最优分类器提供了分类器性能的理论上限贝叶斯判定准则一般形式选择使条件风险最小的类别标记0/1损失下选择使后验概率最大的类别标记理论保证1−R(h∗)1 - R(h^*)1−R(h∗)反映了分类器所能达到的最好性能后验概率的估计判别式模型直接建模P(c∣x)P(c | x)P(c∣x)生成式模型通过建模P(x,c)P(x, c)P(x,c)来获得P(c∣x)P(c | x)P(c∣x)贝叶斯定理将后验概率分解为先验概率和类条件概率实际应用中的挑战类条件概率估计困难样本空间往往远大于训练样本数需要假设或近似通常需要假设属性独立性或使用其他估计方法理论指导实践贝叶斯决策论为实际分类方法提供了理论指导贝叶斯决策论的意义为分类问题提供了概率框架下的理论基础明确了最优分类器的定义和性质指导了判别式模型和生成式模型的设计为评估分类器性能提供了理论基准