贝叶斯估计的介绍

2024-05-17 04:42

1. 贝叶斯估计的介绍

贝叶斯估计,是在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

贝叶斯估计的介绍

2. 贝叶斯方法理解

读到了一篇不错的关于贝叶斯方法和贝叶斯网络的 文章 ,整理一下理解和思考。
  
 概率和统计是两个非常相关的概念,大家印象里很容易把统计变量等同于某个概率值或概率分布,但对于不同的统计方法而言,如何看待统计变量是存在区别的。
  
 对于某个待推断的统计变量  ,频率学派认为  是一个固定变量,给定了一系列随机样本  后,通过计算频率来估计样本的分布,从而确定  。相反,贝叶斯学派认为  也是随机变量,在没有观察到任何样本之前,人们可以对  有一个主观的猜测,通常表示为先验分布  。而当观察到样本后X,先验分布会被逐渐修正为后验分布  ,从而逼近真正  的取值。
  
 既然贝叶斯方法中,需要由后验分布来估计统计变量,那么一个重要的问题是如何计算后验分布。这里就需要引入贝叶斯公式:   。
  
 可以看到,后验分布  是先验分布  通过乘以某个修正因子  得到的。这里  被称为Likelihood,表示已知  ,样本X发生的概率;  称为联合分布,表示  同时发生的概率;  则代表样本X发生的边缘分布,可以通过将联合分布  对  积分求得。
  
 在实践中,我们一般取使后验概率分布  最大的  作为估计,也即最大后验估计。对于给定的X,一般认为  也是固定的,因此最大后验估计也就被转化为最大化  。
  
 以上方法被广泛应用在各类问题中,比如应用朴素贝叶斯算法解决垃圾邮件分类,应用noisy channel model解决拼写检查。
  
 参考:
    从贝叶斯方法谈到贝叶斯网络

3. 参数的贝叶斯估计

  介绍    第一部分  参数方法——类密度模型参数估计    第二部分  监督学习——分类(基于似然的方法)    第三部分  监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)    第四部分  监督学习——回归    第五部分  监督学习——关联规则    第六部分  维度规约(特征的提取和组合)    第七部分  半参数方法    第八部分  非监督学习——聚类    第九部分  非参数方法——密度估计    第十部分  非参数方法——决策树实现的判别式    第十一部分  多层感知器——非参数估计器    第十二部分  局部模型    第十三部分  支持向量机与核机器    第十四部分  隐马尔科夫模型    第十五部分 参数的贝叶斯估计   第十六部分  集成学习——组合多学习器    第十七部分  增强学习    第十八部分  机器学习实验    第十九部分  特征工程与数据预处理 
   在贝叶斯方法中,把参数看做具有某种概率分布的随机变量,对参数的这种不确定性建模。   在极大似然估计中,把参数看做未知常数,取最大化似然  的参数为估计值。但在使用小样本时,极大似然估计可能是很差的估计,在不同的训练集上求得的参数相差较大,具有较大方差。   在贝叶斯估计中,利用估计  具有不确定这一事实,不是估计单个  ,而是通过估计分布  ,加权使用所有的  。也就是分摊估计的不确定性。
   在估计  时,可以利用我们可能具有的关于参数值的先验信息  。尤其在使用小样本时,先验信息很重。使用贝叶斯规则,将先验与似然结合在一起,来计算后验  。   这样,给定样本X,能够用它估计新实例  的概率分布:        如果  是离散值,则用  取代积分,后验则为样本X下每个  的可能性。
   这与《 参数方法——类密度模型参数的估计 》中介绍的贝叶斯估计不同,没有先估计确定的  ,而是对所有可能的后验进行了积分,是 全贝叶斯方法 。
   但大多数情况下这个 积分很难计算 的,除非后验有很好的形式(所以《参数方法——类密度模型参数的估计》中的方法,将参数归结到一点,不去计算这个积分)。
   但贝叶斯估计还是有其独有的 优点 。首先先验帮助 忽略了不太可能的  值 。此外,不是在预测时使用单个  ,而是生成 可能的  值集合 ,并在预测时 全部使用 ,用可能性加权。   而最大后验(MAP)方法使用先验,则只利用了第一个优点。而对于极大似然(ML)方法,这两个优点都不具备。
   对于 很多无法计算的情况,通过近似计算来处理 ,包括马尔科夫链蒙特卡洛抽样,拉普拉斯近似、变分近似。
     
   考虑样本来自一元高斯分布,  ,分布的参数  ,  是需要估计的。样本似然是  
   对多元变量样本,与一元样本的方法相同,只是使用了多元高斯分布  。其中  是 精度矩阵 。   对于均值,使用多元高斯先验     对于精度矩阵,使用多元版本的伽马分布(又称Wishart分布)先验  。
     
   同上面概率分布的参数一样,对函数参数的估计,同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验,再求积分。
   考虑 线性回归模型   ,其中  ,  是噪声的精度。   模型的参数是权重  ,记样本为  ,其中  ,  。将样本记为输入矩阵和期望输出向量两部分  。   给定输入的输出有概率分布  
   在 贝叶斯估计 的情况下,为参数  定义一个高斯先验  。对于后验,可得到  。   其中  ,  。   为了得到新输入  的输出  。
   如果采用 最大后验估计 对参数做点估计,由于后验为高斯分布,则有  
   MAP等同于最大化后验的对数     
   而同样作为点估计的 极大似然估计 ,并没有利用先验信息。整体样本的对数似然为  ,其中第二项相对于参数是常数。   把似然的第一项展开成        最大似然估计要最大化对数似然,等价于最小化最后一项,即最小化误差的平方和的参数  。误差平方和为     关于  求导并令其等于零,可得到             对于 一般模型   ,不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地,一样可通过最小化误差平方和  求得 最小二乘估计子   ,来计算输入的输出  。   或采用最大后验作为参数估计,由(b)的形式可写出一个适用于一般函数的增广误差函数        该目标函数比误差平方和多了一项,在统计学中称之为 岭回归 。是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。(对于线性模型来说,则避免(c)中  矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。正如MAP的解(a)比ML的解(c)在对角线增加了阐述想  ,保证矩阵可逆。)
   在《 多层感知器 》一节中的网络规模部分介绍的权重衰减(a),也有岭回归的形式,由第二项给每个  一个靠近0的趋势。它们的目的都是降低模型复杂度,是正则化方法。
     
   前一部分假设噪声服从给定的正态分布,  。如果  也是未知的,那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样,对精度  定义伽马先验  ,   进一步定义  基于  的先验  。   如果  ,  ,则如前一部分所讨论的。   参数  和  的共轭先验为正态-伽马先验:        可得后验  
   其中                 
   这里采用 马尔科夫链蒙特卡洛抽样(MCMC) 来得到贝叶斯拟合。首先从  中抽取一个  值,然后从  抽取  。   这样得到一个从后验  中抽样的模型,通过抽取多个模型,并取这些模型的平均,作为 全贝叶斯积分的近似 。
     
   对给定输入  ,使用参数  的MAP估计(a)来计算输出        这是对偶表示,其中  包含先验参数。如果像用支持向量机那样用训练数据表示参数,可以把预测输出写成输入和悬链数据的函数,我们可以把这表示为  。   其中     
   考虑到可以使用非线性基函数  映射到新空间,在新空间中拟合线性模型(《 核机器 》)。这种情况下,作为线性核(d)的推广,其中的 d 维  变为 k 维的  。        其中,  ,  ,  是  映射后的数据矩阵。这是  的空间中的对偶表示。
   在《 监督学习——分类(基于判别式的方法) 》中介绍的逻辑斯蒂判别式,对两类问题,假定线性可分,有  。伯努利样本的对数似然为  。通过最大似然估计得到参数  的估计。   在贝叶斯方法中,假定参数的高斯先验  ,而后验的对数为        这个后验分布不再是高斯分布,并且不能精确地积分。这里使用 拉普拉斯近似 。

参数的贝叶斯估计

4. 如何理解贝叶斯公式

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。
例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?

我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058。

5. 如何理解贝叶斯公式

        设A,B是两个事件,且  ,则在事件B发生的条件下,事件A发生的条件概率为:
  
                                                             
  
 一般事件A和B是同一实验下,不同结果组成的合集
                                          
 根据韦恩图来理解一下:“事件B发生的条件下,事件A发生的条件概率”。“事件B发生” = 样本的可选范围限制在B圈中,在这个情况下,A发生的概率(P(A|B)) = AB交集的样本数/B的样本数,通过分母相消,简化成概率相除。
  
         由条件概率得:
  
                                   
  
 进一步推广得:对于任意正整数  ,当  时,有:
  
          
  
         事件组  满足:
  
             1.   两两互斥,即  且  
  
             2.   
  
 则称事件组  是 样本空间的  的一个划分。 
  
 通俗讲,A发生的概率 =   发生的条件下A发生的概率和。
  
 
  
                                          
 某实验样本的集合为  ,圆圈A代表事件所能囊括的所有样本,  为  的一个划分,A的样本数目可以通过与Bi的交集来获得,=(A∩B1的样本数)+(A∩B2的样本数)+····+(A∩Bn的样本数)。样本数公式和概率公式,本质上是一样的东西。
  
          贝叶斯公式: 设  是样本空间  的一个划分,则对任一事件A,有
  
                                            
  
 贝叶斯公式=全概率公式+乘法公式。解释:当事件A发生(或A为真)的条件下,  发生(或  为真)的概率。是在反溯事件发生的原因。
  
 
  
  
 小华很害羞而且性格孤僻,虽然乐于助人,但却对周围的人或现实世界不太感兴趣。一个温顺而又井井有条的人,他做事条理性喜,热衷于钻研细节。综上,你认为“小华是一个图书管理员”或者“小华是一个农民”那个概率大?
                                          
 答:小华是农民的概率大。下面我们使用贝叶斯公式来算一下
  
  a. 在没有限制条件下,问:小华是什么工作?(这里我们假设只有管理员和农民两个选项)
  
  答:农民, 根据国家统计局2017年发布数据,中国共有5.7亿农村人口,去除2.3亿外出务工人员,真正职业为农民的人数为3.4亿。中国的图书管理员人数为0.37亿(我瞎说的,计算方便)。那么小华是农民的概率为:3.4/(3.4+0.37)=90%,是管理员的概率为:0.1。
  
  b. 那么根据条件1,问:小华的工作是什么?
  
  答:农民, 根据我们的认知,图书管理员中符合条件1描述的比例大概为40%,用概率论的公式表示:  。农民中符合条件1描述的比例大概为10%(我知道“我爱发明”中有很多热爱钻研的农民,不用提醒我),用概率论的公式表示:  。假设全国总人数为100,那么农民为90人,管理员为10人。在根据条件1的概率,符合条件1的农民:90*10%=9人,符合条件1的管理员:10*40%=4人,所以农民的概率大。
  
 根据贝叶斯公式:
  
 在满足条件1的情况下(条件1为真时),小华是图书馆员的概率:
  
   
  
  注:其中,农民和管理员在总人数的比例我们称之为:先验概率。 
  
  c. 条件2:小华爱好书法,问:小华的工作是什么?
  
  答:管理员。 当a,b中的条件为真时,图书管理员爱好书法的概率为50%,农民爱好书法的概率为10%。那么根据贝叶斯公式:“小华爱好书法” 为真,则小华的工作是图书管理员的概率:
  
                          
  
  注:其中,满足问题ab的农民和管理员人数之比例我们称之为:先验概率。 
  
 
  
                                          
 问题的关键不是在于,人们对图书管理员和农民的形象认识是否有偏差, 而是在于,一般人做判断的时候,没人把农民和图书管理员的比例信息考虑进去, 这个比例是否准确不重要,重要的是,你是否考虑过。如果你考虑了,最起码可以做一个粗略的估计, 所以,理性不是说知道事实,而是知道哪些因素会影响事实。 
  
 鸣谢:B站up主:3Blue1Brown,传送门:  https://www.bilibili.com/video/av84799361 
  
  3.你是否患有肝癌?狼是否来了?

如何理解贝叶斯公式

6. 如何理解贝叶斯公式?

用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出
贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
如上公式也可变形为:P(B|A)=P(A|B)*P(B)/P(A)贝叶斯公式  贝叶斯公式
例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P(A) = 3 / 7,P(B)=2/(20·365)=2/7300,P(A | B) = 0.9,按照公式很容易得出结果:P(B|A)=0.9*(2/7300)/(3/7)=0.00058
另一个例子,现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?
假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)/(8/20)=0.875
贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。
贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。
bayes&amp  bayes&

其中L(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)按这些术语,Bayes法则可表述为:
后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。
另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:
后验概率 = 标准似然度 * 先验概率

7. 贝叶斯公式的理解

能把P(城市|省份)和P(省份|城市)联系起来的公式叫贝叶斯公式。我们来看贝叶斯公式长什么样子。
                                          
 用A表示省份,B表示城市,套入公式,即能把P(城市|C)和P(C|城市)联系起来。看到能够联系起来,上级工作人员很高兴,但是这公式有什么意义吗,是不是随便编造的一个公式,为何叫贝叶斯公式而不是叫陈佩斯公式?
  
 贝叶斯公式以托马斯·贝叶斯(Thomas Bayes,1701-1761)命名的,贝叶斯是和牛顿同时代的牧师,同时也是一位业余数学家,和牛顿不同的是,贝叶斯的理论当时并未被重视,原因在于贝叶斯在统计当中引入了主观因素,即所谓的先验概率,这对于数学来说是大忌,数学应该是客观的,怎么能加入主观因素。因此,直到1950年左右,人们发现加入先验概率效果更好,贝叶斯的理论才被广泛接受。
  
 
  
                                          
 
  
  
     一个理论能被广泛接受,一定是因为能够解决很多问题,那贝叶斯理论又解决了什么问题,为什么一个数学理论能够加入主观因素?
  
   如果问抛硬币正面朝上的概率,很多人会肯定回答说概率是1/2,但这是想当然了,对于理想的硬币,正反面概率是均匀的,但是如果硬币动了手脚,那就不一定了,这个时候,要怎么去确定概率是多少?有人想到通过做抛硬币的试验来确定,例如抛5次硬币,统计正面和反面出现的次数,如果抛5次都是正面向上,我们能说正面向上的概率是100%吗?有人说,5次太少,那抛5000次以上总能计算概率大小吧,答案是可以,只是这种估计概率的方式成本太高了。事实上,现实生活中,有很多类似的例子是不能通过做试验来确定概率的,例如小明预测明天下雨的概率是30%,他无法重复过上明天100次,统计下雨的次数来计算下雨的概率。而贝叶斯理论,可以解决这种在有限信息条件下对概率的一个预估,贝叶斯理论的思路是, 在主观判断的基础上,先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数) 。
  
 我们继续来看贝叶斯公式,我们再用省份和城市来理解这个公式有点不太好理解,因为那个例子看起来我们所有的信息都知道了。这里再举另外一个例子来理解。
  
 曾经有一个大神给我传授表白理论,他说如果女神从来没有单独出去逛街吃饭,这说明女神根本不喜欢你,表白的成功概率很低的,反之亦然。
  
 我们以这个理论作为概率的例子,首先,分析给定的已知信息和未知信息:
  
 1)要求解的问题:女神喜欢你,记为A事件
  
 2)已知条件:经常和女神单独出门吃过饭,记为B事件
  
 那么,P(A|B)就是女神经常和你单独出门吃饭这个事件(B)发生后,女神喜欢你的概率。把这个套入贝叶斯公式来理解一下。
  
 
  
                                          
 贝叶斯可以分为三个部分,先验概率、可能性函数和后验概率。
  
 1)先验概率
  
 我们把P(A)称为"先验概率"(Prior probability),先验概率是根据以往经验和分析得到的概率。这个例子里就是在不知道女神经常和你单独出门逛街的前提下,来主观判断出女神喜欢你的概率。因为是主观判断,我们可以给任何值,例如高富帅可以把这个概率设定得很高,为80%,也可以设定低一点,例如50%,这完全是根据个人经验做出的判断。这也是前面说的贝叶斯公式的主观因素部分。
  
 2)可能性函数
  
 P(B|A)/P(B)称为"似然函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。至于新信息带来的调整作用大不大,还得看因子的值大不大。
  
 如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大,例如女神平时很少和别人出门逛街吃饭,那么这个调整因子特别有用,肯定是大于1的。
  
 如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性,例如女神偶尔也和他人出门逛街吃饭,那么和女神出门吃饭没有我们带来任何信息,对判断女神是否喜欢你没有重大意义;
  
 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小,例如知道女神实际上有喜欢的人了,那该信息直接使得女神喜欢你的概率下降很厉害。
  
 至于为什么似然函数的公式长这样的,这个留在以后再解释。
  
 3)后验概率
  
 P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神跟你出门逛街吃饭这个事件发生后,对女神喜欢你的概率重新预测。
  
 通过这个例子,我们理解了贝叶斯公式,也知道了贝叶斯公式能够通过似然函数不断调整主观概率得到后验概率,使得预测更加准确,这也是为什么带有主观因素还能在数学界呆着的原因。也正因为这样,贝叶斯可以出现在所有需要作出概率预测的地方,例如垃圾邮件过滤,中文分词,疾病检查等。特别是在机器学习领域,贝叶斯理论更是一个绕不过去的门槛。

贝叶斯公式的理解

8. 贝叶斯公式通俗理解

  贝叶斯公式:  
                                           
   推导之前,我们需要先了解一下 条件概率 :
                                           
   已知数据如下:
   P(A) 表是人为光头的概率,P(B) 表示为人为程序员的概率。   则 P(A) = 4/9 ,P(B) = 3/9 = 1/3 ,P(A, B) = 2/9   P(A|B) 则为程序员中光头的概率为:2/3   P(B|A) 则为光头中程序员的概率:2/4 = 1/2   则按照条件概率:P(A|B) = P(A, B)/ P(B) = 2/3   贝叶斯公式:P(A|B) = P(A)·P(B|A)/P(B) = 2/3   通过上面连个公式推导发现 条件概率 和 贝叶斯 的结果是一样的。
最新文章
热门文章
推荐阅读