贝叶斯公式的现实应用

2024-05-11 19:17

1. 贝叶斯公式的现实应用

观点应该跟着事实不断修订。坚定不移不对,听风就是雨也不对——科学的修订,就是贝叶斯方法。
  
 
  
                                          
 贝叶斯公式在概率论与数理统计中必学的概念,要真正的达到应用这个概念还得稍微理解一下公式:
  
 贝叶斯公式完全是建立在一个等式P(A)*P(B|A) = P(B) * P(A|B)之上,而P(A)*P(B|A)和P(B)*P(A|B)的结果都是P(AB),意思是事件A和事件B同时发生的概率。等式中P(A|B)指的是条件概率,即在B已经发生的情况下,A发生的概率,如果B代表下雨的概率,A代表一个人出门带伞的概率,那P(A|B)本质上还是带伞的概率,不过是下雨天的情况下一个人出门带伞的概率。根据经验可以得出,P(A|B)应该是大于P(A)的。平时我们对存在外星人(记作事件A)这一观点的相信的概率可以用P(A)来表示,一般而言咱都不怎么相信外星人存在的,P(A)应该无限趋于0,可是突然有一天一个正儿八经的专家说证明确实有外星人存在(记为事件B),那此时,我们相信外星人存在的概率已经不是P(A)了,而是P(A|B),而这个值可能就要比0大不少了。要是某一天,大半个地球的人都说看到了外星人(记为C),那我们此时相信外星人存在的概率P(A|C)可能就要提高到1,也就是几乎确定就是有外星人存在。
  
 对上面的等式稍微一变形,就可以得到贝叶斯公式 : P(A|B) = P(A) *  P(B|A) / P(B) ,其中P(A)是我们原来对一件事的原有的判断,叫做先验概率;P(A|B)就代表了我们在得到一些证据B之后对原来事物的概率,叫做后验概率。别看公式形式比较复杂,但是有个简单的理解方法:我们把等式右边 P(B|A) / P(B) 看作一个整体,称之为似然比(可以简单理解成证据的有效程度),那么整个公式便可以简单理解成P(你后来的观点)= 似然比 * P(你一开始的观点)。当有新的证据出现之后,别忙着不变,也别忙着立马推翻自己的态度,看看证据的有效性如何,如果真的有效,那就多调整一点自己的态度,如果证据的力度不大,那就少调整一点。卡尔·萨根说过一句话:“超乎寻常的论断需要超乎寻常的证据”,在贝叶斯看来这句话的意思不过是,要想从根本上说服我,你必须拿出唬得住我的东西来。而佛说:哪有什么一定之论,在我眼里,全是概率。
                                          
 如果只想知道哲学上的东西,看官可就此打住,可如果看知道贝叶斯的具体威力,我们不妨来搞一下数学。在狼来了的故事中,我们用A表示小孩可信,B表示小孩说谎。不妨设我们过去对小孩子的印象为P(A)=0.8,P(~A)=0.2。现在我们来计算P(A|B),即小孩说了一次慌滞后的可信程度。在公式中P(B)表示在任何条件下小孩子说谎的概率,可以拆分为P(A)*P(B|A)和P(~A)*P(B|~A),P(B|A)和P(B|~A)分别表示在我们相信他时他说谎的概率和我们不相信他时他说谎的概率,分为设之为0.1和0.5。有一天小孩是说狼来了,80%的可能性狼来了,我们想吃狼肉,于是我们第一次上山打狼,发现狼没有来,即小孩子说了谎。此时P(A|B) = P(A) * P(B|A) / P(B) = 0.8*0.1 / (0.8*0.1 + 0.2*0.5) = 0.444,表明我们上一次当之后对这个小孩的可信程度从0.8下降到了0.444。在此基础之上,有一天小孩又说狼来了,有44.4%的可能性狼来了,本来不想去的,但是上次没吃到狼肉心里痒痒,于是我们又上山打狼,结果小孩又对我们撒了一次谎,狼没有来。我们对他的可信程度P(A|B) =0.444*0.1 /(0.444*0.1 +0.556*0.5) = 0.138,我们上了这小孩两次当,对小孩的可信程度由原来的0.8下降到了0.138。第三次小孩又喊狼来了,我们把小孩子吃了。
  
 有时候明明可以很快用贝叶斯公式解决问题谋得巨大财富,结果我们却迟迟不动,很多时候,并不是贝叶斯公式太难,只不过是我们不知道贝叶斯公式使用的时机。贝叶斯的应用领域极其广泛,语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、Xbox给你的游戏水平打分……各种你想到和想不到的应用,都在使用贝叶斯方法。但是扯这些东西和我们有点儿远,我们的市井生活中什么时候该用贝叶斯公式呢?很简单: 只要还没得到最终结果,就可以请贝叶斯爸爸出场帮你作弊。 你和两位猥琐而胆小的基友在操场上看到了一位身材火辣的性感女神,决定写纸条抽签选一人去要联系方式。每人抽到一个签,中彩概率都是1/3,很公平。你抽到了一张签,觉得自己不会那么背中彩,刚准备看,突然一个基友摊出了自己的纸条,哈哈大笑说:“看不是我,你们两个其中之一中彩了。”此时,天真的你觉得那有啥,反正大家中彩的概率 依旧 还是1/3,而且我运气好,不可能是我。在准备亮出你的纸条的一刹那见,你虎躯一震,隐隐约约感到有些不对劲: 三个人只有一个出了结果,还没有得到最终结果,我可以叫贝叶斯爸爸来帮忙算一下概率 。
                                          
 贝叶斯看了,笑了,说:我们记你中彩为事件A,P(A)=1/3,那个已经摊出纸条的基友没有中彩为事件B,P(B)=2/3,傻子,你现在中彩的概率P(A|B)=P(A) * P(B|A) / P(B) = (1/3) * 1 /(2/3)= 1/2。心中暗自骂到:卧槽,他看了一眼他自己的纸条,我的gay率就由1/3变成1/2了,还好发现得早。于是机智的你抢过另一个基友还没看的纸条,把它和你的纸条一起吃掉,说:“我太饿了,我们重新抽签吧。“

贝叶斯公式的现实应用

2. 贝叶斯公式的应用

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。

贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。
这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。

所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。
面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在,投资者在决策判断时并非绝对理性,会行为偏差,进而影响资本市场上价格的变动。但长期以来,由于缺乏有力的替代工具,经济学家不得不在分析中坚持贝叶斯法则。

3. 一个贝叶斯公式例子

 最近看曹政推荐的《这才是心理学》,英文名 《How to Think Straight About Psychology》(号称贴吧之父俞军也推荐),这本书确实是好书。中间提到很多人都没有概率推理的概念,人的直觉在涉及概率时很容易犯错,因为人类真正搞清楚概率也就最近几百年的事情,而且仅限于小部分数学家,概率观还没有进入人们的常识性观念。
   《这才是心理学》书中里面有一个在一定情况下预估某人发病的概率,据说很多医生都会搞错(欧美国家的医生基本都是最顶尖的理科生,和中国不太一样)。条件是这样:
   就是下图的左上角数据(下图是我在公司里分享时的简单板书)。
                                           问题是如果目前有一个未知病史的人被测出 HIV 阳性,那么这个人真携带 HIV 的可能性是多少?就是上图的左下角问题,真阳性 (Positive) 的几率是多少?
   我问了好几个人,包括我自己的第一直觉都是这个人真携带 HIV 的可能性应该挺高的。但是实际上不是。
   我们可以用贝叶斯公式来解决这个问题(上图右上角的公式)。使用这个公式 最重要的是确定如何界定 A、B 事件分别是什么 ,以及他们的条件概率。(关于贝叶斯原理有很多很好的文章介绍,比如 这篇 。这里我就不再弄斧了。
   在上图中,我界定
   所以根据贝叶斯公式,就可以算出约为 2%(如上图中的右下角),其实概率挺低的。所以我们的直觉往往对于概率推理往往是有误导性。
   个人觉得直觉应用在对人的判断上很合适,比如判断一个人值不值信任,可以做长期朋友吗?往往见面的第一印象挺准的。但是对于一些涉及到计算、概率推理之类的,坚决不能依靠直觉,得好好算算。

一个贝叶斯公式例子

4. 贝叶斯公式及经典例子有哪些?

公式:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),贝叶斯公式其实就是找事件发生的原因的概率。
贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。
如果用数学语言描绘,即当已知事件Bi的概率P(Bi)和事件Bi已发生条件下事件A的概率P(A│Bi),则可运用贝叶斯定理计算出在事件A发生条件下事件Bi的概率P(Bi│A)。

贝叶斯法则
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。

5. 贝叶斯公式

贝叶斯公式  贝叶斯公式
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出   贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)   如上公式也可变形为:P(B|A)=P(A|B)*P(B)/P(A)   例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?   我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P(A) = 3 / 7,P(B)=2/(20·365)=2/7300,P(A | B) = 0.9,按照公式很容易得出结果:P(B|A)=0.9*(2/7300)*(7/3)=0.00058   另一个例子,现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?   假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8   贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。

贝叶斯公式

6. 贝叶斯公式

贝叶斯法则
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。

7. 两个小例子来理解贝叶斯公式

  关于贝叶斯公式,已经回炉学习过很多次了,但是感觉还是理解的不够深入,最近又重温了下,发现和工作生活还是很普遍的,可以不断的培养这种思维模式。 
  
   我做了如下的两个例子来理解贝叶斯公式。
  
  
 这个公式看起来比较有逼格。
  
 
  
  
 
                                          
 
  
 如果我们换一个角度来看,其实贝叶斯公式是加法公式和乘法公式的综合应用,如:
  
 P(A+B)=P(A)+P(B)  A,B互斥
  
 P(AB)=P(A)*P(B|A), P(A)>0
  
 
  
  
 
                                          
 
  
 它就好像是一个动态的天平,因为条件的变化而不断保持一种平衡,我来举两个例子。
  
 第1个是出行相关的,我们出门的时候通常会有多云天气,我们想根据日常的一些信息来判断是否会下雨。
  
 
  
  
 通过这些信息,我们如何得到问题的答案:
  
    今天多云 下雨的概率是多少
  
 我们假设 A为多云,B为下雨,则需要计算的是P(B|A)的值。
  
 A 多云
  
 B 下雨
  
 根据以上的信息,可以得到如下的信息:
  
 P(A|B)=0.5
  
 P(B)=0.1
  
 P(A)=0.4
  
 P(B|A)=P(B)*P(A|B)/P(A)
  
 =0.1*0.5/0.4=0.125
  
 
  
  
 再来一个例子,那就是和判断疾病相关的,一般的课本上都会有一个习题,我们描述下这个问题,假设是张三。
  
 
  
  
 我们可以设定两个事件:
  
 A 过敏
  
 B 有
  
 然后根据如上的信息,可以得到如下的信息,当然这次就比较纠结了。
  
 P(B|A)=0.8
  
 P(B|~A)=0.1
  
 P(A)=0.01
  
 P(A|B)=?
  
 好像到了这里,没法直接套用公式了,我们得做下折中。
  
 不过我们可以把有这种过敏和没有这种过敏的概率相加来求这个一般概率:
  
 
  
 1% 的人有这种过敏,检测对 80% 的这些人说 "有"
  
 99% 的人没有这种过敏,检测对 10% 的这些人说 "有"
  
 P(B)
  
 =0.01*0.8+0.99*0.1=0.099+0.008
  
 =0.107
  
 计算概率得:
  
 P(A|B)=P(A)*P(B|A)/P(B)
  
 =0.01*0.8/0.107
  
 =0.0748
  
 
  
  
 所以整体算下来概率也不高,这个时候再来看公式,其实就是会清晰一些了。 

两个小例子来理解贝叶斯公式

8. 贝叶斯公式

最近因为听播客,对概率学产生了极大的兴趣的。
  
 吐槽一下:没想到我一个从高中开始就不愿意学数学的人会有对概率学产生兴趣的一天。不过话说回来,如果当初的数学老师把那些理论结合到生活实例上的话,我想我不会如此厌弃数学。毕竟我从高中开始不喜欢数学的原因就是“学这跟我的生活有什么关系,我买菜需要用代数、微积分吗”
  
  思考题:胡润富豪榜国内上榜人士半数没有高学历,所以读书无用吗? 
  
 你觉得这句话有道理吗?
  
 接下来先了解一下贝叶斯公式,然后我们再来讨论这道题。
  
 贝叶斯定理是关于 随机 事件A和B的 条件概率 (或 边缘概率 )的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
  
 
  
                                          
 再来一个比较直观的,
                                          
 经典例子:
  
 两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
  
 首先分清楚现象和规律。
  
 拿出来1颗糖,可能是水果糖,也可能是巧克力糖,这是两个现象。
  
 这颗糖,可能是从1号碗来的,也可能是从2号碗来的,这是两个规律。
  
 所以组合之后,有4种情况: 1号碗水果糖0.75 ,1号碗巧克力糖0.25, 2号碗水果糖0.5 ,2号碗巧克力糖0.5。
  
 套用公式:P(从一号碗来规律|水果糖现象)=P(水果糖现象|从一号碗来规律) P(从一号碗来规律)/P(水果糖现象)=0.75* 0.5/0.625=0.6。
  
 最终得出:这颗水果糖来自1号碗的概率是0.6
  
 回到上面那个思考题,首先由题目可知:无论有没有高学历进入胡润富豪榜的概率都是0.5。
  
 以上面的例子来打比方,进入富豪榜和未进入富豪榜的分别为水果糖和巧克力糖,高学历的是1号碗,低学历的是2号碗,这两个碗进入富豪榜的概率都是0.5。
  
  But,这个进入富豪榜的0.5在原先的两个碗里所在的比例是完全不一样的!这颗水果糖想要被选中,那它在1号碗的概率是0.75,而在2号碗的概率则只有0.5。 
  
  虽然总数不变,但是对于个体来说,这个概率上的不同所带来的的差距却是天翻地覆的。 
  
 题目所在的年份,整体环境,根据国家统计局颁布的《2010年第六次全国人口普查主要数据公报》,得知中国大陆:
  
 具有大学(指大专以上)文化程度的人口为119636790人 ; 而当年中国人口是134091万人,
  
 计算得大专以上的人口比例为8.9%
  
 其中本科生的比例更低,仅有2.7%
  
  也就是说,仅占总人口2.7%的本科以上的高学历人口,占据了进入富豪榜总人数的50%。对于个体来说,如果你想要实现进入胡润富豪榜的目标,那么你在高学历碗里的成功率远远高于你在低学历碗里。 
  
 具体的计算方法,可以参见知乎。类似的例子还有预测病人发病率真实性等等,有兴趣的可以多搜索一些看看。