光学喵-光学课堂 首页 资讯 查看内容

概率论Q&A

2021-12-20 10:38| 发布者:Davis| 查看:954| 评论:0|原作者: 小小光08

 
Q:现实生活中,你有没有遇到过把局部随机性转变为整体确定性的例子呢?
A:这样的例子有很多。读一本书,做一次运动,也许有效,但大部分情况下,都看不出很大的改变。读完一本书,你可能会感觉这本书对自己帮助非常大,可能只是明白了一些道理,但也可能没有任何收获,这是局部的随机性。同理,今天一次运动,未必就能让你减少脂肪,让你健康。但是从长期来看,读书和运动是这个世界上唯二的、从整体上给人生带来确定性改变的事情。
世间的事情,分为我们可控的和我们不可控的。尽人事、听天命也许是一种好的选择。读书和运动大概是最适合“尽人事”的事情。其他的事情可能会不如人意,但你读过的书、做过的运动,总不会辜负你。
 
Q:微信的拼手气红包,请问我们抢到的红包金额是随机的吗?
A:人们做过很多次的微信红包测试,发现了其中的一些规律。最常见的规律是,最后一个红包的金额普遍偏高。大概的逻辑是,微信红包在开始随机生成红包金额时,会用总金额除以红包个数得出一个平均值,再根据这个平均值设定每个红包金额的随机范围。如果前面几个红包的金额都小于平均值,这个误差就会被累积到最后几个红包。
这也说明,计算机程序设置的随机,往往都是伪随机。但对抢红包的我们来说,因为抢到的红包金额是不可预测的,接近于效果随机。也就是说,针对不同的信息获取人,随机有不同的表现形态。当然,即便你老谋深算地想去抢最后一个红包,愿望也往往会落空。抽象一点说,不涉及物理随机产生装置一一比如硬币、骰子、书本等产生的随机,大都是伪随机。
 
Q:现实生活中,你遇到过貌似是相互独立,其实是相互影响、相互联系的事件吗?
A:举一个好玩的例子。美国有个叫OKcupid的相亲网站,对长相和性格的关系做过一个数据分析。理论上,长相的美丑和性格的好坏相互独立,并没有什么关系。但是,在这个相亲
网站上,男女双方可以为对方的颜值和性格分别打分,根据打分结果,颜值和性格是正相关的:颜值高的人,对方认为他/她的性格也好…这说明,我们其实往往是以貌取人的。
 
Q:你能用身边的例子来说明,哪些情况下用定义法定义概率,哪些情况下使用频率法和迭代法定义概率。
A:我们一般把事件分为四种:有信息的单次决策,没信息的单次决策,有信息的多次决策,没信息的多次决策。
第一种,有信息的单次决策。比如,决定要不要坐飞机,你要去了解飞机的安全程度;看孩子发育是不是正常,你可以去查15岁孩子的平均身高;玩德州扑克时,了解起手双A的胜率;判断公司下个月的销售预期,去了解过去12个月公司的销售数据和行业的销售状况…这些都是有信息的单次决策。这时候,我们最常使用的就是频率法,通过整理频率,来判断概率。
第二种,没有信息的单次决策。比如你考试遇到一道非常难的单选题,别说四个答案你看不懂,连问题你甚至都看不懂。这时候,你没有信息,没有数据,四选一,这时对你来说,每一个选项正确的概率就是1/4。再比如观看奥运会比赛,你刚刚打开电视,一场比赛六个选手你都不认识,那么让你猜哪个选手会夺冠,这就是平均概率,每个人都是1/6的夺冠概率。这类没有信息的单次决策,这时候,就要使用定义法。
 
第三种情况,有信息的多次决策。比如人工智能语音识别,这是一种多次决策过程,机器听到“tianqi”这个音时,判断究竟是“天气”,还是“田七”,这不是一次决策的过程。一开始,机器会按照频率法,看所有音频中,或者所有这类的音频中,谁的概率更大,这是频率法;然后再根据后面听到的其他内容,修改前面这个判断。比如,一开始听到的是“今天tianqi”,用频率法,发现天气比田七更常见,那么语音识别的显示就是“今天天气”,后面接着听到的就是“价格又涨了",根据上下文出现的频率关系,前面“tianqi”是中草药田七的概率上升了,这时候又修改前面的天气,变成中草药的田七。你看,有信息的多次决策,就是频率法配合上迭代法一起使用。这是我们日常科学决策最常见的情况。
第四种情况,无信息的多次决策。这类情况是指一开始没有信息,但是符合多次决策的场景。比如当你最开始听说,美国要在2050年开展火星登陆,你对此并没有额外的知识和信息,那判断这件事成功的概率就用定义法,一半对一半吧!然后随着发展,会有更多信息,你看到了技术上的进展报道,看到了尝试发射的行动,看到了各种相关的数据和研究,你慢慢开始调整更倾向于能成功或者不能成功,这时候就是无信息的多次决策,是定义法加上迭代法一起使用。
所有的决策过程大体符合上述四种情况中的一种或多种的组合,你可以灵活地使用一种或多种方法。概率统计就是方法的工具箱,不同情况要使用不同的趁手的工具。
 
 
Q:你有过因为没有准确地翻译现实问题,而导致失误的经历吗?
A:这样的问题有很多。据说,爱因斯坦曾说,如果有人给我一个小时让我解一道题,我会花55分钟搞清楚这个问题到底在问什么,然后花3分钟进行逻辑思考,花1分钟写下答案,最后1分钟向出题者做一个简单解释。其实,好问题远比好答案更重要,这一点,适用于所有领域。
 
Q:你遇到过要用频率度量的概率问题吗?这些度量有标注限定条件吗?
A:绝大多数统计报告,都是用频率度量概率,报告中都会标注误差和置信空间,比如常见的3%的误差范围和95%的置信空间。
跳出概率来看这个问题。我们会做很多数学题,但是数学应用水平的高低,看的不是你会不会做题,而是你是不是真的理解数学在现实中的应用。理解的前提是,你知道所有数学公式的条件。
比如,给你一把直尺,你能量出张A4纸的周长吗?听起来好像很简单,但仔细想想真的简单吗?你确定一张现实中的A4纸的边缘是直线嘛?
在高倍显微镜下,A4纸的边缘其实是弯弯曲曲的曲线。好,给你一个高倍显微镜下的曲尺,能不能量出它的周长?其实,可能也不能,因为纸的边缘并不连续,它不过是一堆分子的聚合物,分子和分子之间一定是有间隙的。如果边缘不连续,哪里来的周长?
数学中,长方形周长是一个简单的事物,但我们在现实中应用时,往往会无视数学的前提。周长存在的前提是连续、直线、封闭,在不同的现实问题下,这个条件并不一定成立。
 
Q:报纸上说,你所在城市的一家医院,这周出生的孩子中90%都是男孩,这太奇妙了,真是一家有魔力的医院。根据你的概率知识,这种现象最可能出现在什么样的医院呢?
A.一定是城市里最大、最著名、最拥挤的妇幼医院。他们有很多经验,已经成功掌握了生男孩的法门
B.大概率是一家很小的私立医院或社区医院。这类医院中出生的孩子数量很少,所以性别会有波动,某周出现90%的男孩并不奇怪
C.大医院和小医院出现这种情况是相同概率的,所以无法分辨医院的情况
A:选B。根据大数定律,当试验次数越来越多的时候,频率才会逼近概率。在试验次数较少的时候,频率会有波动,可能会远离概率。也就是说,小规模数据更容易受到随机的影响而出现波动。所以,出生孩子数量较少的医院,更容易形成波动。
 
Q:一个掷骰子游戏的规则是这样的,掷出1点得1元,掷出2点得2元,以此类推。如果玩这个游戏每局都要付钱,请问付钱金额不超过多少时,这个游戏才值得玩?
A:数学期望E=(1+2+3+4+5+6)x(1/6)=35(元),故付钱金额不超过3.5元时,游戏才值得玩;
 
Q:在你的经历中,有哪些事情从整体期望上看是不值得做的,但按照你自己的价值判断,却是值得的呢?
A:几乎所有的创业行为,从整体期望上来说,都是不值得的,但对每个伟大的创业者来说,却都是值得的。
例如,每当有自己主队比赛时,如果有体育彩票出售,我都会买主队输。对购买者来说,体育彩票的整体期望是负的,我的主队每一场发挥也是随机的,但是我认为是值得的。因为,如果主队嬴了,我很开心,彩票就当是为体育事业做贡献了;如果主队输了,至少主队还帮我赚了钱。
 
Q:假设有一种基金,80%的概率是获得10%的收益,20%的概率是亏损15%,那么这种基金的方差是多少?
A:先计算数学期望,E=10%×80%+(-15%)x20%=5%,然后计算方差,D=80%×(10-5)^2+20%×(-15-5)^2=100。
 
Q:投资界有个加倍投注法一一只要输一次,就加倍投注,直到赢为止,这是一种必胜的手段吗?
A:加倍投注策略,也叫马丁格尔策略。这个策略看上去很有效,但实际上完全没有用。
(1)实际问题
先来看实际问题。我们知道,所有赌场的所有玩法,在投注金额上都是有限制的,赌场真正必胜的基础是限制最高投注额,让风险可控。这里的风险就是在赢光你的钱的情况下,不断加倍投注,很快你就会超过赌场的限额。比如在一般赌场,一楼大厅的轮盘赌都是最少10美金,最高500美金。如果你连输6轮、输了630美元后,你就没有办法再参加第7轮,也就是翻倍押640美金了。
尽管连输6局的概率是2%,看上去是一个非常小的概率,但是对于每天连续进行无数轮的轮盘賭的賭场来说,2%的概率是经常能看到的事情。
要知道,概率虽小,只要有足够的盘数,终会发生,就像彩票大奖的概率虽然只有千万分之一,但是每年仍然有几十人上百人中奖。
(2)根本性问题
加倍投注策略的根本性问题是,不停地加倍投注,累积投注的金额增长过快,会带来非常严重的后果。你还记得“棋盘麦粒”的故事嘛?在棋盘的第一个格子放1粒麦子,第二个格子放2粒麦子,以后每一格放的麦粒都是前格的两倍。要装满棋盘上的64个格子,需要的总麦粒数,超过了全世界数千年的粮食总产量。
指数的增长太快。想要实施加倍投注策略,即使赌场没有限额,也会有另一个限制条件一一你要十分富有。这种富有,是指相对于赌场要十分富有才行,这才是最荒谬的。你足够有钱,还要花时间、花足够的钱,为了不断地去赢10美金…因为每次获胜,最终也是只赢了第一次的本金10美金。
 
Q:民国时期是一个百花齐放、人才辈出的黄金年代,很多人希望自己能穿越回民国。根据概率分布的内容,请你分析一下,假如我们穿越回民国,更有可能成为林语堂、张爱玲这样的天才作家,还是骆驼祥子这样的劳苦大众?
A:根据概率论,你穿越回民国后极大可能会是文盲,成为骆驼祥子的概率,是你成为风流的新月派诗人的百万倍,至于很多人想象的民国文艺男青年和女青年什么的…醒醒吧,该起床拉车了。
 
Q:国家公布居民收入数据时,就会有人说自己的收入被平均了,有人甚至怀疑数据有问题。你能用这一节的知识分析一下吗?
A:不同的分布有不同的最具代表性的值。对称的单峰分布,比如正态分布,最具代表性的值是均值;对于居民收入这样的幂律分布,中位数才是最具代表性的值,平均值并不能代表真实的收入分布情况。
 
Q:日常生活中,你还发现哪些事情是服从正态分布的?它们又受哪些随机因素影响呢?
A:智商大部分情况可能服从正态分布,受到遗传、后天教育、环境等等因素的影响。但对智商的检测,也就是智商测试的IQ值是典型的服从正态分布。这是因为IQ测试是人为地标准化了测试结果,把所有人的测试结果标准化成一个均值为100,标准差为15的正态分布。其实现实生活中完全的正态分布是罕见的,中间有大量的人为因素。比如很典型的公司中员工的能力,有很多因素,学识、沟通、性格、团队关系、工作性质等等都会影响员工能力的表现,而且整体上能力似乎也是正态分布的调调,但是,有经验的管理者都知道,团队中特别有能力的人,他的绩效或者工作效果是远远超过其他人的,甚至可能是好几个能力一般的同事的绩效总和。这种现象很普遍,在数据的极端值上,往往是正态分布的基础上叠加了幂律分布。这在金融领域也很常见,平时股票涨跌是正态分布,可是股灾的时候,在极端情况会出现原本在正态分布中不可能出现的情况,这时候,股票就不再是单一的正态分布了,在极端值上可能是另一种分布。因为影响股灾的因素不再是多个独立因素了,追涨杀跌说明决策是有相关性的,这时候也就不是正态分布了
现实世界中,一个真实的事情是多个概率分布的融合体,正态分布为主体、两端集中了其他分布是一种现实常态。
 
Q:第二次世界大战时德军曾轰炸伦敦,如果你是一个数学家,能不能通过分析炸弹落点,来判断德军是有针对性地轰炸,还是完全没有情报的随机轰炸呢?
A:将伦敦分为多个面积相同的区域。如果是随机轰炸,每个区域受到的炸弹数量应该符合泊松分布。反之,如果每个区域的炸弹数量不符合泊松分布,那么就是在有情报的基础上、有针对性地轰炸,并且可以分析哪些区域出现异常。
 
Q:关于假设检验,下列说法错误的是?
A.假设检验能让我们依靠有限的数据得到靠谱的结论,推动了很多学科的发展
B.在假设检验里,很多领域常用的显著性标准都是5%
C.使用假设检验时,零假设和备择假设必须是互斥的
D.因为P值要特别小才能推翻零假设,所以假设检验的结论一定是正确的
A:选D。假设检验的结论是有条件正确,或者说带引号的“相信”是正确的。
 
Q:2020年天猫双十一期间的成交额达4982亿。有人怀疑数据造假,因为它与二次或三次函数回归非常吻合。你怎么看待这个问题的?
A:结论是数据无法验证。如果数据和二次或三次函数回归非常吻合,我们需要知道,这种吻合出现的概率究竟是多少?这是很多人并不了解的。对于有限数据,用二次三次函数精确拟合的概率是远高于5%的置信度的
 
Q:美国某小镇昨夜发生了凶杀案,小镇居民非常紧张。警长跟大家说:“考虑到近10年来小镇只发生过2次凶杀案,这之后应该很久都不会再发生凶杀案了。“你站出来说:“虽然之前平均5年才发生一次凶杀案,但是下一次凶杀案的发生概率依旧是稳定的。这一次凶杀案并不会让小镇平静5年之久,根据泊松分布,平均一年内发生凶杀案的概率还是20%。“警长淡定地说:“是的,但是这个概率依旧很小,我们小镇还是很安全的,大家放轻松,正常生活吧。请问,警长的说法正确吗?我们还需要了解什么信息?
A:这也是一个常见的认知错误。虽然小镇平均5年才发生一次凶杀案,但是如果昨夜的案犯仍然在逃,小镇再次发生命案的概率将陡然提高,因为案犯在逃“这个条件改变了凶杀案发生的概率。这个前提条件的变化,时常会被我们忽略飞机失事的概率是几百万分之一,非常小,可是为什么每次飞机失事后机场都要关闭呢?这是因为,一旦飞机失事,就说明某些因素可能发生改变:也许是机修组太疲劳、检查不利,也许是飞机跑道不平整,也许是天空鸟群异常,也许是食堂食物有问题导致驾驶员食物中毒…既然某些因素发生了变化,下一次在这个机场飞机失事的概率就可能陡然增加,这时候就需要关闭机场,寻找究竟是某些因素发生了变化,还是仅仅出现了罕见的意外情况。
说到底,条件概率告诉我们,尽可能多地掌握已知条件才能提高预测的准确率。
 
Q:日常生活里,有些人看到喜鹊就开心,看到乌鸦就难受,还有人相信“左眼跳财,右眼跳灾”。你能用贝叶斯推理解释一下这样的行为吗?
A:所有所谓迷信活动,大都是曾经具有一定相关性的。比如乌鸦会经常出现在腐尸附近,这必然是灾难的事情,看到乌鸦难受是很正常的。对现在来说,这是历史、文化甚至可能是进化过程的先验概率,但是我们要不断调整我们的判断,现在出现乌鸦,也许并没有什么不同。
 
Q:乳腺癌是一种很常见的疾病,假设发病率是25%左右。小叶在医院检查时,发现自己是阳性。我们知道,检查结果会有误差,已知乳腺癌检查的准确度是90%,那么小叶患乳腺癌的概率是多少呢?
A:假设有1000人,因为乳腺癌的发病率为25%,所以人群中有250人患乳腺癌,750人不患病。患病的250人去检查,有90%正确率,因此共225人被告知患病,25人被告知健康。同样,未患病的750人去检查时,有675人被告知健康,75人被告知患病。所以,1000人中被告知患病的人数为225+75=300人。但这300人中,真正患病的人数为225人,因此小叶真正的患病概率为225/300=75%。
为什么这个例子中的数据反差没有那么大?因为我希望你们不要被贝叶斯常用的那种反直觉的例子害了,误以为检查结果没什么用。
其实,检查结果能把患病概率从万分之一,精确到十分之一,这已经是千百倍的提升,这说明检查结果是阳,更何况,你是因为有症状才去的医院,医生初步询问之后才让你去做检查。检查不是所有人都参加的,理论上大部分是有症状才会去检查,现实中通过检查确定的发病率,可能远远大于计算得出的发病率。
当然,发现诊断阳性,也不要觉得完蛋了,或是觉得没问题,而是应该去检查第二次,这是最重要的手段和措施。
 
Q:假设有一个家庭,有两个孩子,现在告诉你其中有一个男孩,请问另一个也是男孩的概率是多少?
A:很多会不假思索地回答:1/2 啊,因为另一个孩子要么是男孩,要么是女孩,而且概率相等呀。但是实际上,答案是 1/3。
上述思想为什么错误呢?因为没有正确计算样本空间,导致计算错误。有两个孩子,那么样本空间为 4,即哥哥妹妹,哥哥弟弟,姐姐妹妹,姐姐弟弟这四种情况。已知有一个男孩,那么排除姐姐妹妹这种情况,所以样本空间变成 3。另一个孩子也是男孩只有哥哥弟弟这 1 种情况,所以概率为 1/3。
为什么计算样本空间会出错呢?因为我们忽略了条件概率,即混淆了下面两个问题:
这个家庭只有一个孩子,这个孩子是男孩的概率是多少?
这个家庭有两个孩子,其中一个是男孩,另一个孩子是男孩的概率是多少?
概率问题是连续的,不可以把上述两个问题混淆。第二个问题需要用条件概率,即求一个孩子是男孩的条件下,另一个也是男孩的概率。
通过这个问题,读者应该理解两个概率计算原则的关系了,最具有迷惑性的就是条件概率的忽视。为了不要被迷惑,最简单的办法就是把所有可能结果穷举出来。
 
Q:一个屋子里需要有多少人,才能使得存在至少两个人生日是同一天的概率达到 50%?
A:答案是 23 个人,也就是说房子里如果有 23 个人,那么就有 50% 的概率会存在两个人生日相同。这个结论看起来不可思议,所以被称为佯谬。按照直觉,要得到 50% 的概率,起码得有 183 个人吧,因为一年有 365 天呀?其实不是的,觉得这个结论不可思议主要有两个思维误区:
第一个误区是误解「存在」这个词的含义。
读者可能认为,如果 23 个人中出现相同生日的概率就能达到 50%,是不是意味着:
假设现在屋子里坐着 22 个人,然后我走进去,那么有 50% 的概率我可以找到一个人和我生日相同。但这怎么可能呢?
并不是的,你这种想法是以自我为中心,而题目的概率是在描述整体。也就是说「存在」的含义是指23 人中的任意两个人,涉及排列组合,大概率和你没啥关系。
如果你非要计算存在和自己生日相同的人的概率是多少,可以这样计算:
1 - P(22 个人都和我的生日不同) = 1 -(364/365)^22= 0.06
这样计算得到的结果是不是看起来合理多了?生日悖论计算对象的不是某一个人,而是一个整体,其中包含了所有人的排列组合,它们的概率之和当然会大得多。
第二个误区是认为概率是线性变化的。
读者可能认为,如果 23 个人中出现相同生日的概率就能达到 50%,是不是意味着 46 个人的概率就能达到 100%?
不是的,就像中奖率 50% 的游戏,你玩两次的中奖率就是 100% 吗?显然不是,你玩两次的中奖率是 75%:
P(两次能中奖) = P(第一次就中了) + P(第一次没中但第二次中了) = 1/2 + 1/2*1/2 = 75%
那么换到生日悖论也是一个道理,概率不是简单叠加,而要考虑一个连续的过程,所以这个结论并没有什么不合常理之处。
那为什么只要 23 个人出现相同生日的概率就能大于 50% 了呢?我们先计算 23 个人生日都唯一(不重复)的概率。只有 1 个人的时候,生日唯一的概率是 365/365,2 个人时,生日唯一的概率是 365/365 × 364/365,以此类推可知 23 人的生日都唯一的概率:
算出来大约是 0.493,所以存在相同生日的概率就是 0.507,差不多就是 50% 了。实际上,按照这个算法,当人数达到 70 时,存在两个人生日相同的概率就上升到了 99.9%,基本可以认为是 100% 了。所以从概率上说,一个几十人的小团体中存在生日相同的人真没啥稀奇的。
 


路过

雷人

握手

鲜花

鸡蛋

最新评论

联系客服 关注微信 访问手机版 返回顶部