中医是科学吗?数学是科学吗?经济学是科学吗?到底什么是科学?其实“可证伪性”早就过时,取而代之的是“贝叶斯主义”;“可证伪性”只是贝叶斯公式的一个特例。
本文是全网对“什么是科学”最全面、最深入的科普文章(不骗人)。
科学哲学是一门“专门研究什么是科学”的学科,它经历了4个发展阶段。
- 1920年左右“逻辑实证主义”;
- 1940年左右波普尔的“证伪主义”,也就是我们经常听说的“科学必须有可证伪性”。
- 1960年左右,科学哲学发展到了“范式转换”;
- 1980年左右发展到了“贝叶斯主义”。再往后 就没有了,所以说贝叶斯主义 是人类目前最强势的科学观,它提供了科学最最底层的逻辑框架。
第1部分:什么是贝叶斯主义?
总共就3句话。
第1句话,所有的信念都有一个置信度百分比。比如说,我们对“光速不变原理”的信任程度是99.99%以上(个人观点),我们对“维生素C能预防感冒” 的信任程度是60%(个人观点),我们对“连花清瘟能治新冠”的信任程度是1%(个人观点)。也就是说,贝叶斯主义认为,一切信念都是概率的。
第2句话 也是最核心的一句话,当新的实验证据出现后,根据“贝叶斯公式”更新这个置信度。
举个例子:
- 1915年广义相对论刚刚诞生的时候,没几个人相信它 也没有实验证据,所以它的置信度很低 也就10%左右(初始先验概率)。
- 当广义相对论能解释水星进动现象后,就有了弱的实验证据,它的置信度可以提高到30%左右(估计值)。
- 1919年 当实验观测发现,光线经过太阳后会弯曲,符合广义相对论的预测,这时候广义相对论的置信度 可以提高到50%左右(估计值)。
- 1929年当哈勃引力红移现象被发现后,广义相对论的置信度可以提高到80%(估计值)。
- 2015年引力波被发现后,广义相对论的置信度可以提高到99%(估计值)。
- 当然了,置信度不仅能提高 也能降低。比如说,当我们发现宇宙正在加速膨胀,有两种解释,要么存在暗能量,要么就是广义相对论错了(修正引力模型),所以我们就降低对广义相对论的信任程度,比如说降低到95%(估计值)。
总之就一句话,随着新的实验证据出现,我们不断调整对广义相对论的信任程度。
第3句话,对于同一个理论,每个人的置信度可以不一样。例如,对于“暗物质和暗能量”,张三的信任程度是80%,李四的信任程度是50%,王五的信任程度是10%,每个人的置信度可以不一样。
但是 如果找100个人,把“暗物质和暗能量”的证据 详细的讲述给他们,最后大多数人的的置信度 应该差距不大。
我估计最后大多数人对“暗物质和暗能量”的信任程度,在40%-70%之间。
换句话说,不论初始置信度是多少,只要不断地用 新证据去修正,最后大多数人的置信度都将趋于一致。
下面谈谈我个人对一些理论的置信度:
- 数学平均置信度99%以上,
- 物理学 平均置信度95%,
- 进化论平均85%,
- 天文学平均80%,
- 我个人对宇宙大爆炸的置信度是80%,
- 暗物质60%,
- 暗能量40%,
- 心理学平均置信度40%,
- 经济学平均置信度30%,
- 现代医学平均65%,
- 中医,争议太大,暂时保密。
为什么置信度是这些百分比呢?下面我们分别说一下“数学、物理学、心理学、医学、天文学、经济学 各自的致命缺陷”。
第2部分:物理学有3个底层缺陷
第1个缺陷,所有的物理理论都有一定的适用范围,例如量子力学的“标准模型”只是 能量低的情况下的近似有效理论。
广义相对论 会在黑洞里面失效;宇宙膨胀破坏了 时间的平移对称性,所以 宇宙膨胀的过程中 能量不再守恒(原因是,时空几何动态变化,无法定义一个全局时间平移不变的能量;宇宙的“状态”随时间改变了,过去和未来不等价)。
所有的物理理论都是近似有效理论,都有一定的适用范围。
物理学的第2个缺陷是,一些物理理论在数学上不严谨。
例如“量子场论的路径积分”在数学上是不严谨的,也无法在数学上严格证明,“杨-米尔斯场论的质量间隙”是否存在。
数学和物理学的核心区别是:数学更在乎理论是否逻辑自洽,而物理学更关心 理论是否与实验相符。
因此物理学家的普遍心态是,只要我算出来的结果 跟实验在一定精度内符合就行,管它数学上严不严谨呢。理论的严谨性证明 那是数学家们的事,跟我无关,我只管拿来计算。
但是,数学严谨性的缺失,一定会让物理理论存在很大的隐患。
物理学的第3个缺陷是,一些物理分支有比较大的误差。
广义相对论和量子力学的“标准模型”的精度,在弱场、缓速、电磁、电弱的情况下,可以达到99.9999%以上。
但是,热力学和凝聚态物理就不一样了,一堆唯象模型。
只是对现象做出了总结,缺乏第一性原理支撑,所以热力学和凝聚态物理的误差通常比较大。举个例子,热力学里面有个能量均分定理,用它计算 双原子分子的比热容,误差竟然超过10%。
第3部分:心理学和医学的致命缺陷
他俩最大的问题是 可重复性不高。
什么是可重复性?比如说有一篇学术论文说,某某药物能治疗心脏病,但是我这边重复做了几遍实验,发现它不能治,这就是可重复性问题。
- 2015年,科学家选了100篇心理学顶级学术期刊的论文,全部重新做了一遍实验,发现只有36%的论文 结论可以重复。
- 2018年,对28个经典的心理学实验,又重新做了一遍实验,发现只有50%可以重复。
- 对45篇顶级医学论文 又重新做了一遍实验,发现只有44%可以重复。
- 对53项癌症研究 重新做了一遍实验,发现只有11%可以重复。
心理学和医学论文的可重复性 实在是太低了。
为什么可重复性这么低呢?
主要的原因是:心理学和医学一直使用,统计显著性P值小于0.05 这个标准。很多人以为P值0.05相当于5%的出错率,实际上不是的。因为p值没有包含“假阳性”的情况。
所以现在不断有学者呼吁,在心理学和医学领域,把p值从原来的0.05提高到0.005(或者同时使用贝叶斯因子)。如果P值真的提高到0.005,至少90%的心理学和医学论文就废了,因为这些论文的可重复性本来就不高。
现在各个学科普遍存在大量的论文造假现象,你让论文的作者自己重复自己的论文,很多都重复不出来。论文造假最严重的领域是医学领域,在被撤稿的学术论文里面,医学论文的数量遥遥领先。
第4部分:天文学的致命缺陷
天文学最大的缺点 就两个字——近似。
相对论计算起来太复杂了,大多数天文学模型 直接用牛顿引力近似计算;磁场计算起来太复杂了,99%的天文学模型都会忽略磁场。
如果你去看天文学的教科书,你就会发现 有大量的约等于符号,还有一堆近似公式。
凤姐近似一下,都能变成范冰冰:
这些离散的点,天文学家会把他们近似成一条直线。
这些图片都是从顶级的天文学论文里面扒下来的,各种近似。
所以说天文学是一门不是很严格的学科,整体上误差还是挺大的。
天体的距离、质量、寿命,误差普遍在10%-30%之间,甚至50%的误差在天文学里面都很常见。
在天体物理学或者宇宙学,你建个模型,只要数量级猜对了 就很牛B,就能发一篇不错的论文。
有一个笑话是这么说的,在天文学里面 圆周率π等于1,说的就是天文学家喜欢搞近似,反正误差都挺大了,也不差圆周率这点误差了,只要数量级猜对了就行了~~~
这就是为什么天文学里面有大量“数量级估计”的原因,例如,银河系的直径是10万光年这个数量级,太阳光穿过日幔的时间是几百万年这个数量级,银河系中心有一个四百万倍太阳质量的黑洞。所以天文学只能让我们 对宇宙有大概的框架的了解,具体的精度是不够的。
当然了,天文学里面也有少量的精确模型,比如说微波背景辐射、造父变星、哈勃红移等等。
但是这种精确模型实在是太少了,大多数天文学的模型都很粗糙,误差平均在20%左右吧,所以说天文学的平均置信度在80%左右。
第5部分:经济学的致命缺陷
经济学被誉为社会科学之王,经济学正在大举入侵 法学、心理学、历史学等其它学科。
经济学最大的优点是 解释能力很强,最大的缺点是预测能力很弱。
凯恩斯说过一句话,在过去的5次经济危机中,经济学家成功预测出了15次。这种预测比瞎猜要好一点,但又好不了太多。
经济学的核心是假设,只要选取不同的“假设”,经济学模型能得出任何结论,能“解释”任何经济现象。
这就是为啥 经济学家都是“事后诸葛亮”的根本原因,事前几乎不能做出预判,事后又说符合哪个经济学的模型,就是因为经济学以解释为主,预测能力很弱。
经济学至少有20多个门派,比如说新古典自由主义、凯恩斯主义、供给学派等等。
每个门派都有自己的假设和数学模型,各大门派之间还互相打架。
经济学的第2个缺点是:过度数学化。(少量数学化是有益的;只不过一些经济学分支,过度追求数学化)
一帮数学家进入到了经济学领域,降维打击了经济学,弄出来了很多无比复杂的数学模型,满屏幕的数学公式,看着挺吓唬人的。
实际上真实效果不怎么样,不论是解释还是预测,误差都很大。
科学的核心是实证,不是数学模型。数学只是科学的工具,不是科学的目标,经济学有点舍本取末了。能够对尚未观察到的现象 做出准确的能验证的实证预测,才是检验这20多个经济学门派的唯一标准。
第6部分:数学的6个底层缺陷
数学由三部分组成:公理、符号定义和逻辑推理。符号定义和逻辑推理这俩基本没啥问题,数学最大的软肋是它的公理。
数学总共有几十条常见的公理,
99%以上的数学理论就是建立在这几十条公理之上。
陶哲轩说过,现代数学分析有一个非凡的成就,仅仅从“5条算数公理”和“9条集合论公理”出发,就能构造数系,创造函数,并且推导出全部的代数和微积分。所以说,公理是一切数学的基础,是一切数学理论的起点。
那数学公理100%可靠吗?
不是的。例如,平行线公理,真实的宇宙不存在平行线,平行线只存在于“人大脑的逻辑”里面。很多数学家怀疑,集合论里面的“选择公理”是不是正确的,很多物理学家怀疑逻辑学里面“排中律公理”是不是正确的。
总之一句话,公理不一定符合现实,最终导致数学理论不一定100%符合现实。
除了公理问题,数学还存在哥德尔不完备、一阶逻辑表达的局限性等6个底层缺陷:
我们之前讲过,感兴趣的可以看一下之前的文章。
好了稍微总结一下,刚才我们把这些学科都批评了一遍,指出了它们的一些缺陷,解释了这些置信度的原因。 有一个细节要注意一下,这些百分比是这些学科的平均置信度。
一个学科有很多分支,每个分支的置信度是不一样的。比如说心理学里面的“认知神经心理学”,置信度能有70%;而弗洛伊德的精神分析,置信度低于5%,所以这里呈现的只是这个学科的平均置信度。
不同学科置信度不一样,那贝叶斯主义是不是在搞学科歧视呢?
比如说,数学歧视物理学,物理学歧视心理学。其实不是的,每个学科都有自身的限制条件,都是地球上最聪明的人在现有的技术条件下,能找到的最靠谱的理论,总比那些宗教的神秘主义解释要靠谱的多。
有一点要注意,置信度的对象应该是“单个具体的理论”,而不是学科;为了方便介绍,我做了简化。
第7部分:置信度是如何计算出来的?
这一部分很难,如果看不懂数学公式,可以下拉到下一部分,后面非常非常精彩。
贝叶斯公式可以分为三部分,右边P(A)代表原来的置信度,左边P(A|B)代表新的置信度,中间这一部分叫似然度。
举个例子,广义相对论原来的置信度是60% 那P(A)就是0.6,当引力波被发现后,广义相对论新的置信度就变成了90%,那P(A|B)就是0.9,中间这一部分代表了引力波和广义相对论的关联程度。
再举一个例子,看看置信度如何具体计算的?(看不懂可以跳过这一部分)
一个商店出售AB两种类型的箱子。
两种箱子的数量是一样的,各自50%。它们的区别是,A类型的箱子里面70%是红色球,B类型的箱子里面20%是红色球。
售货员随机卖给我一个箱子,我想知道,我手里的箱子是A类箱子的概率有多大?
于是我就从里面取出一个球,发现是红色球(第1次实证),这时候就可以用贝叶斯公式计算出来,“我手里是A类型箱子”的置信度是77%。
之后我又从箱里面取出一个球,发现还是红色球(第2次实证),用贝叶斯公式计算一下,“我手里是A类型箱子”的置信度变成了92%。
也就是说,对于“我手里的箱子是A类型箱子”这个信念,最开始的置信度是50%,从箱子里取出一个红色球(第1次实证)后,置信度变成了77%,再取出一个红色球(第2次实证)后,置信度变成了92%。
广义相对论置信度的变化,计算方法跟这个一模一样。哈勃红移实验、引力波实验可以看成,从箱子里面取球。通过从箱子里面取球,更新“A类型箱子”的置信度;通过引力波实验,更新广义相对论的置信度。
再举一个置信度计算的例子(看不懂可以跳过这一部分)
在19世纪,天文学家发现天王星的实际运行轨道,与牛顿万有引力定律计算出的轨道,有微小但持续的偏离,于是用重新评估“万有引力能描述天王星轨道”的置信度。
假设最开始置信度是99% ,下面是计算过程:
命题N:万有引力能正确描述天王星轨道
证据E:观测到天王星轨道存在“微小但持续”的系统偏离。
引起偏离的常见原因有:未知天体、质量估计误差、扰动项遗漏、观测系统误差等。所以拆成两个子情形:
X:存在一个新行星
¬X:不存在此类遗漏
给个“当时合理”的估计:P(X∣N)=0.1,
如果牛顿对且确实有遗漏的天体,出现这种偏离当时比较常见,因此估计:P(E∣N,X)=0.6;
如果牛顿对且没有遗漏天体,那出现这种持续偏离就很罕见(只剩测量/计算误差等),所以估计:P(E∣N,¬X)=0.001;
于是用全概率把P(E∣N)合成出来:
P(E∣N)=P(E∣N,X)P(X∣N)+P(E∣N,¬X)P(¬X∣N)
=0.6×0.1+0.001×0.9=0.0609
再用贝叶斯公式更新置信度:
因此,“万有引力能描述天王星轨道”的置信度,从99% 被这条偏离证据 降低到了约 92.3%。
好了总结一下 贝叶斯主义科学观,所有的信念都有一个置信度,根据实证和贝叶斯公式不断调整 我们对这个信念的置信度。
贝叶斯主义看起来不就是一句废话嘛,为什么能成为目前最强势的“科学观”呢?是因为它解决了很多“科学底层的哲学问题”。
第8部分:科学最大的弱点——休谟问题
休谟问题被誉为 悬在科学头上的达摩克里斯之剑,随时都有可能掉下来把科学劈死。
休谟问题是这样的。一个农场里有一群火鸡,农场主每天上午10点准时给它们喂食,火鸡中有一个爱因斯坦,它发现了一个伟大的科学理论:
质量和能量是等价的,哦 不对,是每天上午10点 就有食物降临,上午10点和食物降临是等价的。
但是,在感恩节那天,这群火鸡被宰杀后吃掉了。这条火鸡界的“科学定律”就失效了,上午10点和食物降临不再等价。
那人类目前发现的科学理论,有没有可能也会像这条“火鸡理论”一样失效呢?我们现在认为质量和能量是等价的,未来也一定等价吗?我们现在认为“光速不变”,1万亿年后 光速有没有可能发生改变?
牛顿第二定律告诉我们,力是改变物体运动速度的原因,力是原因,速度改变是结果,由原因导致了结果,这就是因果律。在火鸡世界里面,也可以这么认为,上午10点是原因,食物降临是结果,但是这个原因推导不出结果啊。
所以我们反思一下,人类发现的力和速度改变之间的关系,真的是100%成立的因果关系吗?
我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,这就是休谟问题。
比如说 力和速度变化一直连接在一起,上午10点和食物出现一直连接在一起,质量和能量一直连接在一起,但是它们之间不一定有因果律。
科学里面有大量的因果推理,而因果律 又不一定存在,所以说休谟问题是悬在科学头上的一把剑,困扰了科学200多年。
哲学和科学经常发生争论,只要哲学抛出“休谟问题”,科学马上就会“在逻辑上败阵下来”;哲学还有更高级的“迪昂-蒯因问题”,科学在逻辑上就更失败了。
而贝叶斯主义是科学哲学里面,唯一能解决“休谟问题”和“迪昂-蒯因问题”的科学观。因为贝叶斯主义认为,人类无法发现100%成立的因果性,只能发现概率相关性。
上午10点和食物出现,只是根据现有的经验推理出的,一种置信度99.9999%以上的相关性,不是100%成立的因果性。同样的道理,力和物体速度改变之间也只是置信度99.9999%以上的相关性。科学发现的所有理论,不论是能量守恒定律 还是相对论,都是在一定范围内近似成立的理论,不是100%成立的因果性。这就完美的“回避”了休谟问题的质疑。
第9部分:证伪主义
看一个证伪主义的例子:
命题:所有天鹅都是白色的
实证:找到了一只黑色的天鹅
结论:原命题失败
我们用贝叶斯主义重新解读一下:
假设 A: 所有天鹅都是白色的
证据 B: 找到了一只不是白色的天鹅
如果 A 真,那么“出现一只非白天鹅”在逻辑上是不可能的,所以:
带入贝叶斯公式:
也就是说,在证据B(黑天鹅)出现后,命题 A (天鹅都是白色的)的置信度变成了0,也就是“被证伪”。
因此,“可证伪性”只是贝叶斯公式 在P(B│A)=0时的特例。所以,贝叶斯公式其实已经包含了证伪主义。这句话很重要,我再说一遍,贝叶斯公式其实已经包含了证伪主义,证伪只是贝叶斯公式的特例。
另外,贝叶斯公式还能推导出:奥卡姆剃刀原理、双盲实验、可重复性等“基本的科学方法”,能解决哲学里的“休谟问题”和“迪昂-蒯因问题”,能调和“理性主义和经验主义”,因此,贝叶斯主义是人类目前最强大的科学观。(以后我会专门写一篇文章详细解释,你如果感兴趣,可以先去问问AI)
第10部分:贝叶斯主义的根源
那贝叶斯主义为什么这么厉害呢?贝叶斯主义背后更深刻的逻辑是什么呢?
我们先讲一个故事,上帝开发了一款游戏,这款游戏的名字叫“宇宙”。
游戏的“源代码”就是自然法则,游戏世界里面的一花一草一木 都是由源代码创造的,源代码是原因,游戏世界是结果。
但是 人类只是宇宙游戏里面的一个角色,不知道源代码是怎么写的,只能根据游戏的内容 去反向推测源代码。例如人类通过苹果落地、地球绕太阳旋转这些自然现象,反向推测出了万有引力定律。
但是,很多时候推测方案不止一个,比如说弦论、圈量子引力、平行宇宙,我们也不知道哪个理论更接近源代码,于是就用贝叶斯公式去衡量各种理论的置信度。
例如,我们用引力波去衡量了广义相对论的置信度,我们用基因和化石去衡量了 进化论的置信度。
这就是贝叶斯主义的底层逻辑,由实验结果去反向推测 理论原因成立的概率。这句话很重要 我再强调一遍,贝叶斯主义的底层逻辑是,由结果去反向推测原因成立的概率。
换句话说,从贝叶斯主义来看,科学就是去反向破解“宇宙”这款游戏。
第11部分:贝叶斯主义的缺陷
每一种哲学上的主义都有缺陷,贝叶斯主义也不例外,那贝叶斯主义有什么缺陷呢?
最大的缺陷是 初始置信度很难确定。能实验的理论,初始置信度是多少都无所谓,因为随着不断被验证,它会慢慢趋向于一个稳定的置信度。
比如说 广义相对论,最开始的置信度可以是1%、也可以是90%,都无所谓,随着广义相对论各种证据出现,最终都会趋向于一个稳定的置信度。
但是,那些没有任何实验证据的假说就不行了,比如说弦论、虫洞、平行宇宙,初始置信度是多少合适呢?只能猜。
第2个缺陷:贝叶斯主义还有一个非常无赖的行为,就是允许不同的人 有不同的置信度。因为每个人的知识结构、成长环境都不一样。
所以对同一个东西,信任程度是不一样的。比如说“中医”。有的人认为“中医是神”,置信度能有80%以上,有的人认为“中医是糟粕”,置信度不到1%。你认为中医的置信度是多少呢?请在评论区告诉我“你对中医的置信度”。

















































没有评论:
发表评论