饭饭TXT > 学习管理 > 《人类的知识》作者：[英]伯特兰·罗素【完结】 > 人类的知识.txt

第七章概率与归纳法

作者：英-伯特兰·罗素当前章节：8000 字更新时间：2026-6-23 01:33

A.问题的提出

归纳的问题是一个复杂的问题，它有着不同的方面和分支。我将从叙述单纯列举的归纳法这个问题开始。

1.那个与它比较起来其它都是次要的基本问题是：已知一个类a 中许多实例都已发现属于一个类β，那么这种情况使得（a）下一个a 将是一个β，或者（b）所有的a 都是β，具有概然性吗？

2.如果这两者之一并不普遍为真，那么对于a 和β有没有可以发现使它为真的限制？

3.如果加以适当限制这两者之一都为真，那么在这样的限制下，它是一个逻辑的定律还是一个自然界的定律？

4.它可以从某个其它原理推导出来吗？例如自然界的种类，凯恩斯的有限变异说，法则的支配，自然界的齐一性，或者其它原理。

5.归纳原理应当用一种不同形式说出来吗？也就是说：已知一个假设h具有许多已知的真的后果并且没有已知的假的后果，这件事实能使h 具有概然性吗，如果在一般情况下不能，在适当情况下它能做到这一点吗？

6.在归纳公设为真的情况下将使已被公认的科学推论正确有效的归纳公设的最低限度形式是什么？

7.有没有任何理由，并且如果有的话是什么理由，使得我们认为这个最低限度的公设为真？或者，如果没有这类理由，是否还有按照假定它为真来行动的理由，在这些讨论中我们需要记住一般所用的“概然的”这个词在意义上的含混不清。当我说在某些情况下，“大概”下一个a 将是一个β时，我希望能够按照有限频率说来解释这个现象，但是如果我说归纳原理“大概”是真的，我一定是在用“大概”这个词来表示高度的可信性。如果不把“概然的”这个词所具有的这两种意义适当划分开来，就很容易发生混淆。

我们将要进行的这个讨论具有一段可以认为是从休谟开始的历史。就很多次要问题来说，我们已经取得了确定的看法；有时这些次要的问题人们当初并没有看出来。但是我们现在进行的研究已经使我们看得相当清楚：得出成果的技术上的讨论对于主要问题的阐明并没有起多大作用，这个主要问题大体上仍然和休谟留下来的情况一样。

B.单纯列举的归纳法

单纯列举的归纳法就是下面这个原理：“已知有n 个数目的a 已经发现为β，并且没有a 已经发现不是β，那么这两个陈述：（a）‘下一个a 将是一个β’，（b）‘所有的a 都是β’就都具有一种随着n 的增加而增加的概率，并且当n 接近无限大时接近必然性而以它为极限”。

我将把（a）叫作“特殊归纳”，而把（b）叫作“一般归纳”。这样（a）将根据我们关于过去人类都有死的知识推断某某先生也有死，而（b）则将推断大概所有的人都有死。

在我们还没有接触到较难或有疑问的论点之前，某些比较重要的问题却可以比较容易地得到解决。这些问题是：

1.如果归纳要完成我们期望它在科学中所完成的任务，“概率”的解释就必须使得一个概率陈述断言一件事实；这就要求所涉及的那种概率应当从真与伪推导出来，而不是一个不能下定义的概念；而这一点又能使有限频率的解释或多或少成为不可避免的解释。

2.归纳在应用到自然数列的时候显然是无效的。

3.归纳作为一个逻辑原理是无效的。

4.归纳要求它所根据的实例是一个级数，而不仅仅是一个类。

5.为了使这个原理有效，不管需要规定什么限制，必须通过给a 和β这些类下定义的内包的说法表达出来，而不是通过外延的说法。

6.如果宇宙中的事物数目是有限的，或者只有某个有限类对于这种归纳有关，那么就一个足够大的n 来说，归纳就成为可以证明的东西；但是在实际应用上这一点并不重要，因为这里所说的n 比任何实际研究中可能遇到的一定更大。

我现在就来证明这些命题。

1.如果我们把“概然性”当作一个不可下定义的概念，我们就不得不承认不大可能的事也可能发生，因此一个概率命题关于自然界的进程并没有向我们提供任何知识。如果我们采取这个看法，归纳原理就可能是正确有效的，然而每个符合这个原理的推论却可能证明为伪；这是不大可能，但并非不可能的事。因此，一个使归纳为真的世界在经验界中是不能与一个使归纳为伪的世界区别开来的。由此可以看出永远不可能找出任何支持或反对这个原理的证据，并且它也不能帮助我们推论将要发生的事。如果这个原理要达到它的目的，我们就必须把“概然”的意思解释为“实际上通常发生的事物”；这就是说，我们必须把一个概率解释为一个频率。

2.算术中的归纳在算术中我们容易找出导致正确结论的归纳实例，也容易找到其它导致错误结论的归纳实例。耶方斯举出两个实例：

5，15，35，45，65，95

7，17，37，47，67，97

在第一行中，每个以5 结尾的数都可以被5 整除；这就使人推想每个以5 结尾的数都可以被5 整除，而这是对的。在第二行中，每个以7 结尾的数是一个质数；这也可能使人推想每个以7 结尾的数都是质数，而这却是错误的。

或者让我们看：“每个为偶数的整数是两个质数的和”。每个试过的实例都说明这是对的，而这样的实例在数量上是很大的。然而人们对于它是否永远为真这一点却一直抱着合理的怀疑。

作为算术归纳的一个明显失败的例，让我们看下面这个实例①：使π（x）≤x 的质数的数目

x dt

li（X）=∫————

0 log t

我们知道当x 数大时，π（x）和li（x）几乎相等。我们还知道对于每个已知的质数来说，π（x）＜li（x）

高斯推想过这个不等式永远为真。人们试过所有107 以下的质数以及许多超过 107 的质数，都没有发现不能成立的个别情况。然而里脱伍德在1912年却证明对于无限数目的质数来说这个不等式不能成立，斯古士（伦敦数学学会通报，1933 年）也证明这个不等式对于某个小于

的数不能成立。我们将看到高斯的推想尽管已经证明是错误的，它却具有甚至比我们最坚信不移的关于经验界的概括所依靠的要好得多的归纳证据。

① 看哈代的《腊玛努赞》第16，17 页。

我们很容易无限制地得出算术中的错误归纳，而无需过多地涉及数论。

举例来说，小于n 的任何数都不能被n 整除。我们可以使n 任意增大，这样就为“任何数目都不能被n 整除”这个概括找到尽可能多的有利的归纳证据。

显然任何n 个整数一定具有大多数整数所不具有的许多共同性质。举一件事情来说，如果m 是其中最大的数，它们就都具有不比m 大这个无限罕见的性质。所以如果应用到整数上来，无论一般的还是特殊的归纳都不是正确有效的，除非在它身上应用归纳的那种性质具有某些限制。我不知道怎样说出这种限制，然而任何一个有能力的数学家关于那种可能得出一个后来证明正确有效的归纳的性质都具有一种类似常识的觉察力。如果你看到l＋3＝22，1＋3＋5＝32，1＋3＋5＋7＝42，你就会容易推想到

1＋3＋5＋……＋（2n—1）＝n2

并且我们可以很容易证明这个想法是正确的。同样，如果你看到13＋23 ＝32，13＋23＋33＝62，13＋23＋33＋43＝102，你就会推想到靠前面的n 个立方的和永远是一个平方数，而这又是很容易加以证明的。对于这类归纳来讲，数学的直观并不是永远可靠的，但是有能力的数学家运用直观时对的次数似乎比错的次数要多。但是我不知道怎样讲明白在这类情况下指导数学直观的那种东西。另外，我们只能够说还没有任何已知的限制能使应用到自然数上的归纳有效。

3.归纳作为一个逻辑原理是无效的显然如果我们可以任意选择我们的类β，我们就可以很容易地确信我们的归纳将要失败。设a1，a2，……an为a 中直到现在已经观察过的分子，并已发现它们都是β的分子，另外设an＋1 为a 的下一个分子。就纯粹逻辑的范围而论，β也许只由a1，a2，……an这些项目组成；或者它也许是由把an+1除外的宇宙中所有事物组成；或者它也许是由任何介乎这两者之间的任何类组成。就这类情况中无论哪一种情况来说，推论到an+1的归纳都是错误的。

显然（反对的人可能说）β必须不是一个也许可以叫作“制造出来的”类，即一个部分地由外延得到定义的类。在归纳推论中所研究的那类例子中，β永远是一个通过内包而不是通过外延来知道的类，除了那些被观察到的分子a1，a2，……an以及那些不同时是a 的分子而又碰巧可能被观察到的β的分子。

我们很容易做出显然错误的归纳。一个乡下人可能说会说：所有我曾看到的牛都在希尔福郡内；所以大概所有的牛都在这个郡内。或者我们可以提出：所有现在活着的人都没有死去，所以大概所有现在活着的人都不会死。

这类归纳中的谬误是很明显的，但是如果归纳是一个纯粹逻辑的原理，这些就不是谬误。

因此显然如果要归纳不能证明为伪，β这个类必须具有某些特点，或者必须与a 这个类具有某种特殊关系。我并不是主张有了这些限制这个原理就一定为真；我所主张的是没有这些限制这个原理就一定为伪。

4.在经验界的素材中，事例都是按照时间顺序发生的，因而它们永远是成系列的。当我们研究归纳是否可以在算术中应用的时候，我们自然想到按照大小排列起来的那些数字。但是如果我们可以任意排列它们，我们就可以得到奇怪的结果；例如，象我们已经看到的那样，我们可以证明一个任意选取的数不为质数的可能是无限小的。

在表述特殊归纳时重要的是应当有下一个例，这就要求排成系列。

要让普遍归纳具有说服力，我们就必须知道a 的前n 个分子发现是β的分子，而不仅知道a 和β具有n 个共同分子。这也要求排成系列。

5.假定我们承认如果要归纳推论正确有效，在a 和β之间就必须有着某种关系，或者它们当中一个必须有着某个特点，由于这种关系或这个特点它才正确有效，那么显然这种关系必须是介乎内包之间的——例如介乎“人”

和“有死的”之间或者介乎“反刍动物”和“分蹄的”之间。我们打算推论出一种外延关系，但是在我们处理经验界中不断发现新的分子的一些已知类时，我们起初并不知道a 和β的外延。每个人都会承认“狗吠”是一个正确的归纳；我们预料到一种动物的视觉外形与它做出的声音之间的相互关联。

这种预料当然也是另一种范围更大的归纳的结果，但这并不是目前我所要谈的问题。我所要谈的是介乎都是内包的一种形状与一种声音之间的相互关连以及某些内包看来好象比某些其它内包更可能具有归纳上的关系这件事实。

6.这一点是明显的。如果宇宙是有限的，完全的列举在理论上就是可能的，在完成这项工作之前一般的概率计算表明归纳大概是正确有效的。但是在实际应用上这种想法并没有什么重要性，这是因为我们能够观察的事物与宇宙中事物在数量上过分悬殊的缘故。

让我们回到那个一般原理上来，记住我们必须找出某些使它可能正确有效的限制。让我们先看特殊归纳。特殊归纳说，如果我们发现任意选出的属于a 的n 个分子完全由β的分子组成，那么下一个a 将是一个β就是可能的；换句话说，大多数剩下的a 是β。这句话本身只需要具有概然性。我们可以假定a 是一个有限类，比方说包括N 个分子。我们知道其中至少有n个是β的分子。如果同时为β的分子的a 的分子总数是m，

那么选择个项目的方法总数是—————— ①13602100_0486_0，

n!(N -n)!

而选择n个为a的项目的方法总数是——————。

n!(m -n)!

m!(N -n)!

因此一个完全由a组成的选择机会是——————。

N!(m -n)!

如果pm 是m 作为a 和β的共同项目数的先验可能性，那么在经验后出现的可能性就是

m!(N -n)! │ N m!(N -n)!

Pm·——————│∑ Pm·——————

N!(m -n) │ 1 N!(m -n)!

让我们把它叫作qm。

如果a 和β的共同分子数是m，那么取出n 个为β的a 之后，还有m—n个β和N—m 个非β。所以，根据a 和β有m 个共同分子的假设，我们得出另一个β的概率。因此总的概率是

N m -n

∑ qm·——————

m=n N -n

这个式子的值完全要看pm 的值来定，而pm 的值并没有正确有效的计算方法。如果我们和拉普拉斯一样，假定m 的每个值具有相同的概率，我们就得到拉普拉斯的结果，即下一个是β的机会是

n+1

——

n+2

如果我们先验地假定每个a 为β和不为β是同样可能的，那么我们就得到1/2的值。即使我们有拉普拉斯的假设，普遍归纳也只有

n+1

——

N+1

的概率，通常这是个较小的值。

因此我们需要某种在m 接近N 时使得pm 为大数的假设。这将必须依靠a和β两类的性质，如果我们要让它具有正确有效机会的话。

C.归纳的数学处理

从拉普拉斯那时以来，为了证明归纳推论的概然真理来自数学的概率论，人们曾经做过各种不同的尝试。现在大家认为这些尝试都不成功，并且认为如果要使归纳论证正确有效，就必须借助于不是属于逻辑学家所可能想到的在逻辑上可能的各个不同的世界，而是属于现实世界的某种超出逻辑范围的特点。

这类论证中第一个就是由拉普拉斯提出的。它的正确的纯数学形式有如下面所说：

有n＋l 个外形相似的口袋，每个口袋里有n 个球。第一个口袋里的球都是黑球；第二个口袋里有一个白球，其余是黑球；第（r＋1）个口袋里有r个白球，其余是黑球。我们选择其中一个不知包含什么的口袋，并从中取出m 个球。结果发现这些球都是白球。那么（a）下一个取出的球是白球，和（b）我们已经选出其中都是白球的口袋的概率是多少？

答案是：（a）下一个球为白球的机会是

m + 1

————

m + 2

（b）我们已经选出其中都是白球的口袋的机会是

m + 1

————

n + 1

根据有限频率说这个正确的结果有一种简单明确的解释。但是拉普拉斯推论出如果已经发现m个A为B，那么下一个A为B的机会是

m + 1

————

m + 1

而所有的A都为B的机会是

m + 1

————

n + 1

他是通过假定给出个我们对之一无所知的客体，其n 中0，1，2，n 个为B 的概率都相等而得出这个结果的。当然这是一个荒谬的假定。如果我们换用一个荒谬程度稍小的假定，即认为每个客体为B 或不为B 的机会相等，那么下一个A 为B 的机会仍然是1/2，尽管已经发现许多A 为B。

即使我们接受他的论证，如果n 比m 大得多的话，普遍归纳仍然不大可能，虽然特殊归纳可能变得具有很大的概然性。事实上他的论证已经成了只有历史兴趣的东西。

凯恩斯在他的《概率论》中对于归纳做出了纯粹数学可能做出的最好处理，并且最后认为归纳是不充分的。他得出下面的结果

设g 是一个概括性命题，x1，x2，……是有利于这个命题的观察到的实例，h 是在有关范围内的一般外界条件。

假定x1/h=x2/h=等等。

使pn=g/h x1x2……xn。

这样pn 就是普遍归纳在有了个有利的实例之后的概率。写出表示

g表示g 的否定，p0表示g/h，即这个概括命题的先验概率。那么

Pn=—————————————

P + x1x2…xn / gh(1 -P0)

当n 增加时，它就接近于1 而以1 为极限，如果

x1 x 2……x h

————————

接近于0 而以0 为极限的话；如果有着有限量ε和η使得对于所有足够大的r 来说，xr/x1x2 ……xr-^gh＜1-ε 并且P0＞η

那么上面那种情况就会发生。

让我们研究一下这两种情况。第一种情况说有一个小于1 的量1-ε，在这个概括性命题为伪的情况下，使得在出现一定数目的有利实例之后，出现下一个有利于这个概括的概率永远小于这个量。让我们看它的一个失败的例，即“所有的数都不是质数”这个概括。当我们顺着数列看下去时，质数越来越少，在出现r 个非质数之后下一个数本身为非质数的机会就会增加，并且在r 保持不变的情况下接近必然性而以它为极限。所以这种情况可能失败。

但是第二种情况，即g 在归纳开始之前就必须具有一个大于某个有限概率的概率，却更为困难。一般来说，我们很难看出有什么方法计算这种概率。

对于一个从来没有见过天鹅或听说过天鹅是什么颜色的人来说，“天鹅都是白色的”具有多大的概率呢？这类问题是既不清楚而又意思含糊的，凯恩斯也看出这类问题使得他的结论不够令人满意①。

设置

手机

书架

书页

第七章 概率与归纳法

第七章概率与归纳法