(美)David A.Schum著 王进喜译
3.证据的推论力、分量或者力度
考虑证据的这最后一个资质时,当然要考虑卡尔纳普的科学中的量化概念。因此,概率和数学现在肯定要进入我们对证据科学的讨论了。你现在有一项你叫做证据的信息,是因为你已经确立了其与你要进行的推论的相关性,并且你已经评估了其可信性。你现在要问的问题是:该证据支持或者否定你正在考虑的命题或者假设的力度有多大?我前面提到,就我知道的所有观点而言,证据的证明力是根据概率来进行分级的。一个有趣的结果是,我们目前在概率推理问题上,有着不同的形式或者数学模式。在每个这样的模式中,对于证据的证明力都有不同的观点。每种形式系统都就证据的证明力有着有趣而重要的说法,但是没有一个观点说的全面。我记得乔纳森·科恩曾经说到,在市场上对苹果的测量是以不同方式来进行的。它们按照数量、重量或者大小来卖,每种方式在特定情况下都具有完美的意义。就像我将要提到的,就证据的证明力而言,这也是同样的。
在我描述证据概念的出现的时候,我提到洛克的思想,即当我们根据证据推导出结论时证据所提供的赞同程度。 [1] 稍后,大卫·休谟(David Hume)做出了一个评论,这一直吸引着我的兴趣。他说: [2]
因此,所有的概率推理都不过是一种感觉……当我为任何原则所折服时,这不过是对我的冲击更为有力的一个念头。当我优先选择一套论点而舍弃另外一套时,我所做的不过是就感觉到的它们的优势影响而作出决定罢了。
在我所知的所有情况下,根据证据得出的结论都必然是盖然性的。我可以想到五个主要的原因。我们的证据总是不完全的,通常是非结论性的,常常是含混不清的,在一定程度上是不一致的,我们面前的证据总是来自在可信性上不够尽善尽美的人。因此,在评估证据的推论力时,这些我们都必须牢记在心。据我所知,没有一个关于证据证明力的盖然性观点平等地说明了所有这五个因素。在我考虑关于如何就证据的证明力进行评估和分级的四个相当不同的观点之前,我要就证据证明力的主要因素进行一个总的评论。
我们看看图3所表示的一般论证结构。在该图所描述的简单情况下,只有一个证据,我已经展示了一个包含有可信性和相关性环节的推理链条。关于命题或者假设H的证据E*的证明力取决于其推理链条的每个环节的力度。但是你现在可以看到当我们有多个证据,并且每个证据都通过常常是冗长而相互联系的推理链条而与命题H联系在一起时,我们会面临困难。前面我使用了“连线游戏”这个比喻来说明我们在评估大宗证据的全面证明力时所面临的问题。图3说明了我们是如何遇到不同形式的“点”的。某些点,例如E*,代表的是我们的证据中的细节。其他点代表的是我们关于这些证据点的含义的想法,这种想法是以待证事项形式出现的,这些证据点就此与我们试图证明或者证伪的事项联系在了一起。问题在于评估每个单个证据的证明力是非常困难的,但是当我们面对一堆证据时,这个任务将变得出奇的困难,就像威格莫尔在多年前所认识到的那样。
我并不是因为我现在探讨的四种概率制度与证据的证明力有关而要对其数学细节进行概括。首先,我在其他地方做了这件事; [3]其次,对于许多读者来说,这些细节可能很是无趣,甚至可能是难以理解的或者不重要的,而对于这些读者而言,我有着巨大的兴趣来完成我关于证据科学的现行评论,以及说明为什么他们应当对此有兴趣。我将要采用的方法恰恰是安德森、特文宁和我在我们的主要是为法学院学生所写的著作中所采用的方法。根据经验,迅速诱导法学院学生睡觉的方法之一,就是在黑板上写个公式。幸运的是,这些观点的主要因素可以通过言词和图片的形式来加以表达,就像我们在我们为法学院学生所做的工作那样。 [4]这四个关于证据推论力的观点见下文。
贝叶斯规则和证据的证明力
根据证据进行推理是一个动态过程,在这个过程中我们根据相关证据来修改就假设或者命题形成的现行或者先前信念,就这些假设形成新的、较后的信念。有一种推理叫做贝叶斯规则,该规则告诉我们,当我们根据我们大多数人在学校学得的这三个基本规则来用概率表述我们的信念时,这一动态过程是如何发生的。这些规则是:
●概率是正数或者零(换言之,不存在负概率);
●“确定”事件(肯定要发生的事件)的概率是1.0;
●如果两个或者两个以上的事件不能一起发生(换言之,它们是相互排除的),这些事件中的一个或者另一个发生的概率等于它们各自概率的总合。
所有的概率都取决于我们所知道的或者所发现的,或者以此为条件。我们现在有兴趣来确定事件E的概率。但是我们还知道事件F已经发生;因此我们有兴趣来确定以F为条件的E的概率。附条件概率同样遵循上述三个规则。就附条件概率而言,推论规则是贝叶斯规则,该规则告诉我们,根据获得的新的证据,我们应当在多大程度上以及什么方向上来修改就某些假设形成的先前信念。这种决定的结果叫做后验概率(posterior probability)。该规则起源于住在唐桥泉(Tunbridge Wells)的一个叫做托马斯·贝叶斯(Thomas Bayes,1702–1761)的持有不同意见的神职人员。那些有兴趣对贝叶斯加以探究的人可以参阅最近一本关于他的传记。 [5]贝叶斯规则被称为归纳推理的第一个数学准则。
在贝叶斯规则中有些术语叫做可能性(likelihoods),这将告诉我们在考虑到某些新的证据后,我们应当在多大程度上、什么方向上将我们的先前信念修改为后验信念。我们常常考虑这些可能性的比率。在任何情况下,这些术语都是我们已经获得的证据的推论力的指征。图5说明了这些可能性是如何表述的。假设被告人迪克因射杀了被害人威克而受审。这里有一个在审判迪克时收到的证据:迪克拥有用来射杀威克的左轮手枪。
关于迪克是否射杀了威克的证据的证明力,是由可能性1和可能性2的比率所决定的。如果你认为可能性1要大于可能性2,你就是在说这一证据支持这样的立场,即根据这一比率所表明的量,迪克射杀了威克。可能性比率既表达了推论力,也表达了证据的方向。如果你说该比率是5,你就是在说这一证据说明迪克射杀威克的可能性是他没有射杀威克的可能性的五倍。从方向上看,这一证据指向的是迪克射杀了威克。贝叶斯规则将告诉你,你有权增加你的先前信念,即根据5倍比率这个因素,迪克射杀了威克。因此,根据《联邦证据规则》401———我们在讨论相关性问题时讨论了此规则———这一证据确实是相关的,因为它允许你改变你的在重要问题上的概率。这就是理查德·伦珀特所评说的贝叶斯规则在就证据证明力进行分级问题上所具有的价值。 [6]
多年来,我一直在就我能想到的每种证据形式及其组合的证明力的可能性比率公式进行研究。我在另一本著作中对许多这样的研究进行了回顾。 [7]贝叶斯规则是一个奇妙的工具,能够抓住各种证据问题的微妙与复杂之处,以便进行研究和分析。可能性比率可以表达来用于证据收集,并且不限于图5所表示的单个证据。贝叶斯规则包含有一个性质,叫做条件相依(conditional dependence),这是我所知的表现证据的奥妙与复杂之处的最好性质。在讨论证据的发现的时候,我将再次回到贝叶斯规则上来。我们通常认为概率理论仅仅适用于对假设的归纳性证明。但是该规则的适用能够促使我们提出我们不曾想要提出的问题。这些问题可能开启新的调查线索和新的证据。但是,尽管贝叶斯规则很是丰富,但是并不能说明关于证据证明力的所有问题。
证据支持和证据证明力:非相加性信念
推导出贝叶斯规则的形式制度,立足于被许多人认为是不证自明的公理。第一个提出了我上述的三个公理的人,是俄国数学家柯尔莫果洛夫(A.N.Kolmogorov)。 [8]在其著作中,柯尔莫果洛夫说得很清楚,其公理适用的是涉及到重复性事件的情况,在这种情况下,可以通过计算来确定概率。两个基本的例子就是赌博中的偶然概率和统计学中的相对次数(relative frequencies)。但是在许多情况下,我们有着怀疑的或者不确定的事件,它们是不能重复、无法计算的过程的结果。我把这叫做独一无二的、单一的或者独此一家的事件。这些情况在诸如历史、法律、情报分析等背景下以及在日常经验中非常普遍。我对尼古拉·萨科因谋杀布莱德利而有罪的概率有自己的信念,但是我不能让这个世界反复一千次来观察他这么杀人的可能性有多少。在这些不可进行计算的情形中,存在各种适用概率概念的做法。
许多人持这样的观点,即概率在形式上可以是认识论性的、主观的或者判断性的,并且依赖于我们碰巧拥有的我们认为与对有意义的概率的评估有关的任何信息。贝叶斯规则的适用,要求至少有一个认识上的概率。我们在一开始需要一个先验概率,这样才能开始动态的概率修正过程。就某些假设或者命题H而言,在开始收集相关证据之前,我们需要评估H的可能性有多大。许多人毫不犹豫地提出了关于先验概率和贝叶斯规则的其他成份———包括可能性———认识论性的判断,只要这些概率遵循了柯尔莫果洛夫公理。就像我在第三.(二)部分结束的时候所提到的那样,就是这导致马里奥·邦格教授把同事们叫做“江湖骗子”,从事的是“伪科学”,这些人愿意以认识论或者主观概率的形式,对贝叶斯规则中的先验概率成份进行评估。总之,邦格和其他人反对在我们无法计数的时候就概率提出的任何说得通的观点。邦格如果读了持有我提到的这些关于证据证明力的观点的人的著作,会真的感到很失败。
洛特格斯(Rutgers)大学教授格伦·谢弗仔细地思考了我们无法计数的情形下所必需的认识或者判断概率。 [9]他是从否定公理的第三个的不证自明性开始的。该公理叫做相加性公理(the additivityaxiom)。这一公理说,如果事件E和F不能一起发生,那么这些事件中的一个或者另一个发生的概率总是等于它们各自概率的总合。但是该公理还有另外一个后果。当我们用于相互排除的事件,并且它们也具有穷尽性时(这个或者那个必须发生),那么根据第二个关于“确定”事件的公理,其概率之和是1.0。这样,如果我们有两个假设,H和not-H,它们的概率之和必须是1.0,无论是先验的还是后验的,无论是什么样的证据。总之,如果你认为H的概率是p,你也必须认为非H的概率是(1-p)。这样,如果你增加了H的概率,你必须减少非H的概率。谢弗说这是许多情形的不幸特点,这些情形涉及到认识论上的概率判断。他提出了几个理由来说明为什么这种相加性会带来麻烦。谢弗充分意识到了某些存在了很长时间的重要思想,例如雅各布·贝努(Jakob Bernoull)于1713年就其在其论文《猜度术》(Ars Conjectandi)中描述的“混合”证据和“纯粹”证据所进行的区分。混合证据为每个正在进行的假设提供了某种程度的支持,但是纯粹证据对某些假设什么也没有说,根本没有为它们提供任何支持。我们看一个纯粹证据的例子,假设汤姆、迪克和哈里都是业主家中贵重物失窃事件的嫌疑人。没有迹象表明房子是被破门而入的。人们发现汤姆有一把该房间的钥匙。这将是一个纯粹证据,因为它支持汤姆偷了东西的说法,但是对于迪克或者哈里而言,它什么也没有说。
谢弗说我们需要对证据为假设提供的支持进行一个不同的衡量。因此,他将证据支持的尺度界定为S,他把S等同于证据的推论力。像通常的概率一样,0≤S≤1.0。但是与上面讨论的贝叶斯规则中表示证据的证明力的可能性相比,S有着不同的含义。在S=0时,这意味着证据没有为某些假设提供任何支持。但是当一种可能性具有零价值的时候,这意味着该假设是不可能的。考虑到这种假设,它是说我们所拥有的证据的概率是零。贝叶斯规则这样就给这种假设分配了零概率。在通常的概率和谢弗的S算法中,零的角色有着完全不同的含义。就通常的概率算法而言,零表示不可能或者不相信。就S算法而言,S=0意味着缺乏支持或者缺乏信念。当我们确实有在某种程度上支持假设H的证据时,我们对假设H的信念就可以从零开始修正。但是我们不能从注定不可能的零开始修正关于假设的概率。不相信和缺少信念,是不同的判断条件。
与谢弗的支持S分派方式相关的,有一个非常重要的结果。在我们不能确定证据意味着什么的时候,我们可以以各种方式保留分派给假设的支持。就像我将在一个例子中所说明的那样,谢弗方法的这一特点导致了一个条件,即我们的信念是非相加性的,就像在运用贝叶斯规则时它们必须这样一样。以下是S如何分配的。假设我们有数量n的假设,这些假设是分离的、相互排除的,但是它们不必然是穷尽性的。我们可以随后想到其他的假设,或者是修正我们正在考虑的假设。n个假设的集合代表的是此刻我们如何看待我们的推论状况。谢弗把这种n个假设的集合叫做我们的识别框架(frame ofdiscernment)F。我们并不是仅仅因为这里有n个假设而去分派S,就像我们在贝叶斯规则中分派可能性时所必须做的那样。但是在我们的框架F中,我们要把S分配给这些假设的子集。当在F中有n个假设时,则在我们的框架中有2n个可能的假设子集。所有2n个假设的集叫做一个幂集(power set)。以下是一个最简单的情况:我们有两个相互排除并且是穷尽性的假设,即H和not-H。在我们的框架F中,假设的幂集包括:{H}、{not-H}、{H,not-H}和覫,其中覫是上述情况都不存在的集(覫被叫做空集”)。同样,我们要把集{H,not-H}读为:“要么H要么not-H”。我们可以以我们喜欢的任何方式来在一个幂集的非空子集中分派S,但是它们的和必须是1.0,并且?得到的分派S=0。
以下是一个关于支持分派的例子,这是一个很好的例子,在这个例子中,不能确定证据的含义,而能够反映我们信念中的不确定性,恰恰是谢弗的证据推理法的主要价值。这个例子涉及威廉·特文宁最喜欢的法律案例:Rex v.Bywaters and Thompson,该案是1922年12月6日到11日在欧·贝利(OldBailey)审判的。 [10]伊迪丝·汤普森(Edith Thompson)被指控要么与弗雷迪·拜沃特斯(Freddy Bywaters)于1922年10月3日在特定场合共谋杀了她的丈夫珀西·汤普森(Percy Thompson),要么她鼓动弗雷迪去杀掉珀西,不论是什么场合。在本案中存在一个经典的三角恋爱。弗雷迪住在汤普森家中,但是汤普森经常不在家。他在船上工作。弗雷迪和伊迪丝成了情人,并且在珀西死去之前一直有着风流韵事。伊迪丝和弗雷迪在弗雷迪出门的时候每天通信,这或者是通过信件,或者是通过当时的无线电报。弗雷迪保存了所有来自伊迪丝的信函,但是伊迪丝根本就没有保存来自弗雷迪的信函。
与伊迪丝写给弗雷迪的信函相比,我还没有遇到关于暧昧证据的更好例子。很清楚的是,这些信函看上去已经让十二个男性陪审员确信她有罪。她在1923年1月9日在哈洛威(Holloway)被处以绞刑。弗雷迪同日在本顿维尔(Pentonville)被绞死。一些信件提到了各种毒药,一些信件提到了碎玻璃,其他则包含一些评论,这些评论表明伊迪丝曾试图自己杀掉珀西。其他信函似乎给人这样的印象,即伊迪丝和弗雷迪曾策划除掉珀西。但是也在伦敦学院大学的莎士比亚学者雷内·韦斯(Rene Weis)教授在其关于伊迪丝案件的非常细致的分析 [11]中,对她的信件作出了不同的解释。特文宁和韦斯都认为伊迪丝是无辜的,但是采取的是不同的立场,使用的是不同的方法。 [12]特文宁以该案为例,来说明一个真正的复杂情形,在该情形中能够运用威格莫尔的论证结构方法。
通过运用谢弗的方法来分配证据支持或者证明力,以下是我关于伊迪丝的信件支持其她有犯有被指控的罪行(G)还是无罪(not-G)的观点。我用SL来代表我分配给她写给弗雷迪的全部信件的支持。这些假设的幂集是:{G}、{not-G}、{G,not-G]和Ǿ。
以下是我对S进行的分配含义。我认为信件证据支持其有罪的程度达到了0.3,支持其无罪的程度达到了0.2。但是我对这一信件证据说了些什么的不确定性程度达到了0.4,因此我将这数值分配给了集{G,not-G},因为我不能弄清楚这一暧昧证据是否明确支持G或者not-G.。对S的这种设定,代表的是我从要么{G}要么{not-G}所保留的支持的量。
以上关于支持的分配与我的信念[Bel]在某种谢弗方法所允许的方式上,是相互对应的。我有Bel{G}=0.3,以及Bel{not-G}=0.2。我在本案中的信念是非相加性的,因为Bel{H}(0.3)+Bel{not-G}(0.2)=0.5,这小于1.0。如果我运用了贝叶斯方法,我将需要说Bel{H}+Bel{not-G}=1.0,因为G和not-G是相互排斥的,是穷尽性的。总之,贝叶斯规则并不允许我在证据的含义上存在非确定性的信念。
谢弗的方法常常被叫做信念算子(belief functions)法,在体现我们那些通常的概率很难或者不可能体现的概率信念方面很有用。因为柯尔莫果洛夫公理中的一个已经被违反了,贝叶斯规则并没有出现在谢弗的信念算子法中。它被邓普斯特(Dempster)规则所取代了。该规则允许我们把多个证据的支持评估S组合起来。该规则允许计算分派给不同证据的S,这叫做正交和(the orthogonal sum)。这一方法已经应用于许多重要的背景中,在这些背景中的推理中,认识上的判断评估是必要的。
培根式概率中的证据完整性和证据的证明力弗兰西斯·培根(1561–1626)通常被认为是一个主张我们不能够通过汇编支持假设的例证来证实关于自然界运转的假设的人。他所主张的是,消极的例证和积极的例证至少具有同样的信息性。事实上,在验证假设时,我们所应当做的就是进行旨在排除可能的假设的实验。能够经得起我们正在考虑的排除任何假设的最大努力的假设,是我们最应当信任的假设。这种观点被叫做排除归纳法(elimi-native induction)。但是培根从没有具体说明应当使用什么样的排除方法。就像我在第3.1节所指出的那样,约翰·斯图亚特·密尔通常被认为是第一个确定了旨在排除我们在自然界所观察到的效果的原因的方法的人。但是我所提到的牛津学者更早地知道了这样的方法。
但是在假设的排除性验证中,存在另一个重要的因素。我们进行的验证必须是变量性的,因为我们必须建立我们期待一个假设继续保持有效的一系列条件。我们不能通过进行一次又一次的同样的验证来这么做。这种重复性验证将会完成的惟一的事情,是增加我们对这种单一的验证的结果的信心。某个假设得以存在的条件变化越多,我们就能对它有更多的信心。但是这种变量性验证带来了另一个重要的问题,也就是说:我们就我们的假设进行的排除性验证有多么完整?对我们的假设也许还能进行其他的重要验证,但是我们还没有做,而其结果却可能排除我们仍在考虑的假设。培根、密尔、波普尔以及任何其他人都没有成功地将与对假设的排除性和变量性验证有关的问题与通常的概率概念联系在一起。第一个研究这种关系的人是L·乔纳森·科恩(现在是牛津大学女王学院的退休教授)。在一本在法律和哲学的概率思想领域具有巨大影响的著作中,科恩首次提出了一个概率理论,它显然适合于对假设的排除性或者变量性验证。 [13]他把这一理论叫做培根式概率(Baconi-an probability),承认其根植于弗兰西斯·培根的著作。有的时候他还把这叫做归纳概率理论(theory ofinductive probability)。在其著作中,科恩就以证据为基础的推理的概率采取了一种明确的普遍(ecu-menical)(或者是他所称的“多标准”)观点。他允许关于概率的通常观点在某些情况下完全说得通,但是并不是所有情况都是这样。他进一步认为,关于以证据为基础的推理的通常观点,例如贝叶斯规则,忽视了已经考虑了多少证据,以及关于被认为与现在的推论有关的事项的证据有多么完整的问题。排除性和变量性推论要求特别考虑。事实上,在科恩看来,证据的完整性是与证据的证明力联系在一起的主要因素。
下面的图6是一个我曾用来说明科恩关于培根式概率论的一些主要思想的图。我已经尽了最大努力来在来自各个背景的人那里激起对科恩的重要思想的兴趣。这些人应当意识到其关于证据完整性的思想。我已经在某些背景下对此进行了详细探讨,但是并不总是有着巨大的成功。 [14]在科恩的关于证据证明力的观点中,有两个基本问题:(1)就在回答我们提出的相关性问题时产生的某些假设而言,我们有多少非抵消性的支持证据?(2)有多少个相关性问题,我们知道但是仍然没有证据对此做出回答?总之,在科恩看来,证据的证明力不仅取决于对我们已经提出的问题的回答,还取决于还有多少个问题仍然没有被回答。科恩关于证据的证明力与数量的培根式观点,让我想起了约翰·M·凯恩斯(John M.Keynes)在其关于概率的非常有影响的论文中表达的思想。 [15]凯恩斯关于证据的数量及其证明力的思想常常被误解。就凯恩斯关于证据证明力的观点所引起的各种问题,科恩已经写了文章。 [16]以下是与图6有关的故事的某些细节。若干时间前,有人要求我们就H1、H2和H3这三个假设哪个更为可能做出评估,因为这与我们必须做出的决策有着重要的联系。最初的证据强烈地表明H1是真的,因此我们根据H1采取了行动。我们现在要做的就是进行一个事后分析来看看什么错误发生了。H3碰巧发生了,我们的决策流产了。我们的决策带来了一个灾难性结果。某些人说:“我们怎么会错呢?我们运用了贝叶斯规则来对我们对我们拥有的证据的可能性的评估进行汇总,并且我们都认为我们运用的先验概率是说得通的。根据我们在我们的推理中囊括的证据,贝叶斯规则说H1的后验概率是0.997。”
在我们进行事后分析时,如果乔纳森·科恩碰巧在场,他可能会这么说:“仅仅立足于你的现有证据提供的回答,你错在了比你认为的更长更细的推论枝杈上了。在你的分析中,你现在认识到还有多少相关性问题没有得到回答?”我们开始制作一个清单,看有多少问题我们认为也具有相关性但是我们并不准备回答;这一清单变得相当大。它还包括在我们进行分析时我们知道的问题。然而,我们认为我们已经考虑的证据是足够强大的,在得出结论说H1是真的时候,我们并没有犹豫。这里是一个我们所走的实际的推论枝杈的图片。
乔纳森·科恩接着解释了该推论枝杈的两个部分。我们在这个枝杈上找到了我们自己。他说:“粗壮的部分包含的是你拥有的与H1相关的支持性证据。弱小的部分包含的是仍然没有得到回答的相关性问题。当你得出结论说H1是真的时,你所做的实际上是在假定你没有提出的问题的所有回答都是支持H1的。问题在于一个很高的贝叶斯后验概率并不是证据证明力的良好指征,因为它并没有就证据的完整性或者充分性进行分级。”
在另一作品中,我就当我们遇到我们构建的论证中的推理链条时使用的培根式方法和贝叶斯式方法进行了比较。 [17]就以证据为基础的推理而言,这两个方法没有什么不可调和之处。原因在于它们回应的是不同但是同样重要的因素。贝叶斯规则为衡量你所拥有的证据的力度提供了很有用的尺度,但是科恩的培根式概率理论允许我们就我们的证据的完整性进行分级。我最后的结论是,这两种非正面回答性的结论形式,在许多情况下都是必要的。
对证据证明力的言词估算:模糊概率
在许许多多情况下,我们探讨证据的证明力,用词语而不是数字来表达我们的结论的力度。没有比法律领域发生的例子更好的了。法律中的证明标准,如“排除合理怀疑”,“清晰而令人信服的证据”,“合理根据”,等等,都是言词评估,这似乎是在抗拒将其翻译为数字概率的努力。威格莫尔在分析我们所说的推论网络的时候,充分地认识到连接证据与待证事项的箭头———例如图2A所表示的那些———在性质上都是概率性的。但是他总是使用词语而不是数字来表示论证中一个要素与另一个要素的连接力度。 [18]他使用了诸如“强证明力”、“弱证明力”以及“暂定的证明力”等术语来表示这些环节的力度。在许多背景下都出现了使用语词而不是数字来表示证据证明力的情况,特别是在没有运用或者组合上述描述的关于证据证明力的观点的企图的情况下。
在将数字化的概率结合在一起方面存在运算法则,例如贝叶斯规则和Dempster规则,但是我们如何将以言词形式给出的证据的证明力评估结合在一起?威格莫尔没有提示我们如何将其对证据证明力的言词分派组合起来,以便对整个大宗证据的证明力进行分级。在对证据证明力进行分级时对概率进行的言词评估,以及在说明整个结论的力度时运用的概率,今天被叫做模糊概率(fuzzy probabili-ties),这在一定程度上承认了其不准确性。但是要感谢罗特夫·扎德(Lotfi Zadeh)及其在世界范围内许多同事的工作,在言词或者模糊概率的表达和组合方面,存在着逻辑。 [19]这种模糊逻辑和概率方法在许多情况下被广泛接受了,在这些情况中,人们必须根据模糊或者不准确的因素进行各种工作。但是确实有人对此贬损。 [20]
我现在完成了我对证据以下重要性质或者资质的评论:相关性、可信性和推论力。我已经仔细地讨论了这些属性,以说明对他们的研究如何与庞加莱和卡尔纳普所说的科学中涉及的分类、比较和量化概念有关。我接着要对证据的使用进行评论,将要说明这些同样的概念也会出现。
(三)论证据的使用
在每天的生活中,我们都在推理和决策中使用证据,无论这些推理和决策的内容和目标是什么。威廉·特文宁就证据提供了一个描述,这似乎涵盖了你能想到的任何背景下对证据的使用。他说: [21]
“证据”是一个论证背景下使用的关于关系的词(A是关于B的证据)。在该背景下,如果某信息倾向于直接或者间接地支持或者否定某假设或者待证事实,则该信息即具有相关证据的潜在作用。为了证明或者证伪某假设或者待证事实,人们需要根据证据进行推论。框架是论证,过程是证明,动力是推论。
我将要提供两个使用证据的例子。第一个将说明庞加莱的主张,即科学立足于分类,是对关系的研究,对其中的某些可以进行量化表达。第二个涉及卡尔纳普的比较和量化概念及其在科学和我们日常生活中的重要性。
1.证据的推论作用
我现在将集中讨论特文宁的上述评论和他的这段话:“如果某信息倾向于直接或者间接地支持或者否定某假设或者待证事实,则该信息即具有相关证据的潜在作用。”威格莫尔就证明背景下证据的作用提供了一个非常有用的分类。 [22] 在讨论这些证据作用时,威格莫尔使用了我们法律制度中对抗制程序遇到的术语。但是我能够使它们相当一般化,从而能够适用于任何背景下的推理。我记得斯蒂芬·图尔敏就对抗制程序和我们试图在各种背景中就证据进行推论的情况进行的评论。他说“逻辑是一般化的法学”。 [23]
为了使得下面的评论尽我所能地一般化,我将假定只有一个人进行推论,也就是你。我们并不关注这一推论的背景或者内容。你试图就假设H是否是真形成一个结论。我们可以假定你提出了假设H。我们惟一要假设的事情是你思想开放,愿意考虑那些与以下两个假设有关的证据:H和非H。你遇到的证据可能是实物证据,也可能是言词证据,你得到的这些证据可能是你自己努力的结果,也可能是其他人努力的结果,你需要从他们那里获得信息。你将注意到在这个例子中,在图1中提到的我所说的“无关内容”的几种证据形式,以及证据的组合,将会出现在这个例子中。这将符合庞加莱对科学中分类的重要性的强调。
支持假设H
首先,假定你认为如果事件E发生了,这将是支持H的直接相关但是并非结论性的证据。接着你找到了证据E*,证明事件E发生了。这一证据可能是言词证据,或者是实物证据。在威格莫尔的分析中,这将叫做提出者的主张(proponent′s assertion),如果我们把你视为假设H的提出者,你当然会关心E*的来源的可信性。假定你获得了支持该来源可信性的附属证据。这将提高你的信念,即事件E确实发生了。此外,假定你询问了另一个人,他也佐证了第一个人所说的;该第二个来源也能提供证据证明事件E发生了。接着你收集到了碰巧支持第二个人的可信性的附属证据。但是你也收集到了能够支持允许确立事件E和假设H之间的相关性联系的归纳的证据。这一证据将强化这一联系。
但是你直到其他事件,如果这些事件发生了,也将支持假设H。特别是,你认为事件F将与事件E聚合而支持H。你收集了证据F*,证明事件F发生了。你可能收集了支持证明F的人的可信性的附属证据。你可能还从他人那里收集到了证明事件F发生的佐证。此外,你可能收集了进一步的附属证据来强化使你能够从事件F推论出假设H的归纳。因此,你现在有两条证据线索,它们在一起将提高对假设H的支持。你可能当然知道去思考那些能够会聚支持H的其他事件。
威格莫尔不是概率学家,考虑到他在证据和证明上的其他成就,这对他来说是个苛求。就证据的推论力进行概率研究,提供了另外的路径,据此我们可以使用证据来支持假设H。首先,假定证据E*是言词证据,来自于我们叫做玛丽的人。你开始认为玛丽告诉你的事实———即事件E发生了———要比其他人就E告诉你的要更有价值。事实上,因为你知道玛丽可信性,使得她的证言更有价值的是这一点,而不是你确切知道事件E发生了。总之,因为我们了解提供证据的人,这常常至少像它们告诉我们的内容一样具有价值。在最近的一个报告 [24]中,我通过数学捕捉到了言词证据的这一微妙之处。
另一个微妙之处———这次涉及事件E和F———也可以得到说明。这将大大增加关于这些事件的证据为假设H提供的支持。前面在第四.(一).2部分,我提到会聚型证据是如何支持同一个假设的,这常常在其推论力中具有增效作用。你可能认为关于事件E和F的证据的结合,将比对其进行单独考虑更能有力地支持假设H。这种增效作用可以用概率术语来体现。 [25]
在支持某些假设的时候,证据可以发挥各种作用。但是我们假定你是心胸开阔的人,将会仔细地考虑否定H或者支持not-H的反证。
否定假设H
一个同事出现了,他从来没有对假设H是真的信念表现出巨大的热心。到目前止,你说过的是事件E和F将支持H。但是你的同事对关于这些事件的证据的来源的可信性表示怀疑,他首先提出了附属证据来怀疑他们的可信性。此外,你的同事可能从他人那里提出矛盾证据,这些人将说E或者F或者二者都没有发生。威格莫尔称这种证据构成了反对者的否定(opponent′s denial),即否定了事件E和F的发生。
但是你的同事可能有附属证据,能够削弱你所主张的将事件E和F与假设H联系在一起的归纳。这样的证据将会把你所说的事件E和F的意义解释得化为乌有。这一附属证据将允许你的同事说:“如果事件E和F发生了,它们与假设H没有什么关系,那你怎么办?”威格莫尔把这种情况叫做反对者的解释(opponent′s explanation)。
你的同事还有另一个策略来否定H。她可能这么说:“目前止,你仅仅考虑了你说会支持H的事件(E和F)。你准备仅仅考虑你认为会支持H的事件吗?我收集到了关于事件J和K的证据J*和K*,我认为J和K将不支持H。威格莫尔把这种状况叫做反对者的对抗证据(opponent′s rival evidence)。在这种情况下你将不得不对付我称之为分歧证据(divergent evidence)的证据。这里不存在矛盾,因为J和K涉及的是不同的事件,这些事件可能是和事件E和F一起发生的。与事件E和F相比,J和K仅仅是指向了不同的推论方向。
但是你的同事还有最后一招来破坏H是真的推论;这涉及你所说过的关于事件E和F的协同作用问题。你的同事说:“你说过关于事件E和F的证据加在一起,将会比我们对之的孤立考虑有更大的证明力。换言之,你是说与没有考虑事件E相比,如果事件E发生了,则事件F有更大的证明力。但是我认为E的发生将会使得F在某种程度上成为冗余,因此我认为与把它们孤立地考虑相比,把它们一起考虑会意味着更少。
举这个关于证据的各种作用的例子,我并不是一定要假定你一定要遇到一个会用这种证据策略来破坏对H的信念的同事。如果你在你的推论方法问题上确实虚怀若谷,你将充任你自己的对手,即要考虑支持H的证据会如何受到其他证据以这些各种方式进行的攻击或者抵消。你的结论可能是,尽管你的最初信念是H是真的,但是not-H是真的。这个例子所说明的是这样的必要性,即在就证据进行推论时,在收集和估量证据时我们要无偏见或者客观。我们可能会说,在我们所面临的推论任务中,当我们扮演我们自己的“忠诚反对者”时,我们将得到充分的帮助。即使我们常常面对的批评者是“不是那么忠诚的反对者”时,也是这样。
2.来自证据和数字的故事
我开始的时候,承认现在进行的许多研究,在各种重要的背景下,正在以各种概率方法对大宗证据和复杂过程进行分析。这些背景包括法律、医学和情报分析。我们再想想图2,它表示的是进行概率分析的两种最简单的不同形式的推论网络。我将使用威格莫尔对大宗证据的分析和特定的过程模式,来说明就大宗证据的推论力构建不同的故事的可能性和通常必要性。我的例子将运用贝叶斯规则,但是运用谢弗的信念算子或者科恩的培根式概率理论,也可以进行类似的分析。
我将要讨论的两个例子都涉及所谓的“任务分解”或者“分而治之”。在这样的分解中,一个显然复杂的推理任务被分解为人们认为的基本要素。威格莫尔分析大宗证据的解释和综合法,就是一个很好的例子。我们首先要将从证据到我们试图证明或者证伪的内容这一论证中我们认为会出现的所有证据和怀疑根源列举出来(这是一个关键的清单),接着要建构一个图表(或者推论网络)来说明我们是如何认为所有这些因素是契合在一起的。就像我提到的,我们可以把这一过程看成是一个人在玩“接点”游戏。
假定我们在我们的分析中有大宗证据,根据这些证据构建的推论网络已经经过了旨在揭露我们构建的论证中存在的不衔接或者无前提推论的严格分析。下一步就是分派表示待证事项、怀疑来源或者概率变量连接在一起的力度的概率。这些概率是以我在图5中描述的可能性的形式出现的。图2的两个图中的所有箭头表示的是以可能性方式表示的概率环节。我们假设我们都认为我们已经构建的推论网络记录了我们正在研究的复杂论证或者过程要素。但是这些连接概率来自何方?在某些很罕见的情况下,我们可能有统计上的依据来从相对次数估计这些概率。但是在大多数情况下,这些概率中的许多或者大多数将取决于我们做出的认识论判断。在我将要提供的两个例子中,所有的概率都取决于主观判断。这就是为什么有必要讲述不同的故事的原因。
尽管我们就我们的推论网络的结构有一致意见,我们自己可能发现就将我们的论证的要素联系在一起的可能性而言,存在重大分歧。假设我们都有兴趣来确定我们正在考虑的证据的全面证明力。我们的在这些可能性因素上的分歧会如何影响我们正在考虑的证据的证明力?我们可能说,我们的关于这些概率因素的不同信念,允许我们就我们正在考虑的证据的证明力讲述不同的故事。我们的故事中的“演员”是我们所拥有的证据。我们的故事的“情节”是由我们评估的可能性所决定的。当你的可能性不同于我的可能性时,我们实际上是在根据同样的证据或者以同样的演员讲述可能不同的故事。我们当然对我们的故事能够在结局时告诉我们所拥有的证据的证明力这一点感兴趣。你的故事的结局可能与我的故事的结局存在相当大的差别,但是这并非必然。根据证据讲故事的比喻当然是合适的。它描述了这样一个过程,这个过程每天都在重复:在审判活动中对立的律师根据同样的证据讲述着不同的故事。他们使用了同样的演员来讲述不同的故事。
我们如何知道我们关于证据证明力的不同故事会如何结局?数学将为我们提供帮助。这涉及叫做灵敏度分析(sensitivity analysis)的过程。我们有着来自于贝叶斯规则的方程式,来告诉我们在计算我们正在考虑的证据的证明力时如何将你的可能性与我的可能性结合在一起。总之,这些方程式就证据证明力的总和为你我的故事提供了结局。卡尔纳普的比较和量化概念在证据科学中再次出现了。我们的故事是以数字化讲述的,但是可以轻而易举地将其转化为言词。这样我们就可以比较我们的故事,来观察我们的不同的可能性因素对证据证明力的确定产生的影响程度。
但是我们用来结合这些可能性因素的等式有一个重要的特点。它们都是非线性的。这意味着这些方程式能够产生出许多“全部总是等于部分之和”的线性方程不会产生的“惊诧之事”。会发生的情况是,在某些情况下,我们就其可能性进行估计的事实是相当不同的,但是这在我们的两个故事的结局上形成的影响却没有什么大的不同。我们在讲述两个有着同样或者近乎同样的结局的两个故事。但是在其他情况下,即使我们的可能性因素有着极其微小的差别,也会在我们关于证据证明力的故事中制造出迥异的差别来。
杰伊·卡登(Jay Kadane)和我在对萨科和范塞蒂案件中的部分证据进行概率分析时,使用了我刚才提到的灵敏度分析过程。我们使用这一过程来代表该案的检控方和辩护方讲述不同的故事。 [26]就像我上面所提到的,我们使用了同样的证据来代表该诉讼各方讲述这些故事。以下是我们如何讲述这些故事的两个例子。
第一个涉及威格莫尔所称的伴生证据(concomitant evidence)。这涉及萨科在犯罪发生时在做什么。我已经提到有两个证人,刘易斯·佩尔瑟和刘易斯·韦德。他们都是检控方的“明星”证人。佩尔瑟说在犯罪发生时他看到萨科在犯罪现场,韦德说她在犯罪发生的时候看到一个像萨科的人在犯罪现场。但是有五个辩护证人,其中四个在工资款警卫布莱德利被射杀时刚好转过街角。他们都说在枪击发生的时候,萨科和范塞蒂都不在现场。第五个辩护证人作证说在犯罪发生前15分钟左右,萨科并不在犯罪现场。
刚才描述的威格莫尔式证据论证结构是很简单的,以便我们能够写出必需的准确方程式,来把这一论证结构中的可能性组合起来。通过运用这些方程式,我们讲述了十个不同的故事,五个代表检控方,五个代表辩护方。 [27]在讲述这十个故事的过程中,我们变动可能性的价值,例如关于证人可信性的可能性,以及其他事项,例如与长得像萨科的某人在现场的概率有关的事项,如果萨科没有在这里的话。就证据的证明力支持萨科射杀了工资款警卫的假设而言还是支持萨科没有射杀工资款警卫的假设而言,我们所讲述的十个故事都有着不同的结局。就像我上面提到的,这些故事常常有着令人惊诧的结局,例如,通过稍稍改变佩尔瑟的可信性,我们就可以有效地破坏其证言对于被考虑的证据的组合的证明力的贡献力。我们所讲述的某些故事说明,贝叶斯规则能够体现佩尔瑟和韦德的证言的可能冗余性。
我们还考虑了该案中更为复杂的证据总和。 [28]一种证据组合涉及我早先提到的弹头III以及据说是萨科在被捕时持有的考尔特自动手枪。这里的论证结构是足够复杂的,使得我们无法写出关于证据证明力的等式。我们为这一弹道证据构建的推论网络,要求对可能性进行42个评估。但是要感谢几个概率学家的真正杰出的工作,我们现在拥有以计算机为基础的系统,该系统“知道”对于我们构建的任何适当的论证结构(a DAG)而言,必要的方程式是什么,无论这是威格莫尔的证据图还是我在图2所说明的过程模式。 [29]我们代表检控方和辩护方所讲述的故事旨在说明我们的推论网络中出现的待证事项或者命题之间的重要的条件相关性(conditional dependencies)。例如,关于弹头III是从萨科的考尔特手枪发射的这一证据指向萨科的罪行,但是不是很强。在犯罪期间,可能是别的什么人开了这枝枪。但是当我们考虑其另一个证明萨科案发时在犯罪现场开了一枪的证据后,这一证据则意味更多。所有这一证据的可信性都是那么重要。
我们很高兴地指出,我们根据萨科和范塞蒂案件中的数字所讲述的故事被包括进了数学家约翰·艾伦·保罗斯(John Allen Paulos)所写的一本著作。他的书引起了很大反响。在最近一本关于他所说的故事背后的隐秘数学逻辑的书 [30]中,他描述了我们根据萨科和范塞蒂案件中的数字所讲述的故事的有用性,并认为这些故事背后的威格莫尔式的分析在其他复杂案件中也将很有用,例如对辛普森(O.J.Simpson)的审判。
我就以根据证据构建的网络为基础的数字所讲述的故事,做出最后一点评论。我到目前为止还没有说实验在证据科学中的作用。灵敏度分析过程是一种实验,在该实验中我们变动的是建立在特定推论网络基础上的方程式的概率因素。我们这么做是为了看看方程式是如何针对其组成部分的那些变化而变动的(也就是说它们会讲出什么不同的故事)。但是根据一个推论网络所讲述的故事都说得通吗?灵敏度分析也是对推论网络本身的测试过程。就像我曾提到的,我们构建的推论网络是我们的想象和批判性推理的结果。我们如何进行验证,来确定我们构建的推论网络说得通,从而允许我们得出我们感兴趣的结论?灵敏度分析允许这样的一种验证:当我们以多多少少系统方式改变这些故事中的因素,我们的网络允许我们讲述说得通的故事吗?这种形式的实验我使用了多年,用来验证我根据各种形式的证据及其组合构建的论证的推论性结果。 [31]证据科学确实允许我们就如何相信证据与我们正在试图证明或者证伪的事项有关的观点,进行实验性验证。
[2] Hume,D.,A Treatise of Human Nature(1739),[ed]Selby-Bigge,Oxford University Press,1975,p.103
[3] See note 1 at pages 200-269.
[4] See note 3 at pages 246-261.
[5] Dale,A.,Most Honorable Rembrance:The Life and Work of Thomas Bayes.Springer-Verlag,New York,NY,2003.
[7] See note 1,Chapters 6-8.
[8] Kolmogorov,A.N.,Foundations of a Theory of Probability(1933),2nd English edition,Chelsea Publishing,New York,NY.,1956
[9] E.g.,Shafer,G.,A Mathematical Theory of Evidence.Princeton University Press,Princeton,NJ.,1976.
[10] E.g.See note 3 at pages 159-223.
[11] Weis,R.,Criminal Justice:The True Story of Edith Thompson.Hamish Hamilton,London,1988;Penguin,London,2001.
[12] 1See note 64 Chapter 2,pages 63-121.{G}{not-G}{G,not-G}准SL:0.3 0.2 0.4 0
[13] Cohen,L.J.,The Probable and the Provable.Clarendon Press,Oxford,1977.Also See:Cohen,L.J.,An Introduction to thePhilosophy of Induction and Probability.Clarendon Press,Oxford,1989.
[14] Schum,D.,Evidence and Inference for the Intelligence Analyst,[2 Volumes],University Press of America,Lanham,MD.1987.Multiple references to Cohen′s work in both volumes.
[15] Keynes,J.M.A Treatise on Probability(1921).Reprint of 1st ed.Macmillan,London,1957.
[16] Cohen,L.J.,Twelve Questions about Keynes′s Concept of Weight.Brit.J.Phil.Sci.,Vol.37,1985,p.263-278.
[17] Schum,D.Jonathan Cohen and Thomas Bayes on the Analysis of Chains of Reasoning.Probability and Rationality:Studieson L.Jonathan Cohen′s Philosophy of Science.Posnan Studies in the Philosophy of Sciences and the Humanities.Vol.21.Eds.Eellls,E.,Maruszewski,T.Rodopi Press,Amsterdam,1991,p.99-145.
[18] See note 9 at pages 864-866
[19] E.g.,Zadeh,L.Fuzzy Sets.Information and Control.Vol.8,1968,338-353;Zadeh,L.The Role of Fuzzy Logic in theManagement of Uncertainty in Expert Systems.Fuzzy Sets and Systems,Vol.11,p.199-227.
[20] E.g.Haack,S.,Deviant Logic,Fuzzy Logic:Beyond the Formalism.University of Chicago Press,Chicago,IL.,1996.
[21] See note 4 at page 97.
[22] See note 9 at pages 18-48.
[23] See note 27 at page 7.
[24] Schum,D.,Capturing an Interesting Subtlety Involving a Source of Testimonial Evidence.UCL Studies of Evidence ScienceReport,May 4,2004..
[25] 156See note 1 at pages 401-409
[26] See note 84 at pages 175-183;198-239.158Ibid pages 198-215.159Ibid pages 215-239.·95·Evidence Science Vol.17 No.1 2009
[27] Ibid pages 198-215..
[28] 159Ibid pages 215-239.
[29] E.g.see Pearl,J.,Probabilisic Reasoning in Expert Systems:Networks of Plausible Inference.Morgan Kauffman,San Mateo,CA.,1988;Lauritzen,S.,Spiegelhalter,D.,Local Computations with Probabilities on Graphical Structures and Their Appli-cation to Expert Systems.Journal of the Royal Statistical Society:Series B,Vol 50.,No.2,1988,p.157-224.
[30] 161Paulos,J.A.,Once upon a Number:The Hidden Mathematical Logic of Stories.Basic Books,New York,NNY,1998,71-73.
[31] See note 1,Chapters 7 and 8. |