Théorème de Cox : les probabilités comme logique
Le théorème de Cox est un résultat mathématique très intéressant portant sur la logique et les probabilités. Le physicien Richard Threlkeld Cox cherchait un moyen d'étendre les règles de la logique afin de traiter des propositions dont la véracité n'est pas certaine, et il a montré par ce théorème qu'en partant de quelques critères assez simples, seule la formulation mathématique des probabilités pouvait remplir ce rôle. Je vous propose ici d'étudier un peu ce théorème, ses prémisses, et son interprétation.
1. Petits rappels de logique
Avant toute chose, si on veut étendre la logique, il s'agit d'être compatible avec elle et de la comprendre. Commençons donc par se remémorer le cadre de la logique formelle.
1.1. Tout n'est que propositions
En logique, on manipule des propositions. Ce sont des affirmations, dont on va pouvoir dire qu'elles sont soit vraies, soit fausses. Par exemple, « Je suis un chat. » est une proposition, manifestement fausse. « La Terre est ronde. » en est une autre, dont nous nous accordons (presque) tous pour dire qu'elle est vraie.
Mais au delà de dire pour un ensemble de propositions si elles sont vraies ou fausse, la logique construit des outils permettant de combiner ces propositions pour en construire de nouvelles, et de raisonner dessus. Parmi ces manières de combiner des propositions entre elles, voici les 4 plus classiques :
Le « ET », également appelé conjonction. Si $A$ et $B$ sont deux propositions, alors leur conjonction est la proposition « $A$ ET $B$ », également notée $AB$ ou $A \land B$. Elle est vraie si $A$ et $B$ sont toutes les deux vraies, et fausse sinon.
Par exemple « La Terre est ronde ET la mer est bleue » est vraie, mais « La mer est bleue ET la Terre est plate » est fausse.
Le « OU », également appelé disjonction. La disjonction de $A$ et de $B$ est la proposition « $A$ OU $B$ », également notée $A + B$ ou $A \lor B$. Elle est vraie si au moins l'une de $A$ ou de $B$ est vraie. Elle n'est donc fausse que si $A$ et $B$ sont toutes les deux fausses.
Par exemple, « La mer est bleue OU la Terre est plate » est vraie, « $1+1=2$ OU $4+6=10$ » également.
Le « NON », également appelé négation. La négation d'une proposition $A$ est notée $\bar{A}$ ou $\neg A$, et est vraie si $A$ est fausse, et inversement.
La négation de « La Terre est ronde » est par exemple « La Terre n'est pas ronde » (et non « La Terre est plate »).
Le « SI … ALORS », également appelé implication. Une implication prend la forme « SI $A$ ALORS $B$ », et affirme que lorsque $A$ est vraie, alors $B$ l'est également. On le note $A \rightarrow B$. Notez que l'implication ne dit rien si $A$ est fausse. Le seul moyen qu'une proposition du type $A \rightarrow B$ soit fausse est donc que $A$ soit vraie et que $B$ soit fausse.
« SI la Terre est ronde ALORS il y a un horizon » est un exemple d'implication vraie, indépendamment de savoir si la Terre est effectivement ronde ou non. À l'inverse, « SI je suis mortel ALORS je suis un chat » est une implication fausse : je suis bien sûr mortel et ne suis pas un chat pour autant.
On peut noter que ces 4 opérations fondamentales peuvent parfois s'exprimer les unes en fonctions des autres. En effet, $A + B$ n'est fausse que si $A$ et $B$ sont toutes les deux fausses, on peut donc également l'exprimer comme « $A$ et $B$ ne sont pas toutes deux fausses », c'est à dire « NON ($\bar{A}$ ET $\bar{B}$) ». On peut de même montrer que $AB$ est équivalent à « NON ($\bar{A}$ OU $\bar{B}$) », ou encore que $A \rightarrow B$ est équivalent à « NON ($A$ ET $\bar{B}$) ».
Notamment, on peut voir que toutes les opérations logiques peuvent s'exprimer sous forme d'une combinaison plus ou moins longue de ET et de NON.
1.2. Le raisonnement logique
C'est un premier pas que de tout exprimer comme propositions, mais ce n'est pas suffisant pour raisonner. Il nous faut également un moyen de transférer la véracité de propositions déjà connues à de nouvelles propositions, afin de démontrer leur véracité ou fausseté.
Pour ce faire, il nous faut donc une règle de raisonnement supplémentaire. Communément appelée le Modus Ponens, cette règle peut s'énoncer ainsi :
De $A \rightarrow B$ et $A$, on peut déduire $B$.
En d'autre termes, si on sait que $A \rightarrow B$ est vraie, et que $A$ l'est également, on peut conclure (et de ce fait démonter) que $B$ est vraie. L'exemple le plus connu de cette application est peut-être le syllogisme « Tous les humains sont mortels, or Socrate est un humain, donc Socrate est mortel. ».
Nous avons maintenant toutes les clefs en main pour nous lancer dans le grand jeu des démonstrations mathématiques. Le principe est simple : on choisit un certain nombre de propositions qu'on va admettre pour vraies (on les nomme les axiomes de notre théorie), et partant de ça on essaie de démontrer le plus de propositions possibles simplement en appliquant le Modus Ponens, et en les combinant avec les opérations décrites précédemment (conjonction, disjonction, négation, implication).
C'est de cette manière que sont construites les théories mathématiques (l'analyse, les probabilités, la géométrie…), et on cherche en général à construire les théories les plus larges et utiles possibles à partir d'un ensemble d'axiomes le plus petit possible. Moins il y d'axiomes à justifier, plus la théorie apparaît elle-même comme légitime.
Le plus vieil exemple de telle théorie est Les Élements d'Euclide, qui construit une large partie de la géométrie et de l'arithmétique à partir de seulement 10 axiomes.
2. Étendre la logique aux propositions incertaines
Nous avons vu rapidement les principes de la logique, qui permet de faire des raisonnements par déduction à partir d'un certain nombre d'hypothèses ou d'axiomes. C'est une forme de raisonnement que l'on nomme démonstratif, car il s'agit de faire des démonstrations. Le résultat d'une démonstration a une véracité absolue : si on accepte ses prémisses pour vraies, alors sa conclusion l'est également.
Néanmoins, les raisonnements que nous faisons au quotidien ne se réduisent pas aux démonstrations. Bien souvent nous devons tirer des conclusions à partir d'informations incomplètes, et ils nous est alors impossible de démontrer la véracité ou la fausseté de la proposition d'intérêt.
Regardons par exemple l'actualité : la proposition « Le dérèglement climatique est une conséquence de l'action humaine » est une proposition qui a globalement réuni le consensus scientifique autour d'elle. Pourtant, elle n'a pas été démontrée au sens de la logique formelle. Ce sont les nombreux indices recueillis par la recherche qui a grandement augmenté notre confiance en la véracité de cette proposition, et il nous semble alors rationnel de la considérer comme vraie.
Ce genre de raisonnement est donc une version plus floue et versatile de la démonstration. Ici on ne démontre plus la véracité d'une proposition à partir d'hypothèses et d'axiomes, mais on accepte avec plus ou moins de confiance une proposition à partir d'indices la soutenant ou allant à son encontre. Ce genre de raisonnement est nommé raisonnement par inférence.
C'est cette forme de raisonnement que Cox a voulu formaliser, et qui l'a mené à son théorème. Suivons-donc ses pas.
2.1. Désitératas du raisonnement rationnel
Pour concevoir une théorie du raisonnement par inférence, commençons d'abord par nous construire une image mentale claire de nos objectifs.
Tout d'abord, notre théorie va vouloir s'appuyer sur la même notion de proposition que la logique formelle. C'est une construction qui a fait ses preuve, et il ne semble pas nécessaire de la changer. Néanmoins, maintenant une proposition ne va plus être absolument vraie ou absolument fausse, mais au contraire on va vouloir, pour chaque proposition, indiquer notre degré de confiance dans sa véracité. Le moyen le plus simple de le faire serait de pouvoir associer à chaque proposition un nombre, qui serait d'autant plus grand qu'on a confiance. Nommons donc ce nombre la plausibilité d'une proposition.
Par ailleurs, il est évident que les conclusions que l'on va tirer sur la plausibilité d'une proposition dépendent de l'information que l'on a possède, de même qu'une démonstration logique n'est rien sans ses prémisses. Et il est normal que deux personnes ayant des informations différentes assignent des plausibilités différentes à une même proposition.
Ces considérations nous mènent au premier désitérata formulé par Cox :
Désitérata 1 : La plausibilité d'une proposition $A$ est un nombre réel, et dépend de l'information $I$ que l'on possède en lien avec cette proposition. On notera cette plausibilité $A | I$ (prononcé « plausibilité de $A$ sachant $I$ »).
Dans un second temps, nous voulons que cette représentation des plausibilités soit compatible avec le « sens commun », c'est à dire à nos raisonnements habituels (en tout cas quand ils sont justes !), et surtout avec la logique formelle. Si on a des propositions auxquelles l'information connue $I$ permet d'assigner des plausibilités absolues ($A$ est vraie ou fausse avec une certitude totale), alors on doit obtenir les mêmes conclusions que par application des règles de logique. C'est en ce sens que la théorie du raisonnement par inférence doit être une généralisation de la logique formelle : elle l'étend sans la contredire.
Ces considérations sont résumées par le 2e désitérata de Cox :
Désitérata 2 : L'évaluation des plausibilités doit être compatible avec les raisonnements communs et la logique formelle.
Nous voulons de plus que cette théorie soit objective : si deux personnes raisonnent à partir de la même information, elles doivent aboutir au même résultat, quelque soit leur manière subjective d'aborder le raisonnement (tant qu'elles utilisent effectivement la même information). Dans ce cadre, il faut donc que notre théorie soit cohérente :
Désitérata 3 : S'il est possible d'évaluer une plausibilité de plusieurs manières en partant de la même information, alors toutes ces manières doivent mener au même résultat.
En effet, sans cette propriété nous serions bien en mal de choisir quelle serait la bonne approche à choisir parmi les possibles !
Nous allons également vouloir que notre méthode utilise toujours toute l'information disponible : volontairement ignorer une partie de l'information à disposition ne serait alors pas un raisonnement rationnel, mais plutôt un raisonnement motivé, or nous voulons une théorie du raisonnement rationnel.
Désitérata 4 : L'évaluation d'une plausibilité doit toujours prendre en compte l'intégralité de l'information disponible.
Le dernier désitérata est une propriété de symétrie. Nous voulons des règles de raisonnement général, qui ne dépendent pas de ce à quoi elles s'appliquent. Cela veut dire que si dans une certaine situation, nous calculons une certaine valeur de plausibilité, alors dans une autre situation qui serait identique, mais avec des noms différents ou des propriétés symétriques (par exemple toutes les occurrences des mots « rouge » et « vert » seraient échangées), nous devons arriver aux mêmes conclusions.
Désitérata 5 : Deux états de connaissance équivalents doivent mener à des conclusions équivalentes.
2.2. Formalisation des désitératas et Théorème de Cox
Les désitératas présentés précédemment sont des règles générales, mais il nous faut maintenant nous plonger un peu plus précisément dans leurs implications, et notamment sur comment le plausibilités peuvent se combiner en raisonnements. Pour cela, nous allons essayer de trouver des équivalents sur les plausibilités des opérations ET et NON de la logique. Les autres opérations pourront découler de celles-là.
Commençons par le ET. Sachant notre information $I$, comment évaluer la plausibilité de $AB$ (ou « $A$ ET $B$ ») ?
Il est évident que pour que $AB$ soit plausible, il faut que $A$ et $B$ soient toutes-deux plausibles, mais ce n'est pas suffisant. Considérons par exemple les deux propositions suivantes : « Il neigeait à Paris le 17 février 1978 » et « Il faisait grand soleil à Paris le 17 février 1978 ». Je ne connais pas le bulletin météo de Paris pour février 1978, et ces deux propositions m'apparaissent individuellement plutôt plausibles en effet. Par contre, il m'apparaît beaucoup moins plausible qu'elles soient deux deux vraies en même temps : si j'apprends qu'il a neigé ce jour là, alors il me semblera très peu plausible qu'il ai également fait grand soleil, et réciproquement.
De manière plus formelle, si en plus de mon information de base $I$, j'apprends que $A$ est vraie, alors la plausibilité de $B$ est $B | AI$ : j'ajoute $A$ à mon information connue. Dans cette veine, pour estimer la plausibilité $AB | I$, je peux d'abord estimer la plausibilité de $A$ indépendamment de $B$, $A|I$, et ensuite estimer la plausibilité que $B$ aurait si $A$ était vraie. La plausibilité $AB | I$ doit donc pouvoir se calculer à partir des plausibilités $A|I$ et $B|AI$. Mais $A$ et $B$ sont interchangeables dans ce raisonnement : $AB$ et $BA$ sont la même proposition. On peut donc de même estimer $AB|I$ à partir de $B|I$ et $A|BI$.
De là, on conclut qu'il doit exister une certaine fonction, nommons la $g$, telle que :
$$ AB|I = g(B|AI, A|I) = g(A|BI, B|I) $$
Pouvons-nous spécifier plus précisément à quoi $g$ doit ressembler ? Si j'obtiens une nouvelle information, $I'$, qui rend $A$ plus plausible qu'avec seulement $I$, c'est à dire telle que $A|I' > A|I$, mais qui ne change pas la plausibilité de $B$, alors il faut nécessairement que la plausibilité de $AB$ augmente également. On peut donc en déduire que $g$ doit être une fonction strictement croissante de ses deux arguments (puisque $A$ et $B$ sont symétriques dans ce raisonnement).
Pour aller plus loin, nous pouvons reprendre notre 3e désitérata et le pousser un cran de plus. Introduisons une troisième proposition $C$, et regardons la plausibilité $ABC|I$. On peut la décomposer en utilisant $g$ ainsi :
$$ ABC|I = g(AB|CI, C|I) = g(g(A|BCI, B|CI), C|I) $$
Mais on peut également faire la décomposition suivante :
$$ ABC|I = g(A|BCI, BC|I) = g(A|BCI, g(B|CI, C|I)) $$
Notre désitérata impose que ces deux calculs doivent aboutir au même résultat, notre fonction $g$ doit donc vérifier l'équation suivante :
$$ g(x, g(y, z)) = g(g(x, y), z) \tag{1}$$
La résolution de cette équation est assez calculatoire et longue, si vous voulez la voir, cliquez sur le bouton suivant, sinon passez directement à la suite.
Résolution de l'équation $g(x, g(y, z)) = g(g(x, y), z)$
Cette équation est assez connue en mathématique, car elle caractérise le fait que $g$ est une fonction associative. Pour nous y attaquer, nous allons faire l'hypothèse que $g$ est dérivable autant de fois que nécessaire. On peut résoudre l'équation sans faire cette hypothèse, mais c'est beaucoup plus complexe, sans pour autant changer le résultat.
Je vais noter $\partial_1 g$ et $\partial_2 g$ les dérivées de $g$ par rapport à sa première et deuxième variable respectivement. Notez que comme $g$ est croissante par rapport à ses deux variables, ces deux dérivées sont positives.
Si on commence par dériver l'équation $(1)$ par rapport à $x$, puis par rapport à $y$, on obtient les deux nouvelles équations suivantes :
$$ \partial_1 g(x, g(y, z)) = \partial_1 g(x, y) \partial_1 g(g(x, y), z) \tag{2} $$
$$ \partial_1 g(y, z) \partial_2 g(x, g(y, z)) = \partial_2 g(x, y) \partial_1 g(g(x, y), z) \tag{3} $$
Marquer l'égalité du terme $\partial_1 g(g(x, y), z)$ dans ces deux équations nous donne donc :
$$ \frac{\partial_1 g(x, g(y, z))}{\partial_1 g(x, y)} = \frac{\partial_1 g(y, z) \partial_2 g(x, g(y, z))}{\partial_2 g(x, y)} $$
Que l'on peut réorganiser en :
$$ \frac{\partial_2 g(x, y)}{\partial_1 g(x, y)} = \partial_1 g(y, z) \frac{\partial_2 g(x, g(y, z))}{\partial_1 g(x, g(y, z))} \tag{4} $$
Ici introduisons une fonction auxiliaire $h(u, v) = \frac{\partial_2 g(u, v)}{\partial_1 g(u, v)}$. Notons que cette fonction est toujours positive. L'équation $(4)$ peut donc se reformuler ainsi :
$$ h(x, y) = \partial_1 g(y, z) h(x, g(y, z)) \tag{5} $$
en multipliant par $h(y, z) = \frac{\partial_2 g(y, z)}{\partial_1 g(y, z)}$ de chaque côté, on a également :
$$ h(x, y)h(y, z) = \partial_2 g(y, z) h(x, g(y, z)) \tag{6} $$
Si on dérive $(5)$ par rapport à $z$ on obtient :
$$0 = \partial_{12} g(y, z) h(x, g(y, z)) + \partial_1 g(y, z) \partial_2 g(y, z) \partial_2 h(x, g(y, z)) \tag{7} $$
Si on dérive $(6)$ par rapport à $y$ on obtient :
$$ \frac{\partial}{\partial y} \left[ h(x, y)h(y, z) \right] = \partial_{21} g(y, z) h(x, g(y, z)) + \partial_1 g(y, z) \partial_2 g(y, z) \partial_2 h(x, g(y, z)) \tag{8} $$
Or, le Théorème de Schwarz nous garantit que $\partial_{12}g(y, z) = \partial_{21} g(y, z)$, en conséquence on peut combiner $(7)$ et $(8)$ pour obtenir :
$$\frac{\partial}{\partial y} \left[ h(x, y)h(y, z) \right] = 0 \tag{9} $$
En développant, on a :
$$ \partial_2 h(x, y) h(y, z) + h(x, y) \partial_1 h(y, z) = 0$$
Qui se reformule en :
$$ \frac{\partial_2 h(x, y)}{h(x, y)} + \frac{\partial_1 h(y, z)}{h(y, z)} = 0\tag{10} $$
Le premier terme de $$(10)$$ est égal à un terme qui ne dépend pas de $x$, en conséquence il doit exister une fonction $k$ telle que :
$$ \frac{\partial_2 h(x, y)}{h(x, y)} = k(y) \tag{11} $$
En intégrant par rapport à $y$, on obtient (avec $K$ une primitive de $k$ et $L$ une autre fonction) :
$$ \log h(x, y) = K(y) + L(x) \tag{12} $$
Que l'on peut également écrire en disant qu'il doit exister deux fonctions $\alpha(\cdot)$ et $\beta(\cdot)$ telles que :
$$ h(x, y) = \alpha(x)\beta(y) \tag{13} $$
En revenant sur $(9)$, on sait que $h(x,y)h(y,z)$ doit être indépendant de $y$, or
$$ h(x, y)h(y,z) = \alpha(x)\beta(y)\alpha(y)\beta(z) $$
Si cette fonction ne dépend pas de $y$, alors il doit exister une constante $r$ telle que $\alpha(y)\beta(y) = r$. En conséquence, $h$ doit pouvoir s'exprimer sous cette forme :
$$ h(x, y) = r \frac{\alpha(x)}{\alpha(y)} \tag{14} $$
$h$ devant être une fonction positive, on doit avoir que $\alpha$ est une fonction qui ne change pas de signe et $r > 0$.
En réinjectant dans $(5)$ et $(7)$ on obtient donc les égalités suivantes:
$$ \partial_1 g(y, z) = \frac{\alpha(g(y, z))}{\alpha(y)} \tag{15} $$
$$ \partial_2 g(y, z) = r \frac{\alpha(g(y, z))}{\alpha(z)} \tag{16} $$
Soit $A(\cdot)$ une primitive de $\frac{1}{\alpha(\cdot)}$. On a donc :
$$\frac{\partial}{\partial y} \left[ A(g(y, z)) \right] = \frac{\partial_1 g(y,z)}{\alpha(g(y,z))} = \frac{1}{\alpha(y)} = A'(y) \tag{17} $$
$$\frac{\partial}{\partial z} \left[ A(g(y, z)) \right] = \frac{\partial_2 g(y,z)}{\alpha(g(y,z))} = \frac{r}{\alpha(z)} = r A'(z) \tag{18} $$
En intégrant les deux équations précédentes, on en déduit que :
$$ A(g(y, z)) = A(y) + r A(z) + C \tag{19} $$
où $C$ est une constante d'intégration arbitraire. $\alpha$ étant de signe constant, $A$ est donc une fonction strictement monotone, soit strictement croissante, soit strictement décroissante.
En posant $w(u) = e^{A(u)}$ et $K = e^C$ on a donc :
$$ w(g(y, z)) = K w(y) w(z)^r \tag{20} $$
De même, $w$ est une fonction strictement monotone.
Réinjecter ceci dans l'équation initiale $(1)$ nous donne donc :
$$ K w(x) w(g(y,z))^r = K w(g(x,y)) w(z)^r $$
Puis
$$ K w(x) K^r w(y)^r w(z)^{r^2} = K^2 w(x) w(y)^r w(z)^r \tag{21} $$
Qui se simplifie en
$$ \left( K w(z)^r \right)^r = K w(z)^r \tag{22} $$
Si $r \neq 1$, cette équation n'a que des solutions triviales $K w(z) = 1$ ou $K w(z) = 0$ qui ne nous intéressent pas vraiment. Nous devons donc avoir $r=1$. On en déduit que :
$$ w(g(y,z)) = Kw(y)w(z) \tag{23} $$
En multipliant par $K$ de chaque côté on a :
$$ Kw(g(y, z)) = Kw(y) Kw(z) $$
Par conséquent, la constante $K$ peut être rentrée dans la fonction $w$ :
$$ w(g(y, z)) = w(y) w(z) \tag{24} $$
On obtient donc qu'il doit exister une fonction strictement monotone et donc inversible $w$ telle que $g(x, y) = w^{-1}(w(x)w(y))$. Ou reformulé en terme de plausibilités :
$$ \boxed{ w(AB|I) = w(A|BI) w(B|I)} \tag{25} $$
Supposons que $A$ soit une proposition démontrable sachant $I$. $A|I$ représente donc une certitude. Si $B$ est une proposition qui n'est pas en contradiction avec $I$, alors $A | BI$ doit également être une certitude, et a donc la même plausibilité que $A | I$. De plus $AB$ est alors vraie si et seulement si $B$ est vraie, donc par cohérence, $AB | I$ doit avoir la même plausibilité que $B | I$.
Combiné avec $(25)$ cela implique, quelque soit $B$ :
$$ w(B|I) = w(A|I) w(B|I) $$
C'est à dire que si $A|I$ est une certitude, alors $w(A|I) = 1$.
Supposons maintenant à l'inverse que $A|I$ est une contradiction. Alors dans ce cas $AB|I$ est tout autant une contradiction, et doit donc avoir la même plausibilité. Ajouter à $I$ l'information $B$ ne changerait rien au fait que $A$ contredise $I$, donc $A|BI$ est également une contradiction, et a donc encore la même plausibilité.
Recombiné avec $(25)$ on a donc, quelque soit $B$ :
$$ w(A|I) = w(A|I) w(B|I) $$
$w(A|I)$ est donc une valeur absorbante, qui ne change pas quand on la multiplie par quoique ce soit. Seules trois valeurs peuvent avoir cette propriété : $0$, $+\infty$ et $-\infty$. $-\infty$ n'est pas envisageable, car $w$ étant continue et prenant la valeur $1$, ça la ferait passer par $0$ qui serait donc la valeur absorbante.
En conséquence, $w$ est une fonction monotone à valeurs soit dans $[0;1]$, soit dans $[1;+\infty]$. Quitte à considérer $\frac{1}{w(\cdot)}$ ces deux cas sont équivalents. On peut donc choisir $[0;1]$.
Donc $w$ est une fonction monotone à valeurs dans $[0;1]$ telle que la valeur $1$ marque la certitude et la valeur $0$ marque l'impossibilité.
Pour aller plus loin, nous allons devoir essayer de formaliser le NON également.
Il est nécessaire que les plausibilités de $A$ et $\bar{A}$ soient liées, en effet, la logique nous impose que $A\bar{A}$ est toujours faux et que $A + \bar{A}$ est toujours vrai (parmi $A$ et $\bar{A}$, exactement une seule des deux propositions est vraie).
Il doit donc exister une certaine fonction permettant de calculer $\bar{A}|I$ à partir de $A|I$, ou, de manière équivalente, $w(\bar{A}|I)$ à partir de $w(A|I)$, nommons la $N$, pour « négation » :
$$ w(\bar{A}|I) = N(w(A|I)) \tag{26} $$
Encore une fois, les calculs sont assez longs, si vous voulez les voir cliquez sur ce bouton :
Résolution de l'équation $w(\bar{A}|I) = N(w(A|I))$
Tout d'abord, on observe qu'en appliquant la négation deux fois, on a :
$$ w(A|I) = N(w(\bar{A}|I)) = N(N(w(A|I))) $$
Par conséquent, $N$ doit vérifier l'équation suivante :
$$ N(N(x)) = x \tag{27} $$
On dit dans ce cas que $N$ est une involution, car elle est sa propre fonction réciproque.
Considérons maintenant les propositions $AB$ et $A\bar{B}$. D'après $(25)$ on a :
$$ w(AB|I) = w(B|AI)w(A|I) \tag{28} $$
$$ w(A\bar{B}|I) = w(\bar{B}|AI)w(A|I) \tag{29} $$
D'où on déduit :
$$ w(AB|I) = w(A|I) N(w(\bar{B}|AI)) = w(A|I) N\left(\frac{w(A\bar{B}|I)}{w(A|I)}\right) \tag{30} $$
Or $AB$ et $BA$ sont la même proposition, $A$ et $B$ sont interchangeables dans $(30)$ et $w(AB|I) = w(BA|I)$. On peut donc en déduire :
$$ w(A|I) N\left(\frac{w(A\bar{B}|I)}{w(A|I)}\right) = w(B|I) N\left(\frac{w(B\bar{A}|I)}{w(B|I)}\right) \tag{31} $$
Cette équation doit toujours être vraie, elle doit donc l'être en particulier si on choisit la forme suivante pour $B$ : $\bar{B} = AD$ où $D$ est une autre proposition quelconque.
Dans ce cas, $(25)$ nous permet de dire que $w(\bar{B}|I) = w(D|AI)w(A|I)$, et donc en particulier que $N(w(B|I)) = w(\bar{B}|I) \leq w(A|I)$.
Par ailleurs, on a alors $A\bar{B} = AAD = AD = \bar{B}$, par conséquent $w(A\bar{B}|I) = w(\bar{B}|I)$. Et si on s'intéresse de même à $B\bar{A}$ on peut voir que si $A$ est vraie, alors $B\bar{A}$ est fausse, et si $A$ est fausse, alors $\bar{B}=AD$ est fausse, donc $B$ est vraie et donc $B\bar{A}$ est vraie. Par conséquent $B\bar{A} = \bar{A}$ et donc $w(B\bar{A}|I) = w(\bar{A}|I)$.
Dans ce cas, l'équation $(31)$ prend alors la forme suivante :
$$ w(A|I) N \left( \frac{N(w(B|I))}{w(A|I)} \right) = w(B|I) N \left( \frac{N(w(A|I))}{w(B|I)} \right)$$
Si on pose $x = w(A|I)$ et $y = w(B|I)$, on a donc, avec la contrainte $N(y) \leq x$ (et par symétrie $N(x) \leq y$) :
$$ x N \left( \frac{N(y)}{x} \right) = y N \left( \frac{N(x)}{y} \right) \tag{32} $$
Cette équation est fastidieuse à résoudre, notamment on ne peut pas simplement la dériver et considérer des valeurs particulières comme $x=1$, car $0$ et $1$ étant au bord de l'intervalle de définition de $N$, sa dérivée pourrait être infinie en ces points. Nous allons devoir faire preuve de plus d'astuce.
Partant de la contrainte $N(x) \leq y$, nous allons nous intéresser au comportement de l'équation lorsque $y$ se rapproche de $N(x)$ (par valeurs supérieures donc). Introduisons une variable auxiliaire $q$ et reparamétrons $y$ en fonction de $x$ et $q$ :
$$ y = \frac{N(x)}{1-e^{-q}} \tag{33} $$
de sorte que l'on ai :
$$ \frac{N(x)}{y} = 1 - e^{-q} \leq 1 \tag{34} $$
Partant de là, on peut exprimer $N(y)$ :
$$ N(y) = N \left( \frac{N(x)}{1-e^{-q}} \right) = N\left(N(x) + N(x) e^{-q} + O(e^{-2q}) \right) $$
Soit :
$$ N(y) = N(N(x)) + N(x) N'(N(x)) e^{-q} + O(e^{-2q}) \tag{35} $$
Or d'après $(27)$, $N(N(x)) = x$, et en dérivant $N'(x) N'(N(x)) = 1$, on peut donc reformuler $(35)$ en :
$$ N(y) = x + \frac{N(x)}{N'(x)} e^{-q} + O(e^{-2q}) \tag{36} $$
Réinjectant dans $(32)$, on a donc :
$$ x N \left( 1 + \frac{N(x)}{x N'(x)} e^{-q} + O(e^{-2q}) \right) = y N \left(1 - e^{-q} \right) \tag{38} $$
On va alors étudier le développement de $N(1 - \delta)$ quand $\delta$ tend vers 0. Pour se faire on va considérer des $\delta$ de la forme $e^{-\omega}$ et on va définir la fonction $J$ ainsi :
$$ J(\omega) = -\log N(1 - e^{-\omega}) \tag{39} $$
De sorte que l'on ait :
$$ N(1 - e^{-\omega}) = e^{-J(\omega)} \tag{40} $$
On peut donc injecter $J$ dans $(38)$. Définissions $\alpha(x) = \log\frac{-x N'(x)}{N(x)}$, on a alors
$$ N \left( 1 + \frac{N(x)}{x N'(x)} e^{-q} + O(e^{-2q}) \right) = N \left( 1 - \exp( -q -\alpha(x) + \log(1 + O(e^{-q}))) \right) $$
Ou encore :
$$ N \left( 1 + \frac{N(x)}{x N'(x)} e^{-q} + O(e^{-2q}) \right) = \exp \left(-J\left(\alpha(x) + q + O(e^{-q}) \right)\right) \tag{41} $$
Injecter dans $(38)$ donne donc :
$$ x \exp \left(-J\left(\alpha(x) + q + O(e^{-q}) \right)\right) = \frac{N(x)}{1 - e^{-q}} \exp \left( -J(q) \right) $$
Ou bien, en prenant le logarithme :
$$ J\left(\alpha(x) + q + O(e^{-q}) \right) - J(q) = \log \frac{x}{N(x)} + \log(1 - e^{-q}) \tag{42} $$
Asymptotiquement, lorsque $q \rightarrow +\infty$, on a donc :
$$ J\left(\alpha(x) + q\right) - J(q) \approx \log \frac{x}{N(x)} \tag{43} $$
Ce qui n'est possible que si $J$ est asymptotiquement affine en $q$, c'est à dire que $J$ peut s'écrire $J(q) = a + b q + \epsilon(q)$ avec $\epsilon(q) \rightarrow 0$ lorsque $q \rightarrow +\infty$. $J$ ayant été définie indépendamment de $x$, $a$ et $b$ sont bien des constantes, indépendantes de $x$.
On doit donc avoir :
$$ b(\alpha(x) + q) - bq = \log \frac{x}{N(x)} $$
Se souvenant de la définition de $\alpha$, on a donc :
$$ b \log \frac{-x N'(x)}{N(x)} = \log \frac{x}{N(x)} \tag{44} $$
En posant $m = \frac{1}{b}$ et en prenant l'exponentielle, on obtient :
$$ \frac{- N'(x)}{N(x)} = \left(\frac{x}{N(x)}\right)^m $$
Qui se reformule en :
$$ N'(x)N(x)^{m-1} + x^{m-1} = 0 \tag{45} $$
Ceci s'intègre en $N(x)^m + x^m = k$, et sachant la contrainte $N(0) =1$ on a donc forcément $k=1$, et finalement :
$$N(x)^m = 1 - x^m \tag{46} $$
Les désitératas nous imposent donc que $N$ ait la forme suivante (où $m > 0$) :
$$ N(x) = (1-x^m)^{\frac{1}{m}} $$
En résumé et en réorganisant, le Théorème de Cox est le suivant :
Pour tout système de plausibilité remplissant les désitératas précédent, il existe une fonction $w$ inversible strictement croissante et un nombre $m > 0$ tels que :
- Si $A|I$ est absolument certaine d'être vraie, alors $w(A|I) = 1$
- Si $A|I$ est absolument certaine d'être fausse, alors $w(A|I) = 0$
- $w(AB|I) = w(A|BI)w(B|I)$
- $w(A|I)^m + w(\bar{A}|I)^m = 1$
Comme $w$ est inversible, il est équivalent de travailler avec $w(A|I)$ ou $A|I$. Partant de là, on peut tout simplement définir la fonction plausibilité $p$ comme étant $p(x) = w(x)^m$, et on obtient alors les règles de raisonnement suivantes :
- La démonstration de $A$ à partir de $I$ (ou certitude absolue) donne $p(A|I) = 1$
- La contradiction de $A$ avec l'information $I$ donne $p(A|I) = 0$
- La règle du produit : $p(AB|I) = p(A|BI)p(B|I)$
- La règle de la négation : $p(\bar{A}|I) = 1 - p(A|I)$
À la manière du Modus Ponens pour la logique, ces règles servent de brique fondamentale à la théorie du raisonnement rationnel proposée par Cox.
3. Le Bayésianisme comme pensée rationnelle ?
Comme $AB$ et $BA$ sont la même proposition, la règle du produit décrite plus haut implique notamment que $p(A|BI)p(B|I) = p(B|AI)p(A|I)$, que l'on peut réécrire sous la forme suivante :
$$ p(A|BI) = \frac{p(B|AI)}{p(B|I)}p(A|I) \tag{47} $$
On reconnaît bien ici le fameux théorème de Bayes, ici porté au niveau d'une règle d'inférence : la plausibilité de $A$ sachant que $B$ est vraie se calcule à partir de la plausibilité de $A$ indépendamment de $B$, de la plausibilité qu'aurait $B$ si $A$ était vraie, et de la plausibilité de $B$ indépendamment de $A$. C'est sur cette base que l'on peut dire que la théorie de l'inférence de Cox est fondamentalement une théorie Bayésienne. Car en effet, les plausibilités de cette théorie sont mathématiquement identiques aux probabilités que nous connaissons bien, et que j'ai précédemment décrit dans cet article.
3.1. Et le reste des opérateurs logiques ?
Si on veut que cette théorie de la pensée rationnelle soit effectivement une généralisation de la logique formelle, il est important de voir ce qu'elle donne sur les autre opérateurs logiques que l'on a listé plus haut : le OU et le SI … ALORS.
Commençons par le OU : on a vu que $A + B$ était équivalent à « NON $(\bar{A}\bar{B})$ ». Si on applique nos règles de raisonnement, on en déduit donc :
$$p(A+B|I) = 1 - p(\bar{A}\bar{B}|I) \tag{48}$$
La plausibilité de « $A$ OU $B$ » est donc le complémentaire de la plausibilité que $A$ et $B$ soient toutes les deux fausses. Rien de très surprenant, on pouvait s'y attendre. Cela peut nous rassurer sur le fait que notre théorie de se contredit pas et coïncide bien avec le sens commun.
On peut pousser le calcul plus loin cependant:
\begin{equation} \begin{aligned} p(A+B|I) &= 1 - p(\bar{B}|\bar{A}I)p(\bar{A}|I) \ &= 1 - (1 - p(B|\bar{A}I))p(\bar{A}|I) \ &= 1 - p(\bar{A}|I) + p(B\bar{A}|I) \ &= p(A|I) + p(\bar{A}|BI)p(B|I) \ p(A+B|I) &= p(A|I) + (1 - p(A|BI))p(B|I) \end{aligned} \end{equation}
Et finalement :
$$p(A+B|I) = p(A|I) + p(B|I) - p(AB|I) \tag{49}$$
On retrouve la formule classique des probabilités d'une union. En particulier, si $A$ et $B$ sont incompatibles, $p(AB|I) = 0$ et la probabilité de $A+B$ est alors la somme des probabilités de $A$ et $B$.
Le SI … ALORS maintenant. On a noté que $A \rightarrow B$ était équivalent à « NON ($A$ ET $\bar{B}$) », ce qui nous amène donc à :
$$p(A \rightarrow B | I) = 1 - p(A\bar{B} | I) \tag{50}$$
Face à quoi on peut faire un simple hochement de tête dubitatif, parce que ça n'est pas beaucoup plus parlant.
Mais le SI … ALORS joue un autre rôle très important dans la logique, à travers le Modus Ponens. Est-ce que, comme je l'ai affirmé plus tôt, nos règles d'inférence sont bien une généralisation du Modus Ponens ? Il convient de le vérifier !
Pour nous mettre dans le cas du Modus Ponens, on va supposer que notre information initiale contient notamment la proposition $A \rightarrow B$. On va donc chercher à évaluer $p(B|A, A\rightarrow B)$, et s'assurer que notre résultat est bien compatible avec ce qu'affirmerait la logique, à savoir que $B$ est absolument vraie si on suppose que $A$ et $A \rightarrow B$ le sont.
Voyons, avec une probabilité conditionnelle comme celle-là, il est naturel de vouloir appliquer dessus le théorème de Bayes (ici on utilise $I = A$) :
$$p(B|A, A\rightarrow B) = \frac{p(A\rightarrow B|A, B)}{p(A\rightarrow B|A)}p(B|A) \tag{50}$$
Or, $p(A \rightarrow B | AB) = 1 - p(A\bar{B} | AB) = 1 - p(A|AB\bar{B})p(\bar{B}|AB)$. Mais $p(\bar{B}|B) = 0$ car $\bar{B}|B$ est une contradiction ! Par conséquent $p(A \rightarrow B | AB) = 1$.
De même, $p(A \rightarrow B | A) = 1 - p(A\bar{B} | A) = 1 - p(\bar{B}|A)p(A|A)$. Mais $p(A|A) = 1$, puisque $A|A$ est une tautologie. Par conséquent, $p(A \rightarrow B | A) = 1 - p(\bar{B} | A) = p(B|A)$.
On en déduit donc :
$$p(B|A, A\rightarrow B) = \frac{1}{p(B|A)}p(B|A) = 1 \tag{52}$$
C'est à dire que $B$ est absolument certaine sachant $A$ et $A \rightarrow B$. Le Modus Ponens est donc bien un cas particulier des règles d'inférence de Cox !
3.2. Un clou dans le cercueil du Fréquentisme ?
Avec ce résultat, Cox propose un ensemble assez restreint de règles qui viennent généraliser la logique aux raisonnements d'inférence sur non plus sur la véracité de propositions, mais sur leurs plausibilités. On peut constater que ces règles collent très naturellement au formalisme mathématique des probabilités, et elles viennent en appuyer l'interprétation Bayésienne.
Néanmoins, comme le souligne Edwin Thompson Jaynes dans son livre « Probability Theory: the Logic of Science » (qui m'a beaucoup inspiré pour ce billet et dont je recommande la lecture si vous voulez creuser plus en avant la question de la théorie des plausibilités comme extension de la logique), il convient de bien différentier d'une part les plausibilités de propositions et d'autre part les fréquences d'apparition de résultats aléatoires. En effet, bien que les formalismes mathématiques associés à ces deux notions soient les mêmes (les probabilités), ce sont en vérité deux notions très différentes, et c'est certainement l'incapacité à les différencier qui est à la source du conflit idéologique entre Fréquentistes et Bayésiens.
D'une certaine manière, on peut dire que les probabilités Fréquentistes sont une modélisation des phénomènes aléatoires, là où les probabilités Bayésiennes sont une théorie du raisonnement rationnel, extension de la logique formelle. Ces deux approches sont donc à mon sens complémentaires, et non opposées.