Les 3 constructions des probabilités
Les probabilités peuvent être propices à la confusion, notamment car elles semblent selon comment on les utilise représenter des très choses différentes. Entre l'étude des mécanismes aléatoires dans la conception fréquentiste, la représentation de l'incertitude dans la conception bayésienne, et les axiomes formels de Kolmogorov, on peine à saisir le lien sous-jacent. Mais cependant ces différentes formulations sont en réalité des facettes différentes d'un même concept. Je vous propose dans ce billet d'étudier ces liens afin de comprendre comment on peut passer de l'une à l'autre.
Résumé des épisodes précédents
Commençons tout d'abord par rappeler quelles sont ces trois constructions précédemment évoquées, afin de les avoir clairement en tête pour les relier entre elles.
Représentation des mécanismes aléatoires
Dans cette représentation, on s'intéresse à la notion d'expérience aléatoire : il s'agit d'une expérience que l'on peut répéter autant de fois que l'on le désire (quitte à ce que ça soit en pensée), mais dont le résultat n'est pas toujours le même. Les exemples les plus communs sont le lancer d'un dé, ou tirer à pile ou face. On s'intéresse alors aux différents résultats possibles de l'expérience, ainsi qu'à leurs fréquences d'apparition quand on répète l'expérience un grand nombre de fois.
On construit alors la notion d'évènement, un aspect du résultat de l'expérience qui peut (ou non) avoir lieu. Dans le cas d'un lancer de dé, des exemples d'évènements possibles sont alors « Le résultat est 4 » ou bien « Le résultat est un nombre pair ». Les probabilités sont alors construites sur la base de ces évènements. Si $E$ désigne un évènement quelconque, alors on calcule sa probabilité en répétant l'expérience aléatoire un grand nombre de fois :
$$ p(E) \approx \frac{\text{Nombre de fois où $E$ a eu lieu}}{\text{Nombre de fois où on a fait l'expérience}} $$
Formellement, on définit la probabilité comme étant la valeur limite vers laquelle ce ratio tend quand le nombre de fois où l'expérience effectuée tend vers l'infini.
Cette formulation des probabilités nous permet donc d'étudier le comportement de systèmes aléatoires de manière statistique, quand on agrège un grand nombre de résultats. Cela permet de mettre en évidence, comprendre, et exploiter les éventuelles régularités et corrélations présentes dans ce hasard. Elle assimile les probabilités à des fréquences d'apparition d'évènements, d'où son nom : c'est la formulation fréquentiste des probabilités.
Représentation des degrés de croyance
Dans la formulation bayésienne tirée du théorème de Cox (dont j'ai précédemment parlé dans ce billet), les probabilités sont ici vues comme une extension aux raisonnement logique formel. Là où les démonstrations mathématiques permettent de transférer la degré de vérité des hypothèses aux conclusions de manière certaine, le raisonnement probabiliste étend cette capacité au situations incertaines.
La véracité d'une proposition logique $A$ n'est pas pas connue de manière définitive, et la probabilité qu'on lui associe, $p(A | I)$ représente le degré de croyance que l'on a dans sa véracité, sachant l'information $I$ dont on dispose déjà.
Dans ce contexte, le calcul probabiliste est défini un ensemble de règles :
- Deux propositions logiquement équivalentes ont la même probabilité
- $p(Vrai | I) = 1$ et $p(Faux | I) = 0$
- Pour toutes propositions $A$ et $B$: $p(A ; ET ; B | I) = p(A | B, I) p(B | I)$
- Pour toute proposition $A$: $p(A | I) + p(NON ; A | I) = 1$
Cet ensemble de règles a pour fondement d'assurer la cohérence logique du raisonnement probabiliste, c'est ce que démontre le Théorème de Cox. En résumé : une quantification de croyances logiques n'est globalement cohérente que si elle respecte les règles des probabilités.
Kolmogorov et les mesures
Nous arrivons à la 3e construction des probabilités, la plus formelle et abstraite, mais également celle sur laquelle s'appuie une grande partie de l'édifice mathématique qu'est la théorie des probabilités : les probabilités comme mesure.
Mathématiquement parlant, une mesure est un objet mathématique qui donne une "taille" à des ensembles. La plus connue est sans doute la mesure de Lebesgue : c'est celle que l'on utilise pour mesure la longueur d'un segment, la surface d'un carré ou le volume d'un cube. C'est une mesure intuitive : la mesure de l'intervalle $[a; b]$ est simplement $|b-a|$, et l'ensemble des nombres réels $\mathbb{R}$ a donc une mesure de $+\infty$.
Mais on peut définir des mesures très différentes, on peut donner la mesure que l'on veut aux ensembles avec lesquels on travaille, sous réserve de respecter deux règles. La première dit que l'ensemble vide $\emptyset$ doit toujours avoir une mesure de $0$. La seconde est liée aux ensembles disjoints. On dit que deux ensembles sont disjoints si il n'existe aucun élément qui est dans les deux ensembles à la fois. Par exemple, les intervalles $[0;1]$ et $[2;3]$ sont disjoints, mais au contraire $[0;2]$ et $[1;3]$ ne le sont pas (ils contiennent tous deux la valeur $1.4$ par exemple). Si deux ensembles sont disjoints, alors la mesure de leur réunion doit être la somme de leurs mesures respectives1. Il s'agit en fait d'une propriété assez intuitive : si par exemple je dessine deux carrés sur une feuille blanche, et que ces carrés ne se croisent pas, alors l'aire totale couverte par eux sera la somme des aires respectives couvertes par chaque carré. Ce n'est bien sûr plus vrai si les deux carrés se croisent, ou si l'un est à l'intérieur de l'autre.
Pour revenir aux probabilités, la formulation de Kolmogorov dit alors simplement qu'une probabilité est définie par un mesure de somme 1. C'est à dire que la mesure de l'ensemble global, qui contient tous les éléments, doit être égale à 1.
Pourquoi une mesure ?
La troisième définition évoquée est très abstraite, mais également très formelle. C'est ce deuxième aspect qui lui donne une force mathématique : elle ne contient aucune ambiguïté, et ne laisse aucune place à l'interprétation. Il s'agit donc d'un socle solide sur lequel construire un théorie mathématique. La question restante est : pourquoi ? Qu'est-ce qui permet de justifier que « une mesure de somme 1 » est une bonne manière de définir les probabilités ? C'est ce que nous allons voir dans cette section : cette construction se justifie tout aussi bien par la formulation fréquentiste que la formulation bayésienne des probabilités.
Du fréquentisme à la mesure
Partons de la formulation fréquentiste des probabilités, comme fréquence d'occurrence d'évènements. Notre objectif est donc de dévoiler la mesure qui se cache non loin.
Pour ce faire, on va introduire une notion un peu artificielle d'évènement élémentaire. Un évènement élémentaire est une représentation exhaustive du résultat d'une expérience aléatoire : il en contient tous les détails qui peuvent être pertinents. Dans le cas du lancé d'un dé à 6 faces, les évènements élémentaires sont donc naturellement les 6 résultats possibles du lancer de dé : ${1, 2, 3, 4, 5, 6}$. Si on lançait une paire de dés, ça serait l'ensemble de toutes les 36 paires de résultats (comme $(3, 5)$ ou $(6, 2)$ par exemple). On définit alors l'ensemble de tous les évènements élémentaires possibles $\Omega$, que l'on nomme traditionnellement l'univers de l'expérience aléatoire.
Une fois ceci fait, on peut remarquer qu'un évènement $E$ est simplement l'ensemble des évènements élémentaires $\omega$ qui vérifient la condition qui définit $E$. Par exemple, pour le dé à 6 faces, l'évènement « Le résultat est un nombre pair » correspond à l'ensemble ${2, 4, 6}$.
Une fois tout reformulé en termes d'ensembles, la mesure apparaît alors naturellement : la mesure d'un sous-ensemble $S \subset \Omega$ est la probabilité de l'évènement qu'il définit :
$$ p(S) = \lim_{\infty} \frac{\text{Nombre de fois où } \omega \in S}{\text{Nombre d'expériences}} $$
On peut vérifier que cette définition correspond bien à une mesure de somme 1.
- On a bien $p(\emptyset) = 0$, puisque qu'on a jamais $\omega \in \emptyset$.
- Deux ensembles disjoints correspondent à des évènements incompatibles : on ne peut pas avoir à la fois $\omega \in S_1$ et $\omega \in S_2$ (sinon les ensembles ne seraient pas disjoints). En conséquence, le nombre de fois où le résultat de l'expérience est dans $S_1 \cup S_2$ est alors bien la somme du nombre de fois où il est dans $S_1$ et du nombre de fois où il est dans $S_2$. D'où $p(S_1 \cup S_2) = p(S_1) + p(S_2)$.
- Et finalement, l'ensemble total $\Omega$ correspond à un évènement qui arrive à chaque fois, par définition. Donc on a bien $p(\Omega) = 1$
L'introduction de la notion d'évènement élémentaire permet donc de faire le lien entre la formulation fréquentiste des probabilités et la formulation de Kolmogorov, justifiant donc son choix.
Du bayésianisme à la mesure
De même, on peut faire apparaître une mesure en partant de la formulation bayésienne des probabilités, montrant pourquoi elle aboutit au même formalisme mathématique que la fréquentiste.
Nous avons donc maintenant une probabilité qui s'applique à des propositions logiques, et reflétant un degré de croyance dans leur véracité. Encore une fois, on peut introduire des ensembles pour faire apparaître une mesure. On considère une certaine variable $x$ dont on sait qu'elle appartient forcément à l'ensemble $\mathcal{X}$, mais dont on ignore la valeur précise. Maintenant si on prend un sous-ensemble $S \subset \mathcal{X}$, on peut alors considérer la proposition logique « $x \in S$ », et calculer le degré de croyance bayésien en sa véracité $p(x \in S)$.
Ceci définit encore une fois une mesure :
- On a bien sûr $p(x \in \emptyset) = 0$, puisque « $x \in \emptyset$ » est une contradiction logique
- Si on a deux ensembles $S_1$ et $S_2$, on peut décomposer la proposition « $x \in (S_1 \cup S_2)$ » en deux propositions : « $(x \in S_1) ; OU ; (x \in S_2)$ ». Les règles de calcul des probabilités bayésiennes nous donnent donc : $$ \begin{align*} p(x \in (S_1 \cup S_2)) &= p(x \in S_1 ; OU ; x \in S_2) \\ &= p(x \in S_1) + p(x \in S_2) - p(x \in S_1 ; ET ; x \in S_2) \end{align*} $$ Or si $S_1$ et $S_2$ sont disjoints, alors « $x \in S_1 ; ET ; x \in S_2$ » est une proposition toujours fausse, sa probabilité est donc 0. On arrive donc bien à l'attendu: $$ p(x \in (S_1 \cup S_2)) = p(x \in S_1) + p(x \in S_2) $$
- Et finalement on sait par hypothèse que $x \in \mathcal{X}$, donc $p(x \in \mathcal{X}) = 1$.
Associer à tout ensemble $S$ une mesure égale à la probabilité bayésienne de la proposition « $x \in S$ » construit donc bien une mesure de somme égale à 1, comme le requiert la formulation de Kolmogorov.
Nous avons donc montré, dans ces deux sections précédentes, que la formulation bayésienne comme la formulation fréquentiste cachent toutes deux la même formulation mathématique basée sur la notion de mesure, qui correspond à la formalisation des probabilités proposée par Kolmogorov. Ceci explique donc pourquoi les deux formulations aboutissent au même formalisme mathématique et aux mêmes théorèmes.
Lien entre les interprétations fréquentistes et bayésiennes
À ce stade, si le fréquentisme et le bayésianisme aboutissent au même formalisme mathématique, ils sont encore profondément différents en terme d'interprétation. On peut légitimement considérer que le fait que le formalisme mathématique soit le même est une coïncidence, et qu'il s'agit en réalité de deux théories différentes : une « théorie des expériences aléatoires » et une « théorie des croyances cohérentes dans l'incertitude ». Cette approche est d'ailleurs un bon moyen d'y voir plus clair dans l'ensemble !
Mais si on veut creuser plus, on peut se rendre compte qu'il y a en fait des liens plus profonds entre ces deux interprétations, montrant qu'elles ne sont en fait que deux facettes d'une même pièce !
Des expériences aléatoires aux croyances
Puisqu'il faut bien commencer dans un certain sens, supposons que l'on est face à une expérience aléatoire, on peut la répéter un grand nombre de fois (au moins sous la forme d'une expérience de pensée), et ainsi construire des probabilités fréquentistes sur les différents évènements résultant de cette expérience.
Peut-on également donner une interprétation bayésienne à ces probabilités ? Tout à fait : il s'agit également des prédictions sur le résultat de la prochaine occurrence de l'expérience aléatoire ! Pour chaque évènement $E$, la probabilité $p(E)$ est sa fréquence d'apparition parmi les (nombreuses) occurrences de l'expérience qui ont eu lieu, mais c'est également la croyance bayésienne dans le fait que la prochaine occurrence de l'expérience verra se manifester cet évènement !
On peut d'ailleurs noter la ressemblance profonde avec la loi de succession de Laplace, qui dit que si on a observé l'évènement $E$ arriver $n$ fois au cours de $N$ expériences, alors la prédiction bayésienne qu'il ait lieu à la prochaine occurrence est2 :
$$ p(E | n, N) = \frac{n+1}{N+2} $$
Lorsque le nombre d'expériences $N$ est très grand, les termes $+1$ et $+2$ de la fraction deviennent négligeables, et la prédiction de la probabilité que $E$ arrivera est alors simplement égale à sa fréquence d'apparition $n/N$. On voit donc que l'interprétation fréquentiste s'inscrit assez naturellement dans l'interprétation bayésienne.
Des croyances aux expériences aléatoires
Pour faire le chemin en sens inverse, il va nous falloir un peu plus de gymnastique mentale : on va multiplier les expériences de pensée. L'idée générale est que pour toute représentation d'une croyance en termes de probabilités bayésiennes, on peut concevoir une expérience aléatoire qui correspond aux mêmes probabilités, et on a même une jolie collection d'algorithmes qui permet de simuler ces expériences aléatoires3.
Chaque croyance bayésienne peut ainsi être vue comme la définition d'une expérience de pensée aléatoire. C'est entre autres sur cette base qu'on applique à ces croyances un traitement statistique. Par exemple, lorsqu'on analyse un pari de manière bayésienne, on estime la probabilité de gagner le pari $p(Gain)$ ou de le perdre $p(Perte)$, ainsi que la quantité d'argent que l'on gagnerait ou perdrait dans chaque cas, $N_{Gain}$ et $N_{Perte}$. On calcule ensuite le gain espéré :
$$ \text{Gain espéré} = N_{Gain} p(Gain) - N_{Perte} p(Perte) $$
Ceci correspond à se représenter le pari comme une expérience aléatoire, comme si on jouait dans un casino. Notre incertitude sur le sujet du pari caractérise alors le comportement de cette expérience aléatoire de pensée, que l'on imagine reproduire de nombreuse fois, pour calculer la moyenne des gains de chaque occurrence de l'expérience. Sur la base de ce gain moyen, on pourra ensuite décider ou non de prendre le pari.
La construction d'une expérience de pensée aléatoire est donc un moyen de réinterpréter une probabilité bayésienne dans un cadre fréquentiste. Cette manœuvre est souvent effectuée quand il s'agit de faire des prédictions sur la base de ces croyances bayésiennes.
Conclusion
Il apparaît donc que ces trois constructions des probabilités (fréquences, croyances et mesures), loin d'être disjointes, sont en fait très liées. Il s'agit simplement de plusieurs facettes d'un même concept, et l'on peut passer d'une interprétation à l'autre : les fréquences d'occurrence d'évènements d'une expérience aléatoire sont également le reflet de notre connaissance du processus sous-jacent à cette expérience, de même que toute croyance exprimée en terme de probabilités peut être interprétée comme une prédiction du résultat d'une expérience (de pensée) aléatoire. Par ailleurs, ces deux conceptions mènent au même formalisme mathématique, que l'on exprime en termes de mesures.
Au final, il s'agit surtout d'une question de contexte : certains problèmes sont naturellement abordés par une interprétation fréquentiste, d'autres par une approche bayésienne. Il n'est d'ailleurs pas rare dans la littérature de l'intelligence artificielle de produire des raisonnements hybrides qui mélangent ces deux interprétations4. Pour pousser la gymnastique mentale à son paroxysme, il y a également des problèmes mathématiques qui n'ont rien à voir avec les probabilités qu'il est parfois intéressant de reformuler comme des expériences aléatoires afin de les résoudre numériquement, ce que font par exemple les méthodes de Monte-Carlo.
Il s'agit là d'une simplification: la formulation générale requiert que l'additivité s'applique à un nombre infini dénombrable d'ensemble disjoints deux à deux, mais nous n'avons pas besoin de cette subtilité pour comprendre le lien interprétatif.
Cette prédiction est cependant soumise à hypothèses, notamment on considère qu'il n'y a que deux cas d'intérêt : soit $E$ arrive soit il n'arrive pas.
Le détail de ces algorithmes sort largement du cadre de ce billet, mais en fonction de comment la probabilité est spécifiée, il existe de nombreuses méthodes, comme la méthode du rejet ou l'algorithme de Metropolis-Hastings pour n'en citer que deux.
Par exemple, on travaille sur un algorithme qui vise à approximer une prédiction bayésienne sur un problème donné, et on estimera sa performance théorique sous la forme de la moyenne de sa performance sur l'expérience aléatoire représentant toutes les données d'entraînement sur lesquelles il pourrait hypothétiquement être entraîné.