MB 01: Modèles probabilistes

Publié le 18/06/2023

Temps de lecture : 20 min (3903 mots)

Si l'on veut discuter des modèles bayésiens, leur utilisation et leurs limites, il faut commencer par répondre à la question « Mais qu'est-ce que c'est, un modèle bayésien ? ». C'est donc le point de départ de cette série et le sujet de ce premier billet. Je vais ici tâcher de donner une vue générale d'à quoi ressemble un modèle bayésien, et comment on l'utilise.

Le raisonnement probabiliste bayésien

Comme je l'avais évoqué dans ce précédent billet, il existe deux grandes interprétations de la théorie des probabilités : la lecture fréquentiste l'utilise comme un outil pour modéliser les mécanismes aléatoires, et la lecture bayésienne l'utilise comme outil pour formaliser des raisonnements dans l'incertitude. Cette série va largement s'ancrer dans cette deuxième lecture, mais les deux points de vue ne sont absolument pas incompatibles. Comme on va le voir, il est classique d'utiliser la lecture fréquentiste pour construire les modèles sur lesquels on travaille ensuite avec le lecture bayésienne.

Dans la lecture bayésienne, le point de départ est le constat que la logique formelle est souvent trop rigide pour les raisonnements du monde réel : on dispose rarement des informations nécessaires pour démontrer (au sens mathématique du terme) la véracité de nos conclusions. La théorie bayésienne des probabilités naît d'une volonté de construire un raisonnement mathématique qui prenne en compte cette incertitude. J'étais rentrée dans les détails de cette construction dans ce billet si vous voulez explorer le fond des mathématiques, mais je vous fais ci dessous un résumé de cette construction.

Un des obstacles à l'application de la logique formelle est que, bien souvent, on ne dispose pas d'assez d'informations pour savoir si les prémisses sur lesquelles on s'appuie sont vraies ou non. Or, si on ne sait pas si les prémices sont vraies, on ne peut pas conclure à la véracité de la conclusion. L'idée du raisonnement bayésien est alors d'associer à chaque prémisse un nombre entre 0 et 1 qui représente notre degré de confiance dans sa véracité. Les règles de calcul des probabilités nous permettent alors d'en déduire un degré de confiance que l'on peut associer à la véracité de la conclusion.

Les scores de degré de confiance que l'on manipule sont donc subjectifs : ils dépendent de la personne qui fait le raisonnement, et de l'information dont elle dispose. La garantie que nous apporte le calcul bayésien est celle de la cohérence du raisonnement : si le raisonnement respecte les règles de calcul probabiliste, alors il ne s'auto-contredit pas. Si cette cohérence n'est pas en soi une garantie de vérité, elle reste une caractéristique très désirable dans un raisonnement¹.

Exemple

Prenons un exemple pour illustrer. Mettons que j'envisage de faire une randonnée avec pique-nique aujourd'hui, mais que j'aie peur de me retrouver sous la pluie. Le ciel est dégagé ce matin, mais je vis dans une région où la météo est très changeante. Puis-je estimer un degré de confiance dans mon risque de me retrouver sous la pluie ?

J'observe que ce matin il y a un fort vent du nord. Or, de mon expérience, le vent du nord apporte souvent des nuages, environ 4 fois sur 5. Je vais donc dire que j'ai un degré de confiance à 80% dans le fait que le ciel se couvrira dans la journée. Mais la présence de nuage à elle seule ne veut pas dire qu'il pleuvra, il fait souvent couvert chez moi sans qu'il pleuve. J'estime que les nuages ne sont accompagnés de pluie que 10% du temps.

Si je veux formaliser mon raisonnement mathématiquement, je vais noter $N$ l'affirmation « Il y aura des nuages dans le ciel. » et $P$ l'affirmation « Il pleuvra aujourd'hui ». Le degré de confiance que j'associe à une affirmation se nomme mathématiquement la probabilité que je lui associe, et que je note $\mathbb{P}$. Ainsi donc, je peux écrire $\mathbb{P}(N) = 0.8$: j'estime à 80% la probabilité que le ciel se couvre aujourd'hui.

On note $\neg N$ la négation de l'affirmation $N$, et les règles de probabilités nous permettent d'écrire $\mathbb{P}(\neg N) = 0.2$ : si j'estime à 80% la probabilité que le ciel se couvre, alors pour être cohérente, j'estime à 20% la probabilité qu'il ne se couvre pas.

Ensuite, je dispose d'une information sur le lien entre $P$ et $N$: je sais que si $N$ est vraie (il y a des nuages), alors je mets une probabilité à 10% que $P$ soit également vraie (il va pleuvoir). On dit donc que la probabilité de $P$ sachant $N$ est de 10%, et on note $\mathbb{P}(P | N) = 0.1$.

Ce qui nous intéresse est de calculer $\mathbb{P}(P)$, la probabilité qu'on associe au fait qu'il pleuve. Les règles des probabilités nous guident alors: pour que le raisonnement soit cohérent, il faut vérifier l'égalité suivante :

$$ \mathbb{P}(P) = \underbrace{\mathbb{P}(P | N)}_{=0.1} \times \underbrace{\mathbb{P}(N)}_{=0.8} + \mathbb{P}(P | \neg N) \times \underbrace{\mathbb{P}(\neg N)}_{=0.2} $$

Pour faire le calcul, il nous manque la valeur de $\mathbb{P}(P| \neg N)$, la probabilité que l'on associe au fait qu'il pleuve sachant qu'il n'y a pas de nuages. Mais on sait immédiatement quoi mettre là : s'il n'y a pas de nuages, alors il ne peut pas pleuvoir. Cette probabilité est donc de 0 : on a une certitude que si $N$ est fausse, alors $P$ est également fausse.

Le calcul donne finalement : $\mathbb{P}(P) = 0.8 \times 0.1 = 0.08$. Si j'essaie d'être cohérente avec ce que je sais de la météo chez moi, alors j'estime à 8% le risque qu'il pleuve aujourd'hui. Pour moi c'est un risque assez faible pour que je sorte faire ma randonnée, mais je vais quand même emmener un imperméable dans mon sac à dos, au cas où.

Il y a deux points importants que je voudrais souligner dans cet exemple. Tout d'abord, comme annoncé au début de ce billet, on a pas démontré qu'il allait pleuvoir ou non dans la journée. Le raisonnement nous a permis d'estimer un risque qu'il pleuve sachant l'information dont on disposait. Une autre personne, disposant d'une information différente, aurait pu estimer une autre valeur de $\mathbb{P}(P)$. Par exemple, quelqu'un qui vit en hauteur avec une vue bien dégagée aurait pu voir qu'au nord, de gros nuages bien sombres sont en train d'approcher, et en aurait conclu à un risque bien plus grand de pluie. Il s'agit avant tout de raisonner de manière cohérente par rapport à l'information dont on dispose. Je n'ai pas vu l'horizon, je ne sais pas que qu'on orage approche, je n'ai aucune raison de conclure qu'il va très certainement pleuvoir. Par contre, je peux décider que 8% est un risque trop grand pour sortir sans en savoir plus, et chercher à obtenir plus d'information avant de décider si je sort faire ma randonnée, par exemple en allant voir l'horizon, ou en consultant les prédictions météo.

Le second point que je veux souligner est que cet exemple a mélangé du raisonnement bayésien et du raisonnement fréquentiste. Si le raisonnement d'ensemble est bayésien (car on cherche à estimer notre confiance dans la véracité d'une affirmation $P$), on l'a construit en utilisant (entres autres) des arguments fréquentistes. La justification des choix $\mathbb{P}(N) = 0.8$ et $\mathbb{P}(P | N) = 0.1$ se base sur les fréquences des évènements que l'on a observé par le passé. Ceci illustre que les interprétations bayésiennes et fréquentistes des probabilités ne sont pas opposées ou incompatibles : on utilise l'une ou l'autre en fonction du contexte et des besoins².

Un modèle comme support de raisonnement

Les outils des probabilités nous permettent donc d'exprimer des degrés de croyance dans la véracité d'affirmations, et dans leurs relations. Face à un problème (dans l'exemple ci-dessus, savoir s'il va pleuvoir ou pas), l'ensemble d'affirmations que l'on considère pertinentes, les relations qui les lient, et les probabilités qu'on leur assignent, forment ce qu'on appelle un modèle probabiliste. Pour comprendre ça de manière un peu plus profonde, je vais tout d'abord me focaliser sur une notion centrale à ces modèles : celle de variable.

Les variables dans un modèle probabiliste

Dès que l'on s'éloigne des exemples les plus simples, le nombre d'affirmations que l'on va devoir manipuler face à un problème donné peut rapidement devenir très grand. Prenez par exemple une urne contenant des balles de couleur, où l'on s'intéresse à la couleur possible d'une balle que l'on vient de tirer. On peut considérer un ensemble d'affirmations : « la balle est verte », « la balle est rouge », « la balle est bleue », etc... Mais si on part dans cette direction, il est clair que les choses vont très vite devenir ingérables et lourdes.

Pour simplifier tout ça, on va tirer parti d'une propriété particulière de ces affirmations : elles sont incompatibles. C'est à dire qu'une seule d'entre elles peut être vraie. Si on sait que chaque balle a une seule couleur, alors on ne peut pas avoir à la fois « la balle est rouge » et « la balle est bleue ». Ceci nous permet d'introduire une variable $C$, qui représente la couleur de la balle. Cette variable peut prendre différentes valeurs: $\{\text{rouge}, \text{vert}, \text{bleu}, \dots\}$. L'affirmation « la balle est rouge » peut alors se réécrire en « $C = \text{rouge}$ ».

On avait précédemment utilisé le fait que $\mathbb{P}(N) + \mathbb{P}(\neg N) = 1$, comme une règle du calcul probabiliste. Cette règle prend une nouvelle forme quand on travaille avec des variables :

$$\mathbb{P}(C = \text{rouge}) + \mathbb{P}(C = \text{vert}) + \mathbb{P}(C = \text{bleu}) + \dots = 1$$

C'est à dire, la balle a forcément une couleur, donc le total des probabilités associées à chaque couleur est égal à 1. On peut donc voir les affirmations comme un cas particulier de variable, dont l'ensemble des valeurs possibles est $\{\text{Vrai}, \text{Faux}\}$.

Dans l'écrasante majorité des cas, les modèles probabilistes sont exprimés sous forme de variables et de relations (probabilistes) entre ces variables. Les questions auxquelles on cherche à répondre consistant alors à déterminer un degré de confiance concernant la valeur une certaine variable, et l'évolution de ce degré de confiance si on acquiert de l'information, en observant la valeur d'autres variables.

Construction d'un modèle d'exemple

Je vais illustrer cette construction avec un exemple jouet. Pour reprendre un exemple classique, on va lancer des dés. Imaginez qu'on a un sac dans lequel sont trois dés : un dé à 6 faces, un dé à 4 faces, et un dé à 2 faces (ou dit autrement, une pièce). Quelqu'un va tirer au hasard un dé dans ce sac, puis le lancer et nous donner le résultat obtenu. On va alors chercher à déterminer quel dé a été tiré. Le raisonnement se fait donc en deux étapes : d'abord on construit le modèle (quelles sont les variables d'intérêt, et le relations probabilistes qui les relient), et ensuite on utilisera ce modèle pour faire une prédiction sur le dé tiré, sachant le résultat du lancer.

Ici, on peut distinguer deux variables. La première, que je nomme $F$, représente le nombre de faces du dé choisi. Ses valeurs possibles sont $F \in \{2, 4, 6\}$. La seconde, que je nomme $R$, est le résultat du lancer. Ses valeurs possibles sont $R \in \{1, 2, 3, 4, 5, 6\}$, correspondant au nombre de faces du plus grand dé.

Pour définir complètement le modèle, on doit maintenant choisir les probabilités des valeurs de ces variables. Par exemple $\mathbb{P}(F = 6 \; \text{ET} \; R = 5)$, et ainsi de suite, pour toutes les valeurs possibles de $F$ et $R$. Dans ce cas précis, on peut s'appuyer sur une règle du calcul des probabilités :

$$\mathbb{P}(F = f \; \text{ET} \; R=r) = \mathbb{P}(F = f) \times \mathbb{P}(R = r | F =f)$$

Cette règle nous permet de décomposer le choix de ces probabilités en deux tâches plus simples : la définition des probabilités de $F$, puis la définition des probabilités de $R$ sachant $F$. Ici le choix de ces probabilités est assez naturel : les trois cas possibles $F=2$, $F=4$ et $F=6$ ont autant de chances d'arriver puisque le dé est choisi au hasard dans le sac. On va donc choisir :

$$\mathbb{P}(F = 2) = \mathbb{P}(F = 4) = \mathbb{P}(F= 6) = \frac{1}{3}$$

Concernant la probabilité de $R$ sachant $F$, le résultat dépend du dé. Chaque dé à la même chance de donner n'importe quelle valeur de $R$ parmi celles qui lui sont possibles. On peut donc construire le tableau suivant:

	$\mathbb{P}(R = 1 \vert F)$	$\mathbb{P}(R = 2 \vert F)$	$\mathbb{P}(R = 3 \vert F)$	$\mathbb{P}(R = 4 \vert F)$	$\mathbb{P}(R = 5 \vert F)$	$\mathbb{P}(R = 6 \vert F)$
$F = 2$	$1/2$	$1/2$	$0$	$0$	$0$	$0$
$F = 4$	$1/4$	$1/4$	$1/4$	$1/4$	$0$	$0$
$F = 6$	$1/6$	$1/6$	$1/6$	$1/6$	$1/6$	$1/6$

On a ainsi construit notre modèle, et on peut l'utiliser pour, par exemple, prédire les probabilités de ce qu'on peut attendre comme résultat $R$ à cette expérience. Par exemple, à quelle valeur de $R$ peut-t-on s'attendre ? Calculons par exemple $\mathbb{P}(R = 2)$. En suivant les règles des probabilités, on en déduit que :

$$ \begin{align*} \mathbb{P}(R = 2) =& &\mathbb{P}(R = 2 | F = 2) \times \mathbb{P}(F = 2) \\ & +& \mathbb{P}(R = 2 | F = 4) \times \mathbb{P}(F = 4) \\ & +& \mathbb{P}(R = 2 | F = 6) \times \mathbb{P}(F = 6) \end{align*} $$

En calculant avec les valeurs, on en déduit : $\mathbb{P}(R = 2) = \frac{1}{2} \times \frac{1}{3} + \frac{1}{4} \times \frac{1}{3} + \frac{1}{6} \times \frac{1}{3} = \frac{11}{36}$, soit finalement une confiance d'environ 30% dans le fait que le résultat sera 2. En effet, tous les dés peuvent donner 2 comme résultat, dont on s'attend plus volontiers à ce que ça soit le résultat obtenu que le résultat 6, qui ne peut être obtenu qu'avec le dé à 6 faces. Les probabilités des résultats possibles se résument dans le tableau suivant :

$R$	1	2	3	4	5	6
$\mathbb{P}(R = ?)$	$\approx 30\%$	$\approx 30\%$	$\approx 14\%$	$\approx 14\%$	$\approx 6\%$	$\approx 6\%$

Le modèle que l'on a construit représente donc l'information dont on dispose avant d'avoir observé $R$. Compte tenu de ce que l'on sait, les deux variables $F$ et $R$, ainsi que les relations probabilistes qui les lient sont une manière d'encoder ce que l'on sait (ou que l'on pense savoir) à propos du problème que l'on étudie.

Ce modèle n'est pas objectif !. Pour le construire on a fait plusieurs hypothèses implicites :

On a supposé que la personne qui allait tirer le dé est parfaitement honnête, et qu'elle va effectivement choisir le dé au hasard. C'est ce qui nous permet de justifier le choix de $1/3$ pour les probabilités des valeurs de $F$.
On a également supposé que les trois dés sont bien équilibrés, qu'ils ont une chance égale de tomber sur chacune de leurs faces. C'est ce qui justifie les valeurs que l'on a rentré dans le tableau des probabilités $\mathbb{P}(R | F)$.

Comme annoncé dans le billet d'introduction, la première partie de cette série va se focaliser sur la deuxième étape du raisonnement : comment intégrer à ce modèle l'information que l'on a observé la valeur de certaines variables (ici la valeur de $R$, le résultat du lancer). Les prochains billets s'appuieront sur des modèles sans beaucoup discuter les justifications de leurs constructions, ces discussions viendront plus loin dans la série.

Prédictions après observation : l'inférence

C'est maintenant que l'aspect bayésien de la modélisation prend toute son ampleur. Supposons que l'expérience vient d'être faite, et la personne qui a lancé le dé nous annonce que le résultat est $R = 3$. À partir de ça, que peut on en conclure sur la valeur de $F$, le nombre de faces du dé qui a été choisi ? Formulé mathématiquement, peut-on calculer les probabilités des valeurs de $F$ sachant que $R=3$, $\mathbb{P}(F | R = 3)$ ?

Il se trouve que oui, en utilisant le célèbre Théorème de Bayes. Pour chaque valeur possible $f \in \{2, 4, 6 \}$, on a :

$$\mathbb{P}(F = f | R = 3) = \frac{\mathbb{P}(R = 3 | F = f) \times \mathbb{P}(F = f)}{\mathbb{P}(R = 3)}$$

On connaît déjà les valeurs de ces trois termes, il suffit donc de faire le calcul :

$$ \begin{align*} \mathbb{P}(F = 2 | R = 3) &= \frac{0 \times 1/3}{5/36} &= 0 &= 0\% \\ \mathbb{P}(F = 4 | R = 3) &= \frac{1/4 \times 1/3}{5/36} &= \frac{3}{5} &= 60\% \\ \mathbb{P}(F = 6 | R = 3) &= \frac{1/6 \times 1/3}{5/36} &= \frac{2}{5} &= 40\% \end{align*} $$

Sachant qu'on a observé $R = 3$, on en déduit que $F=2$ est impossible (un dé à 2 faces ne peut pas faire 3), et on peut donc assigner un degré de confiance à 60% que $F=4$, et à 40% que $F=6$. Le dé à 4 faces a plus de chances de faire 3 que le dé à 6 faces, on a donc une confiance légèrement plus élevée dans cette première option.

On peut également un peu modifier le problème : et si la personne lançait le dé 2 fois plutôt qu'une seule, et nous donnait les deux résultats ? Mettons que le deuxième lancer donne 1. Peut-on intégrer cette information à notre raisonnement ?

Pour le faire, on va remplacer la variable $R$ par deux variables, $R_1$ et $R_2$, représentant le résultat de chacun des deux lancers respectivement. Dans cet exemple, on a donc $R_1 = 3$ et $R_2 = 1$. On va donc appliquer de la même manière le théorème de Bayes :

$$\mathbb{P}(F = f | R_1 = 3 \;\text{ET}\; R_2 = 1) = \frac{\mathbb{P}(R_1 = 3 \;\text{ET}\; R_2 = 1 | F = f) \times \mathbb{P}(F = f)}{\mathbb{P}(R_1 = 3 \;\text{ET}\; R_2 = 1)}$$

On se retrouve avec de nouveaux termes à évaluer : les probabilités de $R_1 = 3 \;\text{ET}\; R_2 = 1$. Les termes du numérateur sont faciles à obtenir : sachant le dé choisi, les deux lancers sont indépendants. Si je connais déjà la valeur de $F$, apprendre la valeur de $R_1$ ne m'apporte aucune information supplémentaire sur $R_2$, et réciproquement. Cette indépendance se traduit mathématiquement ainsi :

$$\mathbb{P}(R_1 = 3 \;\text{ET}\; R_2 = 1 | F = f) = \mathbb{P}(R_1 = 3 | F = f) \times \mathbb{P}(R_2 = 1 | F = f)$$

Le dénominateur est un peu plus fastidieux à calculer, mais il s'agit du même dénominateur dans tous les cas. Son calcul revient à faire la somme des numérateurs pour chacune des 3 valeurs de $F$ possible. On obtient donc finalement :

$$ \begin{align*} \mathbb{P}(F = 2 | R_1 = 3 \;\text{ET}\; R_2 = 1) &= \frac{0 \times 1/2 \times 1/3}{13/432} &= 0 &= 0\% \\ \mathbb{P}(F = 4 | R_1 = 3 \;\text{ET}\; R_2 = 1) &= \frac{1/4 \times 1/4 \times 1/3}{13/432} &= \frac{9}{13} &\approx 69\% \\ \mathbb{P}(F = 6 | R_1 = 3 \;\text{ET}\; R_2 = 1) &= \frac{1/6 \times 1/6 \times 1/3}{13/432} &= \frac{4}{13} &\approx 31\% \end{align*} $$

Cette deuxième observation vient alors légèrement renforcer notre confiance dans le fait que le dé tiré soit celui à 4 faces, car encore une fois, le résultat 1 a plus de chances d'arriver sur un dé à 4 faces que sur un dé à 6, et l'option du dé à 2 faces a déjà été écartée par le premier résultat $R_1 = 3$.

On peut ainsi continuer à intégrer de nouvelles observations. Tant que les observations $R_3$, $R_4$, .... sont entre 1 et 4, elles vont continuer à renforcer notre confiance dans la possibilité $F = 4$, mais si jamais on observe, même une seule fois un résultat de 5 ou 6, alors il sera certain que le dé choisi est le dé à 6 faces, car il est le seul à permettre ce résultat.

Regardons par exemple comment évolue notre degré de confiance $\mathbb{P}(F = 4 | R_1, R_2, R_3, \dots)$ lorsque le nombre d'observations augmente, en supposant qu'elles soient toutes entre 1 et 4 :

Nombre d'observations	1	2	3	4	5	6	7	8	9	10
$\mathbb{P}(F = 4 \vert R_1, \dots)$	60%	69%	77%	84%	88%	92%	94%	96%	97%	98%

Peu à peu, notre confiance se rapproche de 100% : en effet, il est tout à fait attendu que tous les résultats soient entre 1 et 4 si le dé a 4 faces, alors qu'au contraire, il serait assez surprenant que 10 lancés d'affilée avec un dé à 6 faces ne fassent jamais ni 5 ni 6 ! Mais on atteint jamais 100%, car même s'il est très improbable que ça arrive, ça n'est pas impossible.

Le raisonnement bayésien dans ce cas ne nous permettra jamais de conclure que $F = 4$ avec une certitude absolue, car aussi improbable que cela puisse paraître, il reste possible que le dé tiré soit en fait le dé à 6 faces. Mais on peut par exemple juger que lorsqu'on atteint une confiance de 99%, alors c'est suffisant. Le choix de quel seuil de confiance nous suffit est également subjectif et dépend du contexte. Il dépend notamment de pourquoi on cherche à déterminer la valeur de cette variable.

Cet exemple jouet ne porte pas d'enjeu, mais si le raisonnement vise à guider une prise de décision avec des conséquences importantes, alors il est nécessaire de juger quand on a recueilli assez d'information pour décider. Un exemple typique serait celui d'un traitement médical : tant que l'on ne sait pas avec une grande confiance ce qu'il faut traiter, on fait des examens complémentaires pour recueillir plus d'information, en particulier si le traitement envisagé est lourd avec de gros effets secondaires.

Vers la suite

Cet exemple visait à vous illustrer la structure d'un modèle probabiliste, et la manière dont on raisonne dessus. Il s'agissait d'un exemple très simplifié, où on a pu faire tous les calculs directement. Mais dans de nombreux modèles réels, l'étape d'inférence, visant à calculer la probabilité des variables d'intérêt sachant celles qu'on a observées, devient très complexe. Dans un modèle avec des dizaines (voire centaines) de variables il n'est souvent plus envisageable de faire ces calculs exactement, même a l'aide d'un ordinateur.

On se tourne alors vers des méthodes d'approximation, qui vont être le sujet de la première partie de cette série de billets : dans quels cas les approximations sont-elles nécessaires, quelles approximations sont possibles, et qu'impliquent-elle quand à la qualité des prédictions ? Les garanties du raisonnement bayésien sont des garanties de cohérence du raisonnement. En approximant le raisonnement, on perd donc ces garanties. L'enjeu est donc de comprendre le type de biais que ces approximations causent dans le raisonnement.

Je ne doute pas qu'il y a de longs débats philosophiques à avoir concernant la nécessité du Principe de non-contradiction, mais pour autant que je sache il est assez consensuel de considérer qu'un raisonnement qui s'auto-contredit a des bonnes chances d'être au moins en partie faux.

En vérité, le gros du conflit entre fréquentisme et bayésianisme porte sur un point précis : la manière dont on conclut à la véracité ou non d'une proposition à partir de données statistiques. Dans cette série de billet je m'appuierai toujours sur l'interprétation bayésienne : on fournit une probabilité qui représente un degré de confiance dans sa véracité.