Les probabilités: entre hasard, information et connaissance

Publié le 14/04/2019

Temps de lecture : 30 min (5880 mots)

Tags: Probabilités Théorie de l'Information Fréquentisme Bayésianisme

On utilise souvent les probabilités : entre la météo qui nous annonce 20% de chance de pluie, les jeux concours qui nous offrent une chance sur cent mille de gagner, ou la joueuse qui a une chance sur 3 de trouver la pièce sous le bon gobelet, nous avons tous une compréhension assez intuitive des probabilités. Et pourtant, les 3 exemples précédents en illustrent trois conceptions assez différentes, que je vous propose d'explorer.

1. Les probabilités comme modèle du hasard

Au niveau fondamental, les probabilités sont un outil mathématique servant à décrire le hasard. Une pièce a une chance sur deux de retomber sur pile, et un dé à 6 faces une chance sur 6 de faire un 4. Afin d'associer un sens mathématique à ces phrases, il faut des outils qui représentent la notion de « K chances sur N » ou « X% de chances », et une théorie pour décrire les faits dépendant du hasard, que l'on nomme des expériences aléatoires.

Expériences aléatoires et évènements

Dans une expérience aléatoire comme un lancer de dé, on peut s'intéresser à plusieurs aspects du résultat. On peut se poser la question « Quel est le résultat du dé ? », mais il y en a d'autres. Par exemple « Combien de temps le dé a-t-il roulé avant de s'arrêter ? » ou « Quelle est la position du dé une fois arrêté ? ». Il nous faut expliciter ce qui nous intéresse vraiment.

Les mathématiciens nomment chacun de ces aspects une variable aléatoire. C'est une variable comme toutes les grandeurs que l'on manipule, et elle est aléatoire car sa valeur dépend du résultat de l'expérience. On va ensuite donner des noms à ces variables afin de les étudier. Par exemple, nommons ici $\mathbf{X}$ la variable aléatoire représentant le résultat du dé.

Maintenant que l'on a identifié les variables qui nous intéressent, commençons par énumérer les valeurs qu'elles peuvent prendre. Ici, notre variable $\mathbf{X}$ peut prendre les valeurs 1, 2, 3, 4, 5 et 6. On nomme l'ensemble des valeurs possible de nos variables l'univers de l'expérience, et on le note souvent $\Omega$. L'univers de notre lancer de dé est donc $\Omega = { 1, 2, 3, 4, 5, 6 }$.

On peut aussi lancer une pièce en même temps que le dé, et noter $\mathbf{Y}$ son résultat ($p$ pour pile ou $f$ pour face). Notre univers contiendra donc toutes les paires possibles du résultat du dé et de la pièce :

\begin{equation} \Omega = { (1, p), (2, p), (3, p), (4, p), (5, p), (6, p), (1, f), (2, f), (3, f), (4, f), (5, f), (6, f) } \end{equation}

Une fois ces variables définies, on peut faire l'expérience et essayer de qualifier les résultats obtenus. Par exemple, peut être pourra-t-on dire « Le résultat est $\mathbf{X} = 3$ et $\mathbf{Y} = f$. », mais on peut aussi donner des affirmations moins précises, comme « $\mathbf{X}$ est un nombre pair » ou « $\mathbf{X}$ est supérieur à 3 ».

On nomme chacune de ces affirmations sur le résultat un évènement, et si l'affirmation est vraie on dit que l'évènement qu'elle défini a lieu. Connaissant l'univers, on peut aussi associer à un évènement la liste des résultats pour lequel il a lieu. Par exemple l'évènement « $\mathbf{X}$ est supérieur ou égal à 4 et $\mathbf{Y}$ est $f$ » a lieu pour les résultats ${ (4, f), (5, f), (6, f) }$. Inversement, n'importe quelle liste (ou sous-ensemble) $\mathcal{L}$ de résultats suffit à définir l'évènement « Le résultat est un de ceux présents dans la liste $\mathcal{L}$ ». Il y a donc une correspondance entre les évènements et les sous-ensembles de résultats possibles. Pour cette raison, les mathématiciens les considèrent comme étant la même chose :

On nomme événement aléatoire tout sous-ensemble de l'univers $E \subset \Omega$. Et on distingue en particulier les événements suivants:

$E = \emptyset$, l'événement vide, qui ne contient aucun résultat.

$E = \Omega$, l'événement univers, qui contient tous les résultats.

On peut associer aux événements les opérations d'ensembles habituelles. Si $E_1$ et $E_2$ sont deux évèments, alors:

$E_1 \cup E_2$ est l'événement « au moins un des deux événements $E_1$ ou $E_2$ a lieu », qu'on peut également appeller l'union des événements $E_1$ et $E_2$

$E_1 \cap E_2$ est l'événement « $E_1$ et $E_2$ ont tous les deux lieu », on l'appellera aussi l'intersection des événements $E_1$ et $E_2$

$E_1 \setminus E_2$ est l'événement « $E_1$ a lieu mais pas $E_2$ », on peut également le nommer « $E_1$ privé de $E_2$ »

Par ailleurs, on dira que deux événements sont incompatibles si aucun résultat de $\Omega$ ne correspond aux deux événements à la fois, ils ne peuvent pas avoir lieu en même temps. C'est équivalent à dire que $E_1 \cap E_2 = \emptyset$.

Formalisation des probabilités

Pour construire les probabilités, on veut associer à chaque évènement possible $E$ un nombre $\mathbb{P}(E)$, suivant l'intuition naturelle que l'on a des probabilités :

Si on fait l'expérience aléatoire un grand nombre de fois et que l'on compte le nombre de fois que chaque évènement a lieu, alors pour chaque évènement possible $E$ :

$$ \mathbb{P}(E) \approx \frac{\text{Nombre de fois où } E \text{ a eu lieu}}{\text{Nombre de fois où l'expérience a été faite}} \tag{1.1}$$

On voit qu'une probabilité est forcément entre 0 et 1 : si l'évènement $E$ n'arrive jamais alors $\mathbb{P}(E) = 0$, et s'il arrive toujours alors $\mathbb{P}(E) = 1$.

Pour aller plus loin, revenons sur notre dé. Chaque résultat a autant de chance d'arriver : si on lance le dé un grand nombre de fois, un sixième des résultats sera 1, un autre sixième sera 2, et ainsi de suite. Mais que peut-on dire du nombre de fois où le résultat sera un nombre pair ? Intuitivement, le résulat du dé sera un nombre pair dans la moitié des cas : en effet la moitié des résultats possibles sont des nombres pairs (2, 4 et 6).

Cependant, si notre dé était pipé et faisait 6 dans 50% des cas, la probabilité d'avoir un nombre pair serait forcément plus grande puisqu'elle correspondrait à soit avoir un 6 (déjà 50% de chances), soit avoir un 2 ou 4 (qui augmentent donc encore la probabilité).

Si on connait bien ce dé, on peut donc dire que l'on connait déjà la probabilité des évènements $\mathbf{X}=1$, $\mathbf{X}=2$, $\mathbf{X}=3$, $\mathbf{X}=4$, $\mathbf{X}=5$ et $\mathbf{X}=6$. Ces 6 évènements sont particuliers : en effet quelque soit le résultat de l'expérience, un et un seul de ces évènements aura lieu. On a envie de se dire qu'ils suffisent à calculer la probabilité de chaque autre évènement possible…

Par exemple l'évènement « $\mathbf{X}$ est pair » peut aussi s'écrire « $\mathbf{X} \in {2,4,6}$ », et on a très envie de dire que sa probabilité est la somme des probabilités des évènements « $\mathbf{X} = 2$ », « $\mathbf{X} = 4$ » et « $\mathbf{X} = 6$ », ou de manière générale que si on a un ensemble de valeurs $A$ :

\begin{equation} \mathbb{P}(\mathbf{X} \in A) = \sum_{a \in A} \mathbb{P}(\mathbf{X} = a) \tag{1.2} \label{eq:proba_event} \end{equation}

Les mathématiques utilisent une définition des probabilités un tout petit peu plus abstraite :

Sachant un univers $\Omega$, on appelle « loi de probabilité » sur $\Omega$ une fonction $\mathbb{P}$ qui associe à chaque événement $E$ de $\Omega$ un nombre réel, et vérifiant les propriétés suivantes:

pour tout événement $E$ : $0 \leq \mathbb{P}(E) \leq 1$

$\mathbb{P}(\Omega) = 1$

Pour deux événements incompatibles $E_1$ et $E_2$: $\mathbb{P}(E_1 \cup E_2) = \mathbb{P}(E_1) + \mathbb{P}(E_2)$,

La dernière propriété est une version générale ce que nous avions intuité à travers la formule \ref{eq:proba_event} : quand des événements sont incompatibles, la probabilité que au moins l'un d'entre eux arrive est la somme de leurs probabilités. Il est important que les événements soient incompatibles, sinon il faut prendre en compte qu'il y a une chance pour que les deux événements arrivent en même temps.

Cette définition suffit en vérité à obtenir de nombreux résultats. Par exemple elle implique nécessairement que $\mathbb{P}(\emptyset) = 0$, ou encore elle permet de trouver la probabilité d'une union d'évènements pas forcément indépendants :

\begin{equation} \mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B) \tag{1.3} \end{equation}

Vous pouvez essayer vous-même de démontrer ces résultats. Un conseil : prenez le temps d'énumérer tous les cas possibles, cela permet de décomposer la situation en évènements incompatibles, qui sont faciles à manipuler.

Ce sont les fondements des probabilités comme modélisation d'une expérience aléatoire. Dans la suite, nous allons voir une situation un peu plus complexe mais qui en réalité correspond mieux à l'utilisation habituelle des probabilités : une expérience aléatoire a eu lieu, mais nous ne connaissons pas son résultat. Nous n'avons accès qu'à une information indirecte dessus, et allons utiliser les probabilités pour quantifier ce que l'on sait.

2. Les probabilités comme quantification de l'information

Vous participez à un jeu bien connu : une bille est cachée sous un gobelet parmi 3, qui sont ensuite mélangés. Si on pointe un des gobelets et que l'on demande quelle est la probabilité que la bille soit sous celui-ci, on a très envie de répondre « une chance sur 3 », en se disant que la bille a autant de chance d'être sous chaque gobelet.

Pourtant, la bille est déjà en place, il n'y a plus aucun hasard qui va avoir lieu : soit la bille est effectivement sous le gobelet, soit elle n'y est pas. Notre intuition nous pousse à utiliser les probabilités comme reflet de l'information qu'il nous manque : nous n'avons aucune raison de croire que la bille est sous un des gobelets en praticulier plutôt qu'un autre.

Si un des gobelets est retourné au hasard et que la bille n'est pas en dessous, nous en savons un peu plus et sommes tentés de dire qu'elle a maintenant une chance sur deux d'être sous chacun des deux autres gobelets, et zéro chance d'être sous celui qui a été retourné. C'est cette représentation des probabilités en tant que mesure d'information (et en praticulier d'information manquante) que formalise une branche des mathématiques nommée la Théorie de l'Information.

Probabilités conditionnelles

Nous avons déterminé deux fois la probabilité du même événement « la bille est sous le premier gobelet », et avons obtenu deux résultats différents (d'abord $\frac{1}{3}$, puis $\frac{1}{2}$). Cela s'explique car nous avons obtenu de l'information : la 2e fois, nous avons en vérité déterminé la probabilité de l'événement « la bille est sous le premier gobelet » sachant que l'événement « la bille n'est pas sous le troisième gobelet » a lieu.

Il s'agit d'un changement de perspective : on a changé d'univers. Considérons qu'on a notre univers $\Omega$, et deux événements, $A$ et $B$. Lorsqu'on s'intéresse à la probabilité de $A$ sachant que $B$ a lieu, on est en réalité en train de calculer la probabilité de $A$, en utilisant $B$ comme univers : on se limite à tous les résultats de $\Omega$ qui sont compatibles avec $B$.

En mathématiques on note ce changement d'univers avec une barre verticale $|$. La probabilité de $A$ sachant $B$ se note donc $\mathbb{P}(A|B)$. Mais peut-on définir $\mathbb{P}(A | B)$ en fonction des probabilités qu'on connait déjà sur $\Omega$ ?

Nous avons deux intuitions pour nous guider :

La probabilité de $A$ sachant $B$ doit refléter la probabilité d'avoir à la fois $A$ et $B$ sachant qu'on a déjà $B$. Elle est donc forcément liée à $\mathbb{P}(A \cap B)$.
Si $B$ est notre nouvel univers, alors on doit nécessairement avoir $\mathbb{P}(B|B) = 1$, la probabilité que $B$ ait lieu sachant que $B$ a lieu est 1.

Suivant ces deux intuitions, on arrive finalement à la définition suivante :

$$\mathbb{P}(A | B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} \tag{2.1} \label{eq:proba-cond}$$

Pour confirmer notre intuition, essayons d'appliquer cette formule à notre exemple des gobelets. Notons $A_1$, $A_2$ et $A_3$ les événements correspondant a la présence de la bille sous les gobelets 1, 2 et 3 respectivement. Initialement on ne sait rien, la bille nous parait avoir autant de chances d'être sous chaque gobelet :

$$ \mathbb{P}(A_1) = \mathbb{P}(A_2) = \mathbb{P}(A_3) = \frac{1}{3} $$

On soulève le gobelet 3, et la bille n'est pas en dessous. Notons $B$ l'événement « la bille n'est pas sous le gobelet 3 ». On a $B = \Omega \setminus A_3$, l'univers entier privé de l'événement $A_3$.

La probabilité que la bille ne soit pas sous le 3e gobelet, $\mathbb{P}(B)$, est donc $\frac{2}{3}$. De plus l'événements $A_1$ est inclus dans $B$ : si $A_1$ a lieu, alors nécessairement $B$ a lieu également. En conséquence, $A_1 \cap B = A_1$. On peut alors calculer la probabilité conditionnelle :

$$\mathbb{P}(A_1 | B) = \frac{\mathbb{P}(A_1 \cap B)}{\mathbb{P}(B)} = \frac{1 / 3}{2 / 3} = \frac{1}{2}$$

On retrouve notre intuition initiale, ce qui rassure quand au bien fondé de notre définition !

L'information manquante comme nombre de questions

On va maintenant chercher à quantifier ce gain d'information. Imaginons un petit jeu : je choisis au hasard un nombre entre $1$ et $N$ (par exemple entre 1 et 100), et votre rôle est de deviner quel est ce nombre. Pour cela, vous avez uniquement le droit de me poser des questions auquelles je ne répondrai que par « oui » ou « non ». Quelle stratégie allez-vous suivre pour trouver en posant le moins de questions possibles ?

On peut demander « Est-ce que le nombre est 1 ? », puis 2, puis 3, etc, mais si j'ai choisi le nombre 86 ça va être long. Cette stratégie n'a pas l'air très efficace…

Les habitués de ce jeu connaissent la stratégie qui permet de trouver rapidement à tous les coups : commencer par demander « Est-il plus grand que 50 ? » puis, si la réponse est « Non », demander « Est-il plus grand que 25 ? » et ainsi de suite. À chaque étape on réduit de moitié l'intervalle de recherche.

Si on a $N$ choix possibles, et que chaque question les réduit de moitié, alors après $k$ questions il ne reste plus que $N / 2^k$ possibilités. Pour connaitre le nombre de questions qui permet de trouver à coup sûr, on cherche donc la plus petite valeur de $k$ telle que $N / 2^k \leq 1$ (de sorte qu'il ne reste plus qu'un choix possible). Cela équivaut à $N \leq 2^k$, et c'est une valeur assez simple à calculer, il suffit de prendre le logarithme[ref]Pour tout nombre $x > 0$, on appelle son logarithme en base $a$ le nombre $y$ tel que $x = a^y$, et on le note : $y = \log_a x$.[/ref] de $N$ en base 2 !

Donc, si on a le choix entre $N$ options, on peut trouver la bonne valeur à tous les coups en $\log_2 N$ questions. Par exemple, si on doit deviner un nombre entre 1 et 100 il y a 100 choix possibles, et $\log_2 100 \approx 6.64$, on peut donc trouver à tous les coups en posant 7 questions.

Peut-on faire encore mieux ? Ça dépend. Si le nombre a vraiment été tiré au hasard et que tous les nombres avaient la même chance de sortir (par exemple j'ai lancé un dé), on ne peut pas faire mieux, nous avons déjà la meilleure stratégie.

Mais peut-être n'ai-je pas choisi un nombre de manière équilibrée ? Par exemple, peut-être savez-vous que j'adore les grands nombres, et que je ne choisis jamais un nombre plus petit que 50. Dans ce cas, vous pouvez appliquer la même stratégie, mais en commençant par me demander si le nombre est plus grand que 75 (à mi-chemin entre 100 et 50), et vous allez trouver mon nombre en seulement 6 questions.

Prenons un peu de recul, les questions que vous me posez, l'une après l'autre, sont comme me demander si des événements ont lieu : « Est-ce que l'événement $\mathbf{X} \geq 50$ a lieu ? » par exemple. Quel serait l'analogue de « diminuer de moitié l'intervalle de recherche », en terme d'événements ? Choisir un événement qui a une chance sur deux d'arriver !

Voilà comment on peut traduire notre stratégie précédente si toutes les valeurs n'ont pas la même chance d'arriver : à chaque étape, on choisit un événement $E$ sur la valeur de $\mathbf{X}$ qui a une chance sur deux d'arriver, et en fonction de la réponse, on change d'univers pour se placer dans $E$ ou $\Omega \setminus E$. On peut ensuite recommencer jusqu'à ce qu'on arrive à un univers qui ne contient plus qu'une seule valeur possible pour $\mathbf{X}$.

L'entropie comme mesure de l'information

Est-ce qu'on peut calculer à l'avance le nombre de questions qu'on aura a poser, en supposant qu'on connaisse déjà les probabilités des événements $\mathbb{P}(\mathbf{X} = x)$ ?

Pour construire un peu plus notre intuition, imaginons un problème simplifié où $\mathbf{X}$ peut prendre 3 valeurs : 1, 2 ou 3. Mais ces valeurs ne sont pas équitablement réparties :

$$ \mathbb{P}(\mathbf{X} = 1) = \frac{1}{2} \quad \mathbb{P}(\mathbf{X} = 2) = \frac{1}{4} \quad \mathbb{P}(\mathbf{X} = 3) = \frac{1}{4}$$

Si on applique la stratégie précédente, on commence par poser une question qui a une chance sur deux d'être vraie : « Est-ce que $ \mathbf{X} = 1$ ? ». Si la réponse est oui, on a trouvé la valeur de $\mathbf{X}$, sinon il nous faut une 2e question pour trancher entre $\mathbf{X} = 2$ et $\mathbf{X} = 3$.

La valeur qui a une chance sur deux d'arriver peut être trouvée en une seule question, les valeurs qui ont une chance sur 4 ont besoin de deux questions. Et on a vu précédemment que si on a le choix entre $N$ valeurs (qui ont chacune une chance sur $N$ d'arriver), il faut $\log_2 N$ questions. On a très envie de généraliser et dire que si une valeur a une chance sur $K$ d'arriver, alors il faudra environ $\log_2 K$ questions pour la trouver.

Si on veut pousser à une probabilité quelconque, on remplace $\frac{1}{K}$ par $\mathbb{P}(\mathbf{X} = x)$. Donc si $\mathbf{X}$ vaut en fait $x$, alors il faudra environ $\log_2\frac{1}{\mathbb{P}(\mathbf{X} = x)} = -\log_2 \mathbb{P}(\mathbf{X} = x)$ questions pour la trouver. Pour savoir combien de questions en moyenne il faut pour trouver la valeur de $\mathbf{X}$, on peut donc faire la moyenne pondérée du nombre de questions qu'il faut pour trouver chaque valeur $x$ par la probabilité d'avoir cette valeur. Cela donne une grandeur qu'on nomme l'entropie de $\mathbf{X}$ :

$$ H(\mathbf{X}) = - \sum_{x} \mathbb{P}(\mathbf{X} = x) \log_2 \mathbb{P}(\mathbf{X} = x) \tag{2.2}$$

On peut vérifier que cette entropie correspond bien avec notre intuition :

Si une variable ne peut prendre qu'une seule valeur, alors son entropie vaut $ - 1 \log_2 1 = 0$, on n'a pas besoin de poser de question pour connaître sa valeur.
Si une variable peut prendre $N$ valeurs différentes, chacune avec une probabilité $\frac{1}{N}$, alors son entropie vaut $ - N \frac{1}{N} \log_2 \frac{1}{N} = \log_2 N$, on retrouve notre compte précédent.

On a donc cette notion d'entropie, $H(\mathbf{X})$, qui pour une variable aléatoire nous permet de calculer le nombre de questions que l'on doit poser en moyenne pour identifier une valeur particulière de $\mathbf{X}$. Comme on peut le voir, l'information que l'on a a priori sur les chances d'avoir différentes valeurs de $\mathbf{X}$ nous permet de changer notre stratégie afin d'avoir moins de questions à poser. Par exemple, si une variable peut prendre de nombreuses valeurs différentes, mais que l'une de ces valeurs a beaucoup plus de chances d'arriver que les autres, son entropie va en réalité être assez petite : il y a de grandes chances pour que l'on puisse trouver la bonne valeur en une seule question !

C'était un aperçu de la manière dont les probabilités sont utilisées pour mesurer des quantités d'information. De nombreux concepts sont construits sur l'entropie, qui a initialement été développée par Claude Shannon, que l'on considère aujourd'hui comme le père fondateur de la théorie de l'information.

Ces concepts sont notamment très utilisés en informatique et dans les télécommunications : on veut transmettre un message d'un endroit à un autre, mais nos moyens de transports (les fils téléphoniques, les fibres optiques, le wifi, etc...) ne sont pas parfaits, et notre message risque d'être aléatoirement modifié durant le transport. Avec les modèles de théorie de l'information, on arrive à modéliser la quantité d'information qui risque d'être perdue durant le transport. Cela permet d'adapter nos méthodes d'envoi pour compenser cette perte, par exemple en introduisant de la redondance dans les messages. Aujourd'hui, tous les algorithmes dans les ordinateurs et les téléphones pour fonctionner en WiFi ou en 4G sont basés sur ces modèles.

3. Les probabilités comme représentation de la connaissance

L'application des probabilités est au cœur de la méthode scientifique. Dans le contexte de la recherche, faire une expérience sur le monde revient à obtenir la valeur d'une certaine variable aléatoire $\mathbf{X}$, qui nous donne un tout petit peu d'information sur l'état de l'univers. Dans la méthode scientifique, on veut alors confronter ce résultat expérimental à nos hypothèses et théories. Le propre des théories scientifiques est de faire des prédictions : « Si ma théorie est vraie, alors on doit observer ceci ». C'est ça qui donne sa force à une théorie scientifique : on peut la confronter à la réalité.

En termes de probabilités, on peut le reformuler ainsi : une hypothèse $H$ peut être assimilée à un événement, par exemple « la théorie de la relativité est vraie ». Et cette théorie fait une prédiction sur le résultat de l'expérience que l'on a représenté par la variable aléatoire $\mathbf{X}$, cette prédiction peut donc être formulée comme la donnée d'une probabilité conditionelle : $\mathbb{P}(\mathbf{X} = x | H)$. Un exemple typique de ce genre de prédiction sont les bulletins météo : « Il y aura 20% de chances de pleuvoir demain » est une prédiction de nos modèles météorologiques.

Beaucoup de théories font des prédictions exactes (et non probabilistes) sur le résultat d'une expérience, mais nos outils de mesures ne sont pas parfaits : il y a des erreurs de mesures qui arrivent. Il est donc légitime de toujours représenter cette prédiction comme une probabilité[ref]Pour être rigoureux, il faut en réalité prendre en compte le fait que $H$ est une très grosse hypothèse, qui contient notre théorie testée bien sûr, mais également des hypothèses secondaires sur le fait que nos outils de mesure fonctionnent correctement, et que l'on a été capable d'interpréter correctement leurs mesures. Si vous voulez creuser plus en détail cette question, je peux vous recommander ces deux vidéos de Monsieur Phi : La théorie peut-elle réfuter l'expérience ? et Merci Captain Ad Hoc !.[/ref].

Une fois qu'on a fait l'expérience, on a le résultat : $\mathbf{X} = x$, et on peut donc évaluer $\mathbb{P}(\mathbf{X} = x | H)$ comme un nombre. La question maintenant étant : connaissant cette probabilité d'avoir ce résultat de l'expérience, comment l'interpréter en confirmation ou infirmation de notre hypothèse $H$ ?

Cette question est encore aujourd'hui un grand débat au sein de la communauté scientifique entre deux approches, l'approche Fréquentiste et l'approche Bayésienne. La première est largement utilisée depuis des centaines d'années comme socle de la méthode scientifique, mais est régulièrement critiquée au profit de la seconde, qui reste néanmoins minoritaire.

Les statistiques fréquentistes et les valeurs $p$

Le raisonnement fréquentiste vise à déterminer d'une hypothèse si elle est vraie (et donc correspond à la Réalité), ou fausse (et donc n'y correspond pas), via la méthode scientifique. Si d'après une hypothèse, une certaine expérience n'a presque aucune chance de donner le résultat $x$[ref]En prenant en compte les risques d'erreurs de mesure, la probabilité n'est jamais strictement égale à 0.[/ref] mais que l'on observe empiriquement ce résultat, alors on peut rejetter l'hypothèse comme fausse.

En pratique la méthode scientifique procède donc ainsi : imaginons que l'on veuille tester une certaine hypothèse, par exemple « Il y a une corrélation entre le fait de boire beaucoup en soirée et le fait de se réveiller le lendemain matin avec un mal de tête ». Comme la méthode scientifique marche par réfutation, nous allons en réalité essayer de prouver que l'hypothèse opposée, qui suppose qu'il n'y a pas de corrélation entre les deux, est fausse.

Ce raisonnement par réfutation est très important, en effet si j'essaie juste de trouver des expériences qui confirment mon hypothèse, je risque d'être biaisé et de ne tester que les cas où je sais à l'avance que mon hypothèse va marcher. Mais il est tout à fait possible que l'hypothèse opposée marche également dans ces cas, ce qui ferait que mes expériences n'apportent en réalité rien ! À l'inverse, si j'arrive à montrer que l'hypothèse opposée à la mienne est fausse, alors cela confirme directement mon hypothèse. Pour départager deux théories, il faut les tester dans des domaines où elles font des prédictions différentes !

Dans cette optique, les scientifiques vont noter $H_0$ l'hypothèse qu'ils essaient de réfuter, et la nommer « hypothèse nulle ». Non pas parce qu'elle n'est pas intéressante, mais parce que c'est souvent l'hypothèse qui suppose que le phénomène qu'on veut mettre en évidence n'existe pas. Et on va donc faire l'expérience, et évaluer $\mathbb{P}(\mathbf{X} = x | H_0)$. Plus précisément, on va évaluer la probabilité d'avoir un résultat au moins aussi rare que celui qu'on a observé. C'est cette dernière probabilité qu'on nomme la valeur $p$.

L'approche est simple, on fixe avant de faire l'expérience un seuil de probabilité (5% ? 1% ? 0.1% ?) et si la valeur $p$ du résultat de l'expérience est inférieur à ce seuil (donc $p < 0.05$, $p < 0.01$ ou $p < 0.001$ respectivement), on va considérer que l'hypothèse nulle $H_0$ est fausse au profit de notre hypothèse. Si la valeur $p$ est supérieure au seuil par contre, on ne peut rien conclure.

Dans notre exemple, on va sonder de nombreuses personnes sur la question de savoir si elles ont beaucoup bu la veille, et si elles ont eu mal à la tête le lendemain. Si les deux phénomènes étaient réellement indépendants comme le suppose $H_0$, on s'attendrait donc à ce qu'il y ait environ autant de gens qui ont mal à la tête parmi ceux qui ont bu la veille que parmi ceux qui n'ont pas bu.

Or nous allons observer une plus grande proportion de gens ayant eu mal à la tête parmi ceux qui ont beaucoup bu la veille que parmi ceux qui n'ont pas bu. Ce résultat ne serait pas impossible si $H_0$ était vraie, le hasard aurait simplement fait qu'on aurait justement questionné en plus grande quantité les gens qui ont bu et mal à la tête. Cependant, la probabilité que ça soit le cas serait extrèmement faible, on aura donc une valeur $p$ très petite (peut-être de l'ordre de 0.01 ou plus petit, en fonction du nombre de personnes qu'on aura interrogé). Ceci nous permettra d'être confiants dans le fait que $H_0$ est fausse, et donc la rejetter.

Une très large portion de la recherche scientifique aujourd'hui est construite sur cette méthodologie. Il y a de gros enjeux dans la conception des expériences pour s'assurer que l'on teste effectivement $H_0$, sans introduire d'autres biais. C'est à cette fin que servent les groupes témoin notamment. Beaucoup de domaines utilisent des valeurs seuil de 5% ou 1% (c'est à dire 0.05 ou 0.01) pour la valeur $p$. Le domaine le plus extrême étant la physique des particules, qui impose des valeurs $p$ de l'ordre de $0.0000003$ pour accepter la découverte d'une nouvelle particule, soit environ une chance sur 3 million !

Le Théorème de Bayes et la connaissance probabiliste

Là où la méthode Fréquentiste essaie de déterminer de manière absolue si une hypothèse $H$ est vraie ou non, l'approche dite Bayésienne, qui tire son nom du Théorème de Bayes que nous allons voir dans un instant, va plutôt essayer d'assigner des probabilités à chaque hypothèse, reflétant notre confiance dans le fait qu'elle est vraie ou non. On veut donc estimer $\mathbb{P}(H | \mathbf{X} = x)$, où $x$ est le résultat d'une expérience. Mais comme vu précédemment les expériences scientifiques nous permettent elles d'estimer $\mathbb{P}(\mathbf{X} = x | H)$. Comment passer de l'un à l'autre ?

Revenons à la définition des probabilités conditionnelles \ref{eq:proba-cond}, on a :

$$ \mathbb{P}(A | B) \mathbb{P}(B) = \mathbb{P}(A \cap B) = \mathbb{P}(B | A) \mathbb{P}(A) \tag{3.1} $$

En réarrangeant les termes, on arrive à :

$$ \mathbb{P}(A | B) = \frac{\mathbb{P}(B | A) \mathbb{P}(A)}{\mathbb{P}(B)} \tag{3.2} \label{eq:th-bayes} $$

Cette égalité, découverte pour la première fois par Thomas Bayes et porte son nom : c'est le Théorème de Bayes.

Si on applique ce résultat à la recherche scientifique, avec une hypothèse $H$ comparée à un résultat d'expérience $\mathbf{X} = x$ par exemple, on peut écrire :

$$ \mathbb{P}(H | \mathbf{X} = x) = \frac{\mathbb{P}(\mathbf{X} = x | H) \mathbb{P}(H)}{\mathbb{P}(\mathbf{X} = x)} \tag{3.3} $$

On peut donc déterminer la probabilité (en tant que mesure de confiance) que $H$ soit vraie sachant qu'on a observé le résultat $\mathbf{X} = x$ si on connait ces trois valeurs :

$\mathbb{P}(\mathbf{X} = x | H)$ : qui est exactement ce que mesure notre expérience
$\mathbb{P}(H)$ : la probabilité que $H$ soit vraie en ignorant le résultat de l'expérience, que l'on nomme également probabilité a priori. Comme son nom l'indique, il s'agit d'un a priori certainement subjectif. Il peut être basé sur le résultat de précédentes expériences qui testaient déjà $H$, ou bien sur notre croyance personnelle dans le fait que $H$ est plausible.
$\mathbb{P}(\mathbf{X} = x)$ : la probabilité que l'on observe $\mathbf{X} = x$, que $H$ soit vraie ou non.

Ce dernier terme n'est pas toujours facile à déterminer, mais on peut le décomposer ainsi (on note $\neg H$ l'hypothèse contraire de $H$) :

\begin{align} \mathbb{P}(\mathbf{X} = x) & = \mathbb{P}(\mathbf{X} = x \cap H) + \mathbb{P}(\mathbf{X} = x \cap \neg H) \ & = \mathbb{P}(\mathbf{X} = x | H) \mathbb{P}(H) + \mathbb{P}(\mathbf{X} = x | \neg H) \mathbb{P}(\neg H) \tag{3.4} \end{align}

Tout dépend alors de notre capacité à évaluer $\mathbb{P}(\mathbf{X} = x | \neg H)$. Parfois c'est simple, mais souvent ça ne l'est pas. Si $H$ est une hypothèse précise, comme « La Terre tourne autour du Soleil », $\neg H$ est alors une hypothèse extrèmement vague : « La Terre ne tourne pas autour du Soleil ». Il y a une infinité de manières de ne pas tourner autour du Soleil, et nous serions bien incapables de toutes les considérer pour estimer $\mathbb{P}(\mathbf{X} = x | \neg H)$

Mais dans ce cas, on peut toujours utiliser la formule de Bayes pour comparer deux hypothèses entre elles. Prenons deux hypothèses $H_1$ et $H_2$, on peut faire le calcul suivant:

$$ \frac{\mathbb{P}(H_1 | \mathbf{X} = x)}{\mathbb{P}(H_2 | \mathbf{X} = x)} = \frac{\mathbb{P}(\mathbf{X} = x | H_1) \mathbb{P}(H_1)}{\mathbb{P}(\mathbf{X} = x | H_2) \mathbb{P}(H_2)} \tag{3.5}$$

Ici le terme $\mathbb{P}(\mathbf{X} = x)$ a disparu du calcul, et si cette formule ne nous permet pas d'évaluer la probabilité d'une hypothèse dans l'absolu, elle nous permet néanmoins d'évaluer la probabilité d'une hypothèse relativement à une autre. Et ce à partir uniquement d'une probabilité a priori relative également !

De cette équation on peut extraire le terme du milieu, qui peut être considéré pour une expérience seule, indépendamment des termes a priori. On nomme ce terme le facteur de Bayes de l'expérience :

$$ K = \frac{\mathbb{P}(\mathbf{X} = x | H_1)}{\mathbb{P}(\mathbf{X} = x | H_2)} \tag{3.5} $$

Si $K > 1$, le résultat de l'expérience est plutôt en faveur de $H_1$, sinon il est plutôt en faveur de $H_2$. Un facteur de Bayes de 10 par exemple nous dit que le résultat de l'expérience est 10 fois plus probable si $H_1$ est vraie que si c'est $H_2$ qui est vraie, alors qu'un facteur de Bayes de 0.1 donnerait le résultat inverse. C'est ce nombre $K$ qui nous dit comment ajuster notre confiance relative de $H_1$ par rapport à $H_2$, permettant de passer du ratio a priori $\frac{\mathbb{P}(H_1)}{\mathbb{P}(H_2)}$ au ratio a posteriori $\frac{\mathbb{P}(H_1 | \mathbf{X} = x)}{\mathbb{P}(H_2 | \mathbf{X} = x)}$, et ce sans jamais avoir à considérer des probabilités absolues, qui nous seraient bien difficiles à estimer.

Il est important de noter que, contrairement à l'approche Fréquentiste, la méthode Bayésienne ne peut jamais asbolument réfuter une hypothèse. On peut arriver à la conclusion qu'une certaine théorie est bien moins plausible qu'une autre, mais jamais affirmer qu'elle est absolument fausse. Le seul moyen qui permettrait d'absolument rejetter une théorie serait une expérience qui soit telle que $\mathbb{P}(\mathbf{X} = x | H) = 0$, une sorte de preuve ultime qu'il serait absolument impossible de remettre en question. Les seules preuves qui nous permettent ce niveau de confiance sont les démonstrations mathématiques, et encore là, c'est une confiance qui est subordonnée aux axiomes que l'on a accepté.

Fréquentiste ou Bayesien, l'éternel débat

La question de savoir laquelle des deux méthodes serait « la bonne méthode » à utiliser est un grand débat qui dure depuis des décennies et n'est certainement pas prêt de terminer. La méthode Bayésienne a des défauts qui sont souvent mis en avant :

Un premier point souvent soulevé contre les méthodes Bayésiennes sont les probabilités a priori, qui sont fondamentallement subjectives et semblent aller à l'encontre du désir d'objectivité scientifique.
L'application de méthodes Bayésiennes est en général plus couteux en calcul et plus compliqué, notamment lorsqu'il s'agit d'estimer ces probabilités a priori.

Mais les Bayésiens peuvent répondre à cette critique : la méthode scientifique fréquentiste a fondamentalement une part interne de subjectivité : le choix de quelles recherches vont recevoir des financements, de quelles expériences seront effectuées ou de quelles théories seront développées sont des choix fondamentalement subjectifs. Dans ce contexte, la méthode Bayesienne décide d'ouvertement assumer cette subjectivité et de l'intégrer au processus de comparaison des hypothèses. De plus, le principe de fixer un seuil de valeur $p$ est également un arbitraire, qui est régulièrement abusé par des pratiques comme le "$p$-hacking", qui parmettent d'artificiellement diminuer la valeur $p$ d'une expérience pour rendre le résultat significatif, et donc plus propice à être publié.

Il est également important de noter que, à la limite où les quantités de données sont très grandes les deux méthodes donnent des résultats très similaires, et la méthode fréquentiste sera souvent plus simple à appliquer.

Si vous voulez plus de détails et d'exemples sur l'application de la méthode Bayésienne, je peux vous recommander les vidéos suivantes :

La vidéo de la chaine Hygiène Mentale : La pensée Bayesienne

Les deux vidéos de Monsieur Phi : La loi de Bayes (1/2) et La loi de Bayes (2/2)

La vidéo de la chaîne Veritasium : The Bayesian Trap (en anglais)

Je vais arrêter ici cet article déjà trop long. Je vous ai proposé ici un tour d'horizon des différentes utilisation des probabilités, en tant que modèle du hasard, de l'information, et de la connaissance. J'espère qu'il vous aura été intéressant.