Le bayésianisme, en pratique ?

Publié le
Temps de lecture : 19 min (3739 mots)

Catégories: Vulgarisation

Ce billet a pour objectif d'analyser les conséquences de l'approche Bayésienne sous un angle plutôt pratique, sur la base d'une expérience de pensée : la conception d'un robot bayésien. Cette angle d'attaque vise à mettre en évidence les difficultés que pose la mise en pratique du Bayésianisme, notamment en termes de ce qu'elle ne dit pas. L'idée étant par la suite de ré-élargir la réflexion en prenant en compte cette analyse focalisée.

Conception du robot bayésien

Je reprends ici l'expérience de pensée développée par Edwin Thompson Jaynes dans son livre Probability Theory, the logic of Science, car elle permet de restreindre l'analyse à une situation claire et bien définie. Nous nous plaçons donc dans un contexte où on veut concevoir un robot bayésien qui a une tâche bien précise à remplir. Cette tâche conciste en deux étapes : d'abord une acquisition d'informations, puis une prise de décision sur la base de l'information acquise.

Le choix du robot (plutôt qu'une personne à qui on donnerait des instructions) n'est pas anodin : le robot n'est pas intelligent, il va simplement exécuter le programme qu'on lui a donné. Ce contexte nous interdit donc de nous reposer sur le « bon sens » d'une personne pour décider : il nous faut tout expliciter.

L'objectif et la décision

La première question sur laquelle il nous faut être clair est : pourquoi ? Pourquoi veut-on acquérir de l'information et l'analyser ? Il s'agit a priori d'agir par la suite, sur la base de cette information. Peu de personnes cherchent à comprendre ce qu'il se passe pour la simple beauté de connaître la Vérité™, il s'agit surtout de se donner les moyens d'agir efficacement.

Dans ce contexte, on va donc se poser des questions du type « Que va-t-il se passer si je fais telle action ? », pour choisir l'action qui correspond le mieux à nos objectifs.

Prenons un exemple concret. Si une personne constate un matin que sa voiture a du mal à démarrer, alors qu'elle avait prévu de partir en vacances le lendemain (en voiture donc). Elle va alors se poser la question « Ma voiture risque-t'elle de tomber en panne pendant mes vacances si je ne l'amène pas au garage avant de partir ? ». Il s'agira là d'arbitrer entre le risque de tomber en panne, et le coût de devoir retarder son départ pour faire vérifier et réparer son véhicule.

Pour formuler ceci en termes plus abstraits, si on note $X$ l'ensemble de ce que l'on a observé et $Y$ l'ensemble de ce qu'on veut prédire pour prendre notre décision, on cherche donc à évaluer $p(Y|X)$. Dans l'exemple précédent, $X$ est « La voiture a du mal à démarrer ce matin. » et $Y$ est « La voiture tombe en panne pendant les vacances. ».

Voilà donc la question d'intérêt sur laquelle va se focaliser ce billet : comment évalue-t-on $p(Y|X)$ en pratique ? Ou plutôt : Comment pourrait-on concevoir un robot qui le ferait pour nous ?

La prédiction Bayésienne

Le principe fondamental du raisonnement bayésien est de considérer les hypothèses dans leur multiplicité. En effet, il peut y avoir plusieurs moyens d'expliquer les observations $X$. Dans l'exemple de la voiture il peut y avoir de nombreuses raisons pour laquelle la voiture peine à démarrer : la batterie peut être presque à plat, ou bien le système d'allumage du moteur peut être endommagé, ou bien tout simplement peut-être faisait-il particulièrement froid dehors. Chacune de ces hypothèses peut mener à des prédictions très différentes sur $Y$, et le raisonnement bayésien nous invite à toutes les prendre en compte.

La théorie des probabilités nous dit que notre prédiction finale $p(Y|X)$ peut se décomposer comme une somme sur toutes les hypothèses considérées ($H_1, H_2, \dots, H_N$) du produit de deux termes1:

  • La probabilité de cette hypothèse sachant les observations $p(H_i | X)$
  • La prédiction faite sous cette hypothèse $p(Y|H_i, X)$ (qui peut dépendre ou non des observations $X$)

Donnant finalement :

\begin{equation} p(Y|X) = \sum_i p(Y | H_i, X) p(H_i | X) \end{equation}

On peut voir cette somme comme étant la moyenne des prédictions de toutes les hypothèses, pondérées par les probabilités de chaque hypothèse dans le contexte actuel.

Pour rester sur l'exemple de la voiture, dans le cadre de l'hypothèse « la batterie était presque à plat », en fonction de l'âge de la batterie (qui peut faire partie des observations $X$), on va pouvoir considérer ça soit comme un incident passager (on a pu laisser une lumière allumée dans la voiture ?) soit comme un signe que la batterie est en fin de vie et doit être changée. Ces deux interprétations donnent une prédiction très différente sur le risque de panne si rien n'est fait, et sur comment résoudre le problème.

La probabilité $p(H_i | X)$ est ici le classique a-posteriori du raisonnement Bayésien, issu du théorème de Bayes :

\begin{equation} p(H_i | X) = \frac{p(X | H_i) p(H_i)}{p(X)} \end{equation}

Qui permet de ré-équilibrer les hypothèses entre elles en fonction de la probabilité a priori qu'on leur donne, $p(H_i)$, et de leur adéquation aux données $p(X | H_i)$.

Pour pouvoir concevoir notre robot à calculer $p(Y|X)$ pour un problème donné, il va donc nous falloir spécifier :

  • la liste des hypothèses d'intérêt $H_1, H_2, \dots, H_N$
  • une probabilité a priori sur ces hypothèses, $p(H_1), p(H_2), \dots, p(H_N)$
  • Et, pour chaque hypothèse $H_i$ :
    • Une procédure pour calculer la vraisemblance des données $p(X|H_i)$
    • Une procédure pour calculer la prédiction, $p(Y | H_i, X)$

Voilà ce qui définit intégralement un raisonnement Bayésien de décision. Chacun de ces éléments mérite qu'on s'y arrête pour l'analyser, et comprendre les compromis qui le contraignent.

Les hypothèses d'intérêt

Cette question est à la fois la première à poser, et la plus difficile à clore. « Quelles sont les hypothèses que l'on doit considérer ? ».

Du point de vue du raisonnement Bayésien pur, la réponse est immédiate : « Toutes ». Mais d'un point de vue pratique, il est bien sûr impossible de toutes les considérer : nous n'avons pas un temps de calcul infini à notre disposition. Mais l'idée reste : il faut en considérer autant que possible.

Les facteurs limitant sont ici d'une part nos capacités de calcul (on a probablement pas le temps ni les moyens de considérer des milliers d'hypothèses), et d'autre part notre imagination, guidée par notre connaissance de la question d'intérêt.

En restant sur l'exemple de la voiture, quels sont tous les problèmes possibles qui pourraient causer des difficultés de démarrage ? Mes connaissances en mécanique peuvent me guider pour les lister, ainsi que mon expérience passée de précédentes pannes que j'ai pu rencontrer, ou le conseil de connaissances qui ont pu en recontrer d'autres. Aucune hypothèse n'est à dénigrer (sauf si elle est clairement hors sujet).

Il convient également de considérer le degré de détail à considérer pour les hypothèses. Si ma question est de savoir si je devrais amener ma voiture au garage, l'hypothèse générale « C'est un problème avec le moteur » est pertinente à considérer. Là où la garagiste va plutôt considérer plusieurs hypothèses sur la pièce exacte qu'il faudra changer pour réparer ma voiture.

En résumé, il s'agit de considérer le plus d'hypothèses possible, dans la limite des capacités de calcul qu'on a à disposition, et avec des hypothèses dont le degré de précision est adapté à la décision qu'on veut prendre.

L'a priori sur les hypothèses

Une fois déterminé l'ensemble des hypothèses d'intérêt, il faut se poser la question des probabilités a priori à leur assigner. Pour cela, plusieurs possibilités s'offrent à nous.

Tout d'abord, si rien ne peut nous pousser à privilégier une hypothèse par rapport aux autres a priori, alors il convient de simplement leur assigner toutes la même probabilité:

\begin{equation} p(H_1) = p(H_2) = \dots = p(H_N) = \frac{1}{N} \end{equation}

Sinon, si les hypothèses correspondent à des évènements qui ont lieu dans la réalité, on peut calibrer ces probabilités a priori sur les fréquences d'arrivée de chaque évènement. Par exemple, dans le cas de la garagiste qui cherche à identifier la cause de la panne, son a priori pourra être calibré sur la fréquence à laquelle chaque pièce du moteur peut être la cause d'une panne.

Il est difficile de donner des méthodes plus précises pour fixer les probabilités a priori, et si on veut une approche plus précise il faut souvent considérer au cas par cas, si on a des raisons de croire que certaines hypothèses sont plus probablement vraies que d'autres avant même d'avoir observé $X$.

Un exemple particulièrement a propos est celui du test de dépistage d'une maladie2, qui est souvent utilisé pour illustrer l'importance de l'a priori Bayésien. Le principe de cet exemple est de montré que même avec un test avec de très bonne qualité donnant un résultat positif, si l'a priori sur le fait d'être malade est très faible initiallement, même après le test, la prédiction bayésienne sur le fait d'être malade reste plutôt faible.

Cet exemple calibre ici ses probabilités a priori sur les fréquences d'apparition de la maladie dans la population. Mais ce faisant, il passe sous silence une information crutiale à la définition de cet a priori : « Pourquoi a-t-on passé le test ? ». Le raisonnement de l'exemple est correct si on est dans le contexte d'une large campagne de dépistage, et qu'on invite tout le monde à passer le test.

Mais si au contraire, je suis dans un cas où c'est mon médecin traitant qui m'envoie le passer, alors je dois prendre cette information en compte dans mon a priori : mon médecin ne m'envoie pas le passer au hasard, mais pour confirmer une suspicion. Il a probablement perçu des symptômes qui suggèrent cette maladie, ma probabilité de l'avoir avant de passer le test est donc déjà significativement plus élevée que la fréquence d'apparition de la maladie dans la population.

Le choix des probabilités a priori n'est pas anodin, et se doit d'être soigneusement réfléchi.

La modélisation de chaque hypothèse

Il s'agit ensuite de modéliser chaque hypothèse. Ce modèle peut être plus ou moins formel et mathématisé. Son objectif est de spécifier deux procédures, une calculant la vraisemblance des observations $p(X|H_i)$, et une calculant la probabilité de prédiction $p(Y | H_i, X)$.

Cette étape est souvent la plus longue et fastidieuse. Il s'agit, considérant une hypothèse $H_i$, qui fixe un cadre de réflexion, d'évaluer à quel point une observation $X$ est suprenante ou non, et, sachant ces observation, de prédire la valeur de $Y$.

Par exemple, toujours dans le cas de la voiture, si on modélise l'hypothèse de savoir si la batterie serait en fin de vie, on prendra en compte parmi les observations $X$ des informations comme l'âge de la batterie, ou la question de savoir si le voyant d'alerte batterie s'allume sur le tableau de bord.

Mais il faut également prendre en compte l'incertitude d'observation dans cette modélisation. En effet, il se peut que $X$ prenne une valeur très inattendue dans le cadre de $H_i$ simplement parce que l'observation a été mal faite, ou est imprécise. Par exemple, peut-être que je ne me souviens plus clairement quand ma batterie a été changée pour la dernière fois, ou peut-être que le voyant du tableau de bord est également cassé, et n'est pas allumé alors qu'il aurait dû.

Il y a donc de nombreuses sources d'incertitude, et il faut à cette étape les énumérer, les qualifier, et les quantifier autant que possible. Sous-estimer l'incertitude liée à l'observation est une erreur courante, qui résulte en une prédiction bayésienne généralement moins prudente qu'elle devrait être.

Cette analyse appuyée sur les calculs probabilistes nous montre quelque chose d'important : si le raisonnement bayésien est un outil puissant, il demande une grande rigueur a priori dans la spécification du problème. L'adage « Garbage In, Garbage Out » de l'informatique représente bien cette idée. La qualité d'une prédiction bayésienne ne peut pas être meilleure que la qualité des information qui y sont entrées. Tout ce que nous garantissent les mathématiques, c'est que le raisonnement Bayésien est celui qui va le mieux préserver cette qualité.

Au delà du robot

Cet exercice de pensée sur la conception d'un robot nous aide à comprendre les prérequis au raisonnement Bayésien, mais ne peuvent pas se transposer tels quels à notre vie de tous les jours. En effet, nous ne faisons pas de calculs mathématiques pour prendre nos décisions, et ce serait de toute façon impossible dans la grande majorité des cas ! Néanmoins, nous pouvons nous inspirer des prérequis que nous avons précédemment identifiés pour nous guider.

Raisonnement probabiliste

Le point qui est le premier mis en avant quand on parle de Bayésianisme appliqué à la vie courante est généralement celui d'apprendre à raisonner en termes de probabilités, et non d'absolus. De se construire une sorte de "machine Bayésienne mentale", et de s'efforcer de l'utiliser le plus possible dans nos raisonnements.

Cependant, un certain nombres d'indices me laissent penser que nous sommes déjà intuitivement familières et familiers des raisonnements probabilistes. Déjà, le fait que notre langage courant contienne plusieurs termes et expressions marquant les différents degrés de certitude : « je pense que », « j'en doute », « certainement », « peut-être », … Mais ensuite, je pense que l'exemple précédent de la voiture a pu vous sembler assez naturel. Il s'agit pourtant d'un cas typique de raisonnement probabiliste !

On aurait donc déjà tous et toutes, dans la tête, une machine vaguement Bayésienne. Je dis « vaguement », car les calculs Bayésiens exacts sont en général très complexes à faire, même avec des ordinateurs. Il serait donc illusoire d'espérer les faire de tête. On a donc probablement une approche intuitive approximativement Bayésienne. Le résultat n'est pas exact, mais est suffisament correct pour nous être utile dans la vie de tous les jours.

La voie vers le Bayésianisme serait-elle alors d'entraîner cette machine mentale, pour la rendre plus précise, pour faire de meilleures prédictions ? Je n'en suis pas convaincu. Comme dit à l'instant, les calculs Bayésiens sont très vite très complexes, vouloir apprendre à les faire de tête intuitivement est vain.

Dans une optique pratique, il y a je pense plus à gagner à s'assurer que ce qu'on donne à manger à cette machine vaguement Bayésienne soit de bonne qualité, plutôt que d'essayer d'améliorer la machine elle-même. Si on a besoin de calculs précis (dans un cadre scientifique par exemple), on peut faire appel aux ordinateurs pour les faire pour nous. L'idée serait donc de privilégier un calcul approximatif sur de bonnes informations à un calcul précis sur des informations incomplètes.

La première partie de ce billet nous avait permis d'identifier quelles sont les informations qu'il faut donner à un robot Bayésien pour qu'il puisse faire sa prédiction. Dans la suite du billet je vais donc me focaliser sur l'identification de l'équivalent intuitif que l'on peut s'efforcer de donner à notre machine bayésienne mentale.

Incertitude et excès de confiance

Il y a, dans l'analyse du robot, deux étapes que l'on peut identifier comme propices à l'excès de confiance : le choix des hypothèses, et la modélisation de l'observation.

Pour le choix des hypothèses, cet excès de confiance consiste donc à ne pas considérer suffisament d'hypothèses explicatives, voire à se contenter d'une seule hypothèse. Si l'on veut rendre nos raisonnements plus robustes, il est nécessaire de considérer autant d'hypothèses que possible, autant de points de vue que possible. Et ce, pour la simple et bonne raison qu'on ne peut pas savoir à quoi on n'a pas pensé !

Ce genre de situations, où l'on a plusieurs hypothèses à considérer, est en réalité très courant. Un exemple simple est l'interprétation des propos des autres, en particulier sur internet, où on a en général assez peu de contexte. Ce message est-il au premier degré ? De l'ironie ? Du sarcasme ? Si on veut être prudent dans sa réponse, on peut considérer toutes ces options à la fois, plutôt que de décider laquelle serait la bonne et s'appuyer uniquement sur cette interprétation pour répondre.

Dans cette optique, je voudrais également revenir sur des principes comme le Rasoir d'Ockham ou le Rasoir de Hanlon. Ces principes sont souvent utilisés comme un moyen de se débarasser d'hypothèses au profit d'autres. Dans l'optique de la prudence Bayésienne, il est raisonnable d'invoquer ces principes pour justifier des probabilités a priori différentes, mais pas pour complètement se refuser de considérer une hypothèse. Par exemple, le rasoir de Hanlon peut être invoqué pour justifier un choix comme $p(Malveillance) = 0.05$, mais pas pour décider que $p(Malveillance) = 0$. Refuser de considérer une hypothèse, c'est affirmer que quelque soit la quantité d'arguments et de preuves en sa faveur que l'on reçoit, on la considèrera toujours comme fausse, ce qui n'est absolument pas l'esprit de ces « Rasoirs ».

Le deuxième risque de mauvaise calibration de la confiance est dans l'évaluation d'à quel point une hypothèse donnée explique bien les observations. Il s'agit notamment du risque de trop faire confiance à l'information que l'on a obtenue, sans considérer l'incertitude liée à la manière dont cette information a été obtenue. Le classique « Un témoignage n'est pas une preuve » est dans cette veine, mais il s'agit également de questionner des sources que l'on considère en général comme dignes de confiance, comme les statistiques.

Par exemple, si on s'intéresse aux statistiques sur le chômage, il s'agit de se demander quelle définition précise du chômage a été utilisée pour collecter ces données, si cette définition est restée la même tout le long, ou bien si elle a été changée en cours de route. Ce genre d'information est indispensable pour correctement les interpréter, et si on ne l'a pas, il faut calibrer notre incertitude en conséquence3.

Notons que, pour ce qui est des observations, on peut également tomber dans le travers inverse, et faire trop peu confiance aux observations. Ce serait par exemple l'application de « Un témoignage n'est pas une preuve » à l'excès, en refusant de donner le moindre poids aux témoignages, même lorsqu'ils s'accumulent en grand nombre. Par exemple, même s'ils ne sont pas une preuve solide de la réalité de ce qu'ils affirment, l'existence même de témoignages est une information à considérer, qui peut par exemple nous amener à considérer d'autres hypothèses $H_i$ que l'on avait pas envisagées jusqu'à maintenant.

En résumé il s'agit de garder à l'esprit des questions comme « Ai-je sérieusement considéré toutes les explications possibles ? » ou « À quel point puis-je faire confiance à ces informations ? ». Et garder à l'esprit que la réponse à ces questions n'est jamais un simple oui/non, mais doit être nuancée et justifiée.

Le raisonnement en modèles

Cette mutiplicité d'hypothèses et le besoin, pour chaque hypothèse, d'évaluer d'une part à quel point elle explique bien les observations $p(X|H_i)$, et d'autre part les prédictions qu'elle fait concernant ce qui nous intéresse $p(Y|H_i, X)$ peut notamment mener à raisonner en termes de modèles.

J'utilise le terme « modèle » ici dans un sens assez large, pour désigner l'ensemble du raisonnement visant à qualifier ces deux éléments. Comme vu précédemment, la qualité des prédictions Bayésiennes d'ensemble dépend donc fortement de la qualité de chacun de ces modèles. Il est donc nécessaire de prendre le temps de considérer, pour chaque hypothèse, la manière dont elle intéragit avec les observations et les prédictions d'intérêt.

L'exercice de la modélisation est intéressant en ce que, l'hypothèse d'intérêt y est alors considérée comme "vraie" par hypothèse, justement. Il s'agit là alors de totalement se détacher de notre croyance pré-existante dans sa véracité le temps de l'analyse, et de renouveller l'exercice pour chaque hypothèse considérée. C'est je pense un principe à mettre en relation avec la « suspension du jugement » promue dans les cercles de l'esprit critique : l'évaluation de l'adéquation d'une hypothèse aux observations est faite indépendamment de sa probabilité a priori.

Une fois positionné dans ce cadre où on a supposé l'hypothèse vraie, il s'agit alors d'explorer les conséquences de cette supposition. Si $H_i$ est vraie, alors que doit-on légitimement s'attendre à observer ? Serait-il possible d'observer $X$ ? Serait-il possible d'observer seulement $X$ ? La non-observation de quelque chose est une information importante également. Si l'hypothèse explique nos observations, mais implique également d'autres choses que l'on a pas observées, il faut alors se demander pourquoi on ne les a pas observées. Est-ce simplement parce qu'on ne les a pas cherchées, ou bien aurait-on du les observer ? Dans le second cas, c'est un agument contre le fait que l'hypothèse a un bon pouvoir explicatif.

Le raisonnement par modèles nous invide donc à considérer l'ensemble des conséquences de chaque hypothèse. Cet étape est nécessaire pour évaluer tant son adéquation aux observations que sa prédiction. Typiquement, dans des situations complexes comme pour les problématiques politiques ou sociales, les conséquences envisageables d'une hypothèse peuvent être difficiles à envisager clairement, avec différents mécanismes allant dans des directions opposées, et dont il faut juger les impacts relatifs.

Conclusion

Les enseignements auxquels cette analyse arrive (considérer sérieusement toutes les hypothèses, analyser en détail toutes les implications de chacune, et les évaluer chacune en mettant ses a-priori de côté temporairement) apparaissent finalement assez communs vis-à-vis de ce qu'on considère généralement comme étant de l'honnêteté intellectuelle. C'est rassurant en soit !

Comme mot de la fin, je voudrais ré-appuyer une dernière fois sur cet aspect : le meilleur raisonnement Bayésien du monde reste limité à la qualité des informations qui lui sont fournies. Nous avons donc probablement plus à gagner à améliorer la qualité de ce que l'on donne à notre « machine à raisonner » qu'à essayer d'améliorer la machine elle-même.

Il ne s'agit pas tant d'apprendre à « bien penser » que d'apprendre à ouvrir les yeux sur les autres points de vue, les autres explications, et à sérieusement considérer leurs conséquences.

1

Pour une rigueur maximale, chaque hypothèse $H_i$ doit être incompatible avec les autres. On doit donc traiter $H_i$ comme une explication complète et exhaustive. Pour rester sur l'exemple de la voiture, on pourrait avoir $H_1$ : « la batterie est presque à plat », $H_2$ : « il fait froid dehors », et $H_3$ : « la batterie est à plat ET il fait froid dehors ». Les combinaisons d'hypothèses sont des hypothèses à part entière.

2

Voir par exemple la vidéo de MrPhi qui détaille cet exemple : LA LOI DE BAYES (1/2) - Argument frappant #3

3

Pour une réflexion plus poussée sur l'interprétation des statistiques, je vous invite à voir la vidéo de Patchwork: Un regard mesuré sur les statistiques.