Bayésianisme et démarche scientifique
Dans le billet précédent, j'ai exploré quelques conséquences pratiques que l'on peut tirer du Bayésianisme au delà de la « pensée probabiliste ». Ce billet s'inscrit à sa suite, avec pour objectif de mettre le Bayésianisme en parallèle avec les démarches scientifiques, afin d'illustrer comment les deux se rejoignent quand il s'agit de passer à la pratique. Ce billet va donc se centrer autour de deux questions liées aux limites de nos capacités pratiques : quelles hypothèses ou théories priviléger ou laisser de côté, et comment focaliser notre démarche d'observation et d'expérimentation ?
Retour sur l'aggrégation de modèles
Tout d'abord, je voudrais revenir sur un des deux points centraux du billet précédent : l'aggrégation de modèles. Nous y avions vu que le formalisme Bayésien nous incite à faire des prédictions sous la forme d'une moyenne pondérée des prédictions de plusieurs modèles ou théories, que nous avions symbolisé par cette équation :
\begin{equation} p(Y | X) = \sum_i p(Y | X, T_i) p(T_i | X) \end{equation}
Où pour rappel, $Y$ représente la grandeur que l'on veut prédire, $X$ représente les observations que l'on a à notre disposition, et $T_1, \dots, T_n$ représentent les différentes théories que l'on considère.
On avait alors mis l'accent sur l'importance d'avoir une variété aussi large que possible parmi les théories $T_i$ que l'on considère, dans la limite de nos capacités disponibles.
Un exemple concret avec la météo
On peut donner un exemple concret de l'application de ce principe d'aggrégation : il s'agit des prévisions météorologiques. En effet, ces prévisions s'appuient sur plusieurs simulations numériques différentes, basées d'une part sur plusieurs modèles mathématiques différents (travaillant par exemple à plusieurs échelles), et d'autre part sur le fait d'exécuter ces modèles sur des données initiales légèrement différentes (afin de prendre en compte l'incertitude que l'on a sur nos mesures actuelles).
L'indice de confiance est alors un score qui représente à quel point ces différentes simulations numériques donnent des résultats similaires ou non. Si toutes aboutissent à la même prédiction, on a alors une bonne confiance dans la qualité de la prédiction. Si au contraire les modèles sont en désaccord les uns avec les autres, alors nous sommes beaucoup plus prudents, et l'indice de confiance est beaucoup plus faible.
Il ne s'agit donc pas d'une application à la lettre de l'équation précédente, mais l'esprit y est bien présent : on a plusieurs modèles, et on aggrège leurs résultats afin de donner notre prédiction finale, sous la forme d'un bulletin météo accompagné d'un indice de confiance.
Cette situation est bon exemple de ce que je souhaite mettre en avant dans ce billet : non pas l'application à la lettre des équations Bayésiennes dans les démarches scientifiques, mais plutôt l'utilistion de méthodes et de principes qui suivent l'esprit de ces équations.
Domaines d'application des modèles
L'équation précédemment citée de l'aggrégation de modèle manque néanmoins d'une nuance notable, que je préfère prendre le temps d'ajouter ici : elle dépend fortement du contexte. Pour être rigoureux, je la reformulerais ainsi, en ajoutant un terme $C$ représentant le contexte dans lequel on veut l'appliquer :
\begin{equation} p(Y | X, C) = \sum_i p(Y | X, T_i) p(T_i | X, C) \end{equation}
Ce contexte $C$ représente la question à laquel on veut répondre et le domaine de connaissance dans lequel elle s'implique. Si ce contexte n'affecte pas les prédictions des modèles eux-mêmes, il va néanmoins largement affecter la confiance que l'on va accorder a priori à chacun.
En effet, chaque modèle, chaque cadre théorique, repose sur des hypothèses. Et selon le contexte, ces hypothèses sont plus ou moins légitimes ou pertinentes. Toujours sur l'exemple de la météo, on ne va pas privilégier les mêmes modèles en fonction de si l'on cherche à prédire la météo à 3 jours dans une région de France ou la tendance au mois à l'échelle de l'Europe, ou encore selon si on veut prédire la météo marine ou la météo en montagne.
Et bien sûr, ces modèles où théories peuvent aussi être tout simplement hors-sujet en fonction du contexte : on ne va pas invoquer la Relativité Générale pour étudier la résistance mécanique d'une pièce de métal dans un train.
On voit donc que la comparaison que l'on peut faire entre nos hypothèses, modèles, et théories ne peut pas être absolue et générale. Elle doit au contraire dépendre du contexte ponctuel dans lequel on veut les appliquer, et du type de prédiction que l'on souhaite faire. La recherche scientifiques semble donc être non pas de déterminer quels modèles sont vrais dans l'absolu, mais lesquels sont appliquables dans quel contexte.
Ça n'exclut bien sûr pas que certaines théories aient des domaines d'applicabilité beaucoup plus larges que d'autres, mais ce n'est pas parce qu'on a maintenant la Mécanique Quantique et la Relativité Générale que la Mécanique de Newton a été abandonnée pour autant : il y a de nombreux domaines où son pouvoir prédictif reste très pertinent, et où elle est beaucoup plus facilement appliquable que ces deux autres théories.
Faire le tri parmi les modèles
Ce faisant, on peut mettre en parallèle une partie de la recherche scientifique avec le fait d'obtenir et d'assimiler de nouvelles données $X$ afin de raffiner les probabilités contextuelles que l'on associe à chaque théorie, $p(T_i | X, C)$. Un autre aspect crutial est, bien sûr, l'élaboration de nouvelles théories, de nouveaux modèles, et l'étude de leurs prédictions (qui l'on peut assimiler avec le fait de trouver de nouveaux $T_i$ et comment calculer $p(Y|T_i, X)$), mais ces questions sont globalement hors de portée du Bayésianisme, je me focaliserai donc sur le premier aspect dans la suite de ce billet.
Quand en mettre de côté, quand les reconsidérer ?
Une difficulté que l'on rencontre rapidement est que les chercheurs et chercheuses ont rarement, en pratique, les moyens d'analyser et tester expérimentalement toutes les théories potentielles : il y en a bien trop. Il est donc nécessaire de choisir des modèles à privilégier, et d'autres à mettre de côté. Et de là, se pose également une question subsidiaire : peut-on se rendre compte si un modèle a été mis de coté à tord, et devrait finalement être ré-intégre au processus de recherche actif ?
Pour répondre à ces questions, regardons d'abord de plus près le processus du Théorème de Bayes. Partant d'une proabilité a-priori $p(T_i)$ sur les hypothèses, on obtient leurs probabilités a-posteriori $p(T_i|X)$ en multipliant la probabilité de chaque hypothèse par son adéquation aux données $p(X | T_i)$, puis en renormalisant les probabilités pour que leur somme reste à 1.
\begin{equation} p(T_i | X) \propto p(X | T_i) p (T_i) \end{equation}
Le terme d'adéquation aux données $p(X | T_i)$ est une probabilité également, et donc un nombre entre 0 et 1. On peut alors reformuler le Théorème de Bayes de cette manière : chaque théorie voit sa probabilité pénalisée selon son inadéquation aux données. On réduit les probabilités de toutes les théories, et ce d'autant plus qu'elles s'accordent mal aux observations.
Gardons ceci en tête et prenons un exemple. Imaginons que, dans la situation qui nous intéresse, deux modèles $T_1$ et $T_2$ regroupent à eux deux la quasi-totalité de notre probabilité a-priori. Le 3e modèle le plus crédible, $T_3$, ayant une probabilité 100 fois plus faible. Dans ce contexte, il semble raisonnable de focaliser nos efforts sur le fait de départager $T_1$ et $T_2$. Déterminer dans quels contextes l'un est plus approprié que l'autre, par exemple.
Mais si un jour, on découvre une observation $X$ pour laquelle les adéquations $p(X|T_1)$ et $p(X | T_2)$ sont très faibles, par exemple de l'ordre de $0.01$. Alors l'application du théorème de Bayes réduirait les probabilités de ces deux théories à un niveau qui serait comparable à notre a-priori sur $T_3$ ! Il est alors nécessaire d'évaluer également $p(X | T_3)$, afin de savoir si $T_3$ garde malgré tout une probabilité a-posteriori très faible, ou si on a trouvé un nouveau contexte dans lequel $T_3$ est plus pertinente que $T_1$ ou $T_2$.
Dit autrement, on focalise nos efforts sur $T_1$ et $T_2$, jusqu'à ce qu'on rencontre des situations ou des observations qui sont suffisament en inadéquation pour nous faire considérer une autre piste. Bien sûr, $T_3$ n'est pas nécessairement une théorie profondément différente de $T_1$ et $T_2$, il peut simplement s'agit d'une nouvelle variation de ces théories, avec de petits changements. Ici, chaque $T_i$ représente l'ensemble de toutes les hypothèses de travail qui sont considérées.
Par exemple, dans le cas historique de la découverte de Neptune, on pourrait dire qu'il y avait jusqu'alors un unique modèle majoritaire $T_1$ : « Il y a 7 planètes et leurs orbites sont gouvernées par les lois de Newton », et que l'inadéquation de ce modèle avec les observations de l'orbite d'Uranus ont fait sombrer sa probabilité au profit d'un second modèle $T_2$ : « Il y a 8 planètes et leurs orbites sont gouvernées par les lois de Newton ». On s'est mis à sérieusement considérer $T_2$ parce que $T_1$ avait suffisament été pénalisée par son inadéquation aux observations.
On voit donc qu'on retrouve ici un comportement qui semble assez naturel : on se focalise sur les modèles les plus crédibles, jusqu'à ce que les observations soient suffisament en désaccord avec elles pour rendre de nouveaux modèles pertinents. C'est un comportement qu'on peut mettre en parallèle avec la maxime de Sherlock Holmes : « Lorsque vous avez éliminé l’impossible, ce qui reste, si improbable soit-il, est nécessairement la vérité. ».
Et le Rasoir d'Ockham ?
Le raisonnement de la partie précédente a cependant encore un trou : l'a-priori initial. En effet, quand on avance dans l'étude d'un modèle ou d'une théorie, on utilise à chaque étape comme a-priori le résultat de l'étape précédente. Ceci permet à la fin d'avoir une probabilité a-posteriori qui intègre toutes les observations. Mais qu'en est-il de l'a-priori initial ? Celui que l'on doit avoir avant la moindre observation ? Il nous est nécessaire pour pouvoir faire ce tri entre les modèles, et les prioriser !
Parmi les outils pour faire ce tri entre les modèles, un grand classique est le « Rasoir d'Ockham ». C'est un principe qui stipule qu'il faut privilégier les modèles qui font le moins d'hypothèses et/ou ont les hypothèses les plus simples, les moins improbables.
Ce principe s'inscrit en fait très naturellement dans notre raisonnement Bayésien. En effet, un modèle $T$ est, par définition, l'ensemble des propositions qui découlent logiquement des hypothèses qui le sous-tendent. Notons $H_1, H_2, \dots H_K$ ces hypothèses. Or, parmi les règles fondamentales des probabilités, on a que si deux propositions logiques sont équivalentes, alors leurs probabilités sont nécessairement les mêmes. C'est une règle de cohérence.
On peut donc en déduire pour notre a-priori que : $p(T) = p(H_1, H_2, \dots H_k)$. Si on considère les hypothèses dans l'ordre dans lequel il est nécessaire de les faire pour développer le modèle, on peut décomposer cette probabilité ainsi :
\begin{equation} p(T) = p(H_1) p(H_2 | H_1)p(H_3 | H_1, H_2) \dots p(H_k | H_1, \dots H_{k-1}) \end{equation}
La probabilité a-priori qu'on assigne à un modèle $T$ est donc le produit des probabilités de chacune de ses hypothèses. En particulier, chacune de ces probabilités est plus petite que 1, donc plus le nombre d'hypothèses est grand, plus leur produit total sera proche de 0. De même, si une des hypothèses est très extravagante, sa probabilité sera proche de 0, pénalisant la probabilité du modèle dans son ensemble. On retrouve bien les principes du Rasoir d'Ockham ! Mais tout comme lui, notre raisonnement Bayésien ne nous dit pas comment déterminer quelles hypothèses sont probables, et lesquelles ne le sont pas. C'est une question complexe qui n'admet pas de réponse générale, et est plutôt traitée au cas par cas, dans chaque discipline1.
On arrive donc finalement à une démarche pragmatique pour faire le tri entre les modèles et les confronter à la réalité : on commence avec les théories les plus simples selon le Rasoir d'Ockham, et on va petit-à-petit rajouter des théories plus complexes à celles sur lesquels on fait de la recherche active au fur et à mesure que les simples font apparaître leurs inadéquations aux observations empiriques.
Ça ressemble beaucoup à la vision classique qu'on peut avoir de la démarche scientifique, non ?
Néanmoins, on garde deux nuances importantes qui sont parfois ommises de la vulgarisation sur la démarche scientifique. Tout d'abord, aucune théorie n'est jamais déclarée « Vraie » ou « Fausse ». On a juste un ensemble de théories qui sont plus ou moins prometteuses à un moment donné dans un contexte donné. Mais cette gradation est toujours susceptible de changer, au gré des nouvelles observations. Ensuite, comme souligné dans le billet précédent, si à un moment donné plusieurs théories sont prometteuses, alors il est pertinent de toutes les utiliser en même temps pour faire des prédictions pratiques, plutôt que d'en choisir une arbitrairement.
Choisir ses observations efficacement
Si on a maintenant une vision plus claire de comment gérer les différentes théories et modèles que l'on peut considérer, une question similaire se pose pour les observations. En effet, nous n'avons pas les capacités ni le temps de faire toutes les expériences, d'observer tout ce que l'on peut observer. Il nous faut donc une méthode pour prioriser l'observation !
Une intuition qui peut nous venir, c'est que l'on a envie de faire en priorité les expériences qui vont nous apporter le plus d'information. Celles qui sont le plus suceptibles de changer nos connaissances (que ce soit en les confirmant fortement, ou en les remettant en question). Essayons de formaliser un peu ceci a l'aide des probabilités.
Note : dans la suite j'utilise le terme « expérience » pour désigner tout processus d'acquisition d'information. Ça peut être une expérimentation au sens classique du terme, mais également un essai clinique, un sondage, une interview, etc…
Incertitude, entropie et gain d'information
Dans le cadre des probabilités, il existe une fonction qui a un rôle assez central : l'entropie. Il s'agit d'un nombre que l'on peut calculer pour une distribution de probabilités, et ce nombre représente la « quantité d'incertitude » contenue dans cette distribution.
Par exemple, si notre a-priori sur les différentes théories est représenté par la distribution $p(T)$ (donc, l'ensemble des valeurs $p(T_1), p(T_2), \dots p(T_k)$), l'entropie de cette distribution sera :
\begin{equation} H(T) = - \sum_i p(T_i) \log p(T_i) \end{equation}
Et de manière similare, après avoir observé $X$, on peut calculer l'entropie de notre a-posteriori sur les théories :
\begin{equation} H(T | X) = - \sum_i p(T_i | X) \log p(T_i | X) \end{equation}
La différence entre ces deux valeurs $\Delta H(T | X) = H(T) - H(T| X)$ mesure donc de combien notre incertitude s'est réduite suite à l'observation de $X$. Ou bien dit autrement, la quantité d'information que l'observation $X$ nous a apporté.
Pour être le plus efficace possible, il faudrait donc privilégier les expériences qui nous permettent d'avoir un gain d'information $\Delta H$ le plus grand possible ! Malheureusement, on ne peut calculer ce gain d'information qu'une fois le résultat $X$ de l'expérience connu.
Pour aller plus loin, il va nous falloir considérer les prédictions faites par nos théories. Notons $X_1, X_2, ... X_N$ les différents résultats possibles que pourrait avoir une expérience donnée. Comme vu précédemment, notre prédiction sur chacun de ces résultats possibles prend la forme :
\begin{equation} p(X_j) = \sum_i p(X_j | T_i) p(T_i) \end{equation}
Partant de là, on peut construire ce que je nommerais le gain d'information espéré de l'expérience, en faisant la moyenne du gain d'information pour chaque résultat possible $\Delta H(T | X_j)$ pondérée par la probabilité de ce résultat :
\begin{equation} \widetilde{\Delta H} = \sum_j \Delta H(T | X_j) p(X_j) \end{equation}
Cette grandeur représente la quantité d'information que l'on s'attend à gagner en faisant cette expérience, et c'est donc ceci que l'on va essayer d'utiliser comme critère !
Malheureusement, ceci est encore très abstrait, et on va devoir manipuler cette formule un peu plus avant de pouvoir en tirer une conclusion interprétable.
l'incertitude des prédictions comme critère de choix
Il se trouve que, ce gain d'information espéré peut être reformulé d'une autre manière, sous la forme d'une autre différence d'entropie :
\begin{equation} \widetilde{\Delta H} = H(X) - \sum_i H(X | T_i) p(T_i) \end{equation}
Pour les personnes intéressées, voilà la démonstration :
Démonstration (cliquez pour ouvrir)
On part de la définition, en développant complètement les termes :\begin{align} \widetilde{\Delta H} &= \sum_j \left(H(T) - H(T | X_j)\right) p(X_j) \ &= H(T) + \sum_{i, j} p(X_j)p(T_i | X_j) \log p(T_i | X_j) \ &= H(T) + \sum_{i, j} p(X_j, T_i) \log \frac{p(X_j|T_i)p(T_i)}{p(X_j)} \ &= H(T) + \sum_{i, j} p(X_j, T_i) \left(\log p(X_j | T_i) + \log p(T_i) - \log p(X_j) \right) \ &= H(T) + \sum_i p(T_i) \sum_j P(X_j | T_i) \log(X_j | T_i) \ &\quad \quad + \sum_i p(T_i) \underbrace{\left(\sum_j p(X_j | T_i)\right)}{= 1} \log p(T_i) \ &\quad \quad - \sum_j p(X_j) \underbrace{\left(\sum_i p(T_i | X_j)\right)}{=1} \log p(X_j) \ &= \underbrace{H(T) - H(T)}_{=0} + H(X) - \sum_i p(T_i) H(X | T_i) \ \end{align}
Cette seconde forme est également interprétable : $H(X | T_i)$ représente l'incertitude de la prédiction que fait le modèle $T_i$ pour l'expérience d'intérêt, et $H(X)$ représente l'incertitude de la prédiction aggrégée sur l'ensemble des modèles considérés.
Pour avoir un grand gain d'information espéré, il faut donc que $H(X)$ soit beaucoup plus grand que $\sum_i H(X | T_i) p(T_i)$.
Il s'agit donc d'une part de choisir une expérience sur laquelle nos modèles sont capable de faire des prédictions précises (et donc avoir $H(X | T_i)$ petit). En effet, si un modèle prédit « Je ne sais pas », l'espérience ne va pas nous apprendre grand chose à son propos !
Et d'autre part, il faut que les modèles soient en désaccord les uns avec les autres (de sorte que $H(X)$ soit malgré tout grand). Si tous les modèles prédisent la même chose, l'expérience ne pourra pas les départager.
On cherche donc une expérience sur laquelle les modèles d'intérêt font des prédictions à la fois précises et contradictoires.
On peut ici voir la similarité avec le principe consistant à toujours tenter de falsifier ses théories, et de ne les préserver que si on n'y arrive pas. La version Bayésienne de ce principe nous donne un guide plus précis : on peut se focaliser sur les domaines où on dispose de théories alternatives faisant des prédictions différentes, plutôt que de simplement tester tout et n'importe quoi à l'aveugle.
Un exemple récent correspondant à ce principe peut se trouver dans le contexte de la Gravitation quantique à boucles. En effet, on a pu montrer que cette théorie faisait des prédictions sur le fond diffus cosmologique différentes de la cosmologie classique. Cela donne donc une piste concrête pour essayer de juger si la gravitation quantique à boucles est une théorie prometteuse pour unifier gravitation et mécanique quantique. Malheureusement, nos instruments de mesure ne sont pas encore assez précis pour trancher, mais cette prédiction permet d'investir du temps et de l'énergie dans l'amélioration de ces instruments : on sait déjà que le résultat de cet expérience sera riche en information si on arrive à la mener à terme.
Conclusion
Au fil de ce billet, nous avons pu voir que les principes Bayésiens apportent un autre éclairage sur les méthodologies de la recherche scientifique. Loin de contredire les méthodes actuelles, cette analyse les interpète comme un compromis entre le calcul Bayésien pur et nos ressources limitées.
Les méthodes comme le Rasoir d'Ockham, la mise de côté des théories fantaisistes ou suffisament falsifiées, et la recherche de contradiction expérimentale apparaissent alors comme une stratégie pour maximiser le gain d'information apporté par la recherche, compte tenu des moyens limités dont nous disposons.
Certains pouront vouloir invoquer ici l'a-priori de Solomonoff, mais le fait qu'il ne soit pas calculable en fait une construction théorique difficilement utilisable en pratique, en particulier dans le contexte de ce billet qui vise à extraire l'esprit des méthodes Bayésiennes en s'éloignant de l'exactitude des calculs.