La notion de probabilité dans le Human Action de Von Mises
Posté par alpheccar le14 Fév 2005 à 19:14 CEST
J’ai récemment commencé à lire le Human Action de Von mises. Un très bon livre sur l’économie et la praxéologie que je recommande fortement.
J’ai néanmoins une critique à faire concernant la notion de probabilité telle qu’elle est présentée dans le livre. Je ne suis absolument pas d’accord avec Von Mises et je vais tenter d’expliquer pourquoi.
Les probas selon Von Mises
Selon Von Mises, il y a deux types de probabilités:
- Class probabilities ;
- Case probabilities ;
Les premières se rapportent à des classes d’événements. C’est une façon de parler d’une classe entière dont on connaît le comportement. Mais, cette notion ne nous apprend rien sur les événements de cette classe.
La seconde notion se rapporte à des événements dont on connaît une partie seulement des facteurs qui les déterminent.
Par exemple, la class probability nous indique que la probabilité d’avoir un trois lorsqu’on lance un dé est de 1/6. Cela signifie que la fréquence d’apparition du trois est de 1/6 pour une série de lancés avec le dé choisi. C’est bien une propriété de la série de lancés et non pas d’un lancé seul.
La case probabilité nous permet de parler de la probabilité qu’il fasse beau demain. Cela se rapporte à un événement unique qui n’est pas un élément d’une classe donnée : le temps qu’il fera demain.
Selon Von Mises, seule la première notion de probabilité a du sens. C’est-à-dire que donner une valeur numérique à une case probability qui se rapporte à un événement unique n’a pas de sens. Ce n’est qu’une façon de parler. En pratique ne sont quantifiables que les class probabilities. Et, lorsqu’on attribue une valeur numérique à ce que l’on croit être une case probability, on utilise toujours une class probability sans le savoir.
Mais, je prétend que c’est exactement le contraire qui est vrai ! Et, c’est ce que je vais essayer d’expliquer.
Class probability
Donc, selon Von Mises, la class probability est une notion objective, une propriété d’une classe d’événements que l’on peut définir de façon non circulaire comme c’est trop souvent le cas lorsqu’on essaie d’expliquer la notion de probabilité.
Mais, Von Mises n’explique pas bien comment éviter cette circularité. Si, la probabilité est vraiment une notion objective, une propriété d’une classe alors elle devrait pouvoir être mesurée. Mais comment faire cette mesure ? Si je cherche à déterminer la probabilité à partir d’une classe de 100 événements, combien de fois devrais-je recommencer l’expérience pour avoir une mesure suffisamment précise ? Faut-il que je considère une classe de 100 événements, ou deux ? ou trois ?
En général, on tranche cette question en utilisant le concept de probabilité mais c’est justement ce que l’on cherche à mesurer. Et donc, on n’a aucun critère pour savoir quand arrêter la mesure. Il y a un élément arbitraire inévitable avec cette approche. La circularité est toujours présente.
Cette class probability est une propriété de la classe d’événements mais qu’est-ce que cela veut dire ? On peut, avec un peu d’entraînement, facilement contrôler si le lancé d’une pièce va donner pile ou face. C’est considérablement plus difficile (impossible) avec un dé. En outre, on peut calculer que la répartition de masse dans la pièce a finalement peu d’importance pour le résultat final.
Ce qui influe sur ce résultat c’est la façon dont la pièce est lancée et rattrapée. Autrement dit : c’est parce que les conditions expérimentales ne sont pas les mêmes d’un lancé à l’autre que le résultat est aléatoire. Et, si elles ne sont pas les mêmes c’est qu’il y a trop de paramètres à contrôler voire que tous les paramètres à contrôler ne sont mêmes pas connus. C’est d’ailleurs pour cela que le contrôle du résultat est beaucoup plus difficile avec le dé qu’avec la pièce.
Le caractère aléatoire du résultat vient du manque d’information que nous avons a propos des conditions expérimentales. C’est parce que nous ne connaissons pas tous les paramètres qui déterminent le résultat ou que nous ne les connaissons pas parfaitement (précision insuffisante) que le résultat est indéterminé. Il semble qu’on retrouve la case probability... On ne connaît qu’une partie des facteurs qui déterminent le résultat.
En fait, il y a ici une confusion de concepts : la notion de probabilité est distincte de la notion de fréquence. La probabilité est, dans certains cas, un estimateur de la fréquence mais c’est un concept distinct. Et, la class probability n’est qu’un autre nom pour fréquence.
Case probability
La case probability correspond à l’induction : compte tenu de l’information dont je dispose, qu’elle est la conclusion la plus plausible ? Si j’ai observé un phénomène n fois, est-il plausible de l’observer une fois de plus ? Etant donné l’information dont je dispose, quels sont les événements les plus susceptibles de se produire ?
La case probability est une mathématisation du concept de plausibilité et d’induction. Avant de voir ce que cela veut dire, commençons par quelque chose de plus simple : la déduction.
Déduction
Les mathématiciens ont depuis très longtemps mathématisé les processus déductifs : c’est le domaine de la logique mathématique. Cette mathématisation n’est qu’une traduction dans un langage particulier, et plus précis, de la façon dont l’esprit humain fonctionne.
En effet, l’esprit humain dans ses relations avec le monde réel (action, argumentation etc...) ne peut concevoir un monde inconsistant. Attention : cela ne veut pas dire que le monde est vraiment consistant ou que l’Humain ne peut pas avoir des idées contradictoires ou imaginer des mondes inconsistants.
Un Humain peut aussi imaginer des mondes à 4, 5 ou n dimensions. Il peut même les manipuler grâce aux mathématiques. Mais, il ne peut penser en dimension supérieure à 3. Il pourra se familiariser, développer une intuition partielle mais fondamentalement il ne peut penser en dimension supérieur à 3.
De la même façon, un humain ne peut penser, agir, dialoguer dans un monde supposé inconsistant. Dans toutes ses relations avec le monde, il suppose que celui-ci est consistant sinon aucune action, aucun dialogue n’est possible.
La logique mathématique est la traduction de cette observation : c’est une formulation symbolique du principe de non contradiction.
Induction
L’esprit Humain dans ses interactions avec le monde (action, argumentation etc...) présuppose bien plus que la simple consistance. En effet, il est rare que l’esprit Humain soit confronté à des vérités absolues. Toutes ses actions doivent se fonder sur une information imparfaite. Il a donc du construire une généralisation de la logique où le concept de valeur de vérité devient celui, plus flou, de plausibilité.
Le principe de non contradiction devient alors une contrainte qualitative sur la façon dont évoluent les plausibilités lorsqu’une nouvelle information est apprise. Cette généralisation dit en gros ceci :
Si une nouvelle information augmente la plausibilité de l’assertion A, sans toucher à celle de B alors elle augmente la plausibilité de l’assertion (A ET B)
C’est une sorte de principe de consistance entre les plausibilités et les valeurs de vérités. Avouez qu’il est très difficile d’imaginer pouvoir interagir avec le monde sans supposer que cette règle est vérifiée. Comment prendre une quelconque décision, agir, argumenter si on ne présuppose pas au minimum cette contrainte qualitative sur l’évolution des plausibilités ?
Peut-on aller plus loin ? Peut-on traduire sous forme mathématique la façon dont l’esprit humain manipule les plausibilité ?
Il faut introduire certaines hypothèses supplémentaires mais très raisonnables:
- Si deux assertions logiques A et B disent exactement la même chose (A=B est une tautologie) alors la plausibilité de A doit être la même que celle de B. C’est encore le principe de non contradiction. Une simple contrainte de consistance ;
- Les plausibilités doivent pouvoir être comparées ;
Notons (A|I) la plausibilité que l’assertion A soit vraie en supposant que l’assertion I (qui représente l’information que l’on a a priori) est vraie.
On peut sans perte de généralité supposer que (A|I) est un nombre réel. Cela ne signifie pas que ces plausibilités sont cardinales. La seule chose qui a du sens c’est de pouvoir comparer des plausibilités. Je peux dire que quelque chose est plus plausible ou moins plausible mais pas de combien. Choisir d’associer un nombre à (A|I) est un simple truc technique qui facilite les calculs. Il convient de faire très attention à ne pas tomber dans l’erreur qui consisterait à attribuer plus de sens à ces nombres qu’ils n’en ont. Ils ne sont qu’un intermédiaire permettant d’implémenter une notion d’ordre sans devoir recourir à des mathématiques complexes. On pourrait très bien s’en passer mais cela rendrait la théorie plus difficile à utiliser sans fondamentalement y changer grand chose.
Donc, nous avons trois hypothèses : un principe de consistance, la possibilité de comparer les plausibilités et une contrainte qualitative sur la façon dont les plausibilités doivent être réévaluées en présence d’une nouvelle information.
On doit au mathématicien Richard Cox la preuve que ces trois axiomes sont suffisant pour construire un calcul des plausibilités qui est la traduction mathématique de la façon dont l’esprit Humain a implémenté les processus d’induction.
On arrive aux résultats suivants qui sont des conséquences des axiomes ci-dessus:
- Il existe une mesure de la plausibilité p et nommée probabilité. N’oubliez pas que les plausibilités sontordinales. Toute fonction croissante f(A|I) peut être utilisée à la place de (A|I) car elle conserve l’ordre des plausibilités sans en conserver la valeur qui n’a pas de sens intrinsèque. Parmi ces fonctions, il en existe une (p) qui facilite les calculs.
- p est compris entre 0 et 1 ;
- p(A|I) + p(NON A | I) = 1 ;
- p(A ET B | I) = p(A | B et I) p(B|I) noté plus simplement p(AB|I)=p(A|BI)p(B|I)
Le troisième résultat est le théorème de Bayes.
Attention : On utilise les mêmes symboles (p), les mêmes noms (probabilité, théorème de Bayes...), des formules totalement identiques (théorème de Bayes) pour des concepts TOTALEMENT différents de ceux que l’on rencontre sous le même nom dans la class probability théorie (théorie orthodoxe des probabilités). C’est à l’origine de très nombreuses confusions.
On voit donc que la notion de probabilité est distincte de la notion de fréquence. C’est une mesure de la plausibilité qu’une assertion logique soit vraie étant donnée l’information dont on dispose.
C’est donc une notion subjective puisqu’elle dépend de l’information dont on dispose. Mais, elle est objective dans le sens où toute personne ayant la même information devra calculer les mêmes probabilités.
Le théorème de Bayes correspond à un processus d’apprentissage. Comment réévaluer la plausibilité de A sachant que maintenant B est vrai.
Pour terminer, il me reste à donner un exemple du lien fréquence/probabilité ce qui va permettre de comprendre comment l’information dont on dispose est encodée.
Un exemple
Considérons un lancé de dé en l’absence absolu de toute information. Cela signifie que les faces sont, pour l’expérimentateur, totalement identiques. Les noms (1,2...,6) sont arbitraires et nécessaires juste pour la discussion. On aurait pu utiliser (a,b...f) cela ne ferait aucune différence. La face 1 et la face 2 sont impossible à distinguer. Ce 1 et 2 ne fournissent aucune information supplémentaire permettant en pratique de dire qu’une face serait plus plausible qu’une autre.
Par conséquent, pour des raisons de consistance : p(1)=p(2)=...=p(6). On peut utiliser un principe de symétrie : toutes les permutations des chiffres de 1 a 6 donnent des expériences strictement identiques et pour lesquelles les plausibilités doivent être les mêmes.
Mais, on sait aussi que : p(1)+...+p(6)=1 donc p(k)=1/6.
Mais, cela ne doit pas (encore) être interprété comme une fréquence. N’oublions que cette valeur est purement ordinale. La seule chose qui compte ici c’est : toutes les probabilités sont les mêmes. Le fait que l’on ait 1/6 et que la somme des 1/6 donne 1 n’est utile que parce que cela permet d’encoder l’information initiale. Ce que l’on doit ensuite retenir c’est comment sont ordonnées ces probabilités.
On a donc réussi à encoder l’information initiale, ou plutôt, l’absence d’information initiale en utilisant un principe dit d’indifférence qui est juste la conjonction d’un principe de consistance avec des considérations de symétrie.
Maintenant, posons des questions distinctes. Si je lance le dé N fois, qu’elle est la probabilité d’obtenir
- N/1 fois la face 3 ;
- N/2 fois la face 3 ;
- ... ;
- N/6 fois la face 3 ;
- ... ;
Le calcul des probabilités va permettre de classer ces questions de la plus plausible à la moins plausible. La encore, seul l’ordre compte et pas l’amplitude de la probabilité.
Finalement, on trouve que la réponse la plus plausible, étant donnée l’information dont on dispose, est N/6. Donc, la fréquence d’apparition du 3 la plus plausible est 1/6.
Autrement dit, en l’absence de toute information, le meilleur estimateur de la fréquence est la probabilité. A partir de ce point, il est alors possible d’interpréter cardinalement la probabilité car on sait que c’est le meilleur estimateur de la fréquence. L’interprétation cardinale de la probabilité dépend du contexte et des questions posées. Ce n’est pas quelque chose qui est toujours possible.
Conclusion
Cette approche de la théorie des probabilité en tant que calcul des plausibilités se nomme : théorie Bayesienne des probabilités. Mais, comme le théorème de Bayes est aussi utilisé dans la théorie orthodoxe, cela peut entraîner des confusions.
Cette théorie Bayesienne permet de parler de la plausibilité d’une hypothèse, d’un modèle, d’une assertion.
Elle unifie aussi statistiques et probabilités car elle n’oblige pas à introduire des variables aléatoires parfois artificielles, pour estimer un paramètre. Il “suffit” de poser la question : qu’elle est la valeur la plus plausible du paramètre étant donnée l’information dont je dispose (c’est-a-dire les valeurs mesurées).
Autrement dit, Von Mises s’est trompé mais on peut lui pardonner car le théorème de Cox est un résultat relativement récent (début XXème siècle) et qui a mis longtemps à se faire connaître.


van den Hauwe versus Hoppe on Mises on Probability
Posté par van den Hauwe le11 Oct 2007 à22:23 CEST
En fait les choses sont un peu plus compliquées que Hoppe - qui apparemment ne s ́est pas donné la peine de lire la littérature philosophique sur les probabilités - le fait apparaître. Il faudrait aussi voir mon "John Maynard Keynes and Ludwig von Mises on Probability" (2007). De toutes façons l ́interprétation par Ludwig von Mises de la notion de probabilité (aussi bien "class probability" que "case probability") est de nature épistémologique et non pas objective. C ́est très clair par exemple quand on lit ce qu ́il écrit dans _Theory and History_.
Posté par alpheccar le01 Sep 2007 à13:40 CEST
Tôt ou tard le 3 ne sortira pas mais cela ne signifie pas qu'il est moins probable a priori. Il faut distinguer probabilités a priori (avant observation) et a posteriori.
Le fait que le 3 n'est pas sorti ne nous apprend strictement rien sur le lancé suivant pour lequel la probabilité a priori est toujours la même.
Si les différents chiffres sortent avec la même fréquence en moyenne ce n'est pas dû à une quelconque corrélation entre les différents lancés ou a une influence du passé sur le présent. La raison est purement combinatoire. Si vous considérez une séquence de 1000 lancés, il y a infiniment plus de façons de réaliser une séquence où tous les chiffres sortent en moyenne avec la même fréquence que tout autre séquence. Donc, en l'absence d'une contrainte forte (comme une corrélation forte entre les lancés), c'est la séquence équiprobable qui est réalisée. Mais il n'y a aucune cause physique à cela. C'est un résultat purement combinatoire.
Contadiction
Posté par John le01 Sep 2007 à12:32 CEST
Si pour un nouveau lancer, le 3 a autant de chance de sortir que les autres, ceci signifie que le passé est oublié, que ce lancer est indépendant des précèdants. Et pourtant le passé ne peut être éliminé puisque statistiquement tôt ou tard le 3 devra laisser la place aux autres chiffres c'est à dire être moins probable. Comment levez vous cette contradiction ?
Non contradiction
Posté par alpheccar le16 Fév 2005 à18:22 CEST
D’accord. Loin de moi l’idée de minimiser le problème des probabilités a priori. Mais, tu ne peux considérer le principe de non contradiction comme une recette toute faite : certainement pas plus que Solomonoff et probablement moins. Or, c’est la seule recette à laquelle j’ai fait référence (avec le maximum d’entropie qui se justifie autrement).
Bien entendu, ces deux “recettes” sont totalement insuffisantes pour encoder tous les types d’info a priori.
Certes. Mais en pratique ... tout reste à faire dans ce domaine pour l’utilisation de la théorie Bayesienne.
Je suis d’accord.
épistémologie
Posté par Fahree le16 Fév 2005 à14:08 CEST
Ben justement, ici il s’agit d’économie, d’Action Humaine. Et puis même en physique, les modèles, il faut les justifier. La question de probabilités a priori se pose donc bien en physique, et il ne suffit pas d’appliquer les recettes toutes faites. Lire ou écouter sur Mises.org/Media Hoppe ou Hülsmann sur l’épistémologie, la praxéologie et la critique de l’empirisme.
Bref, Bayes sans Solomonoff n’est pas boiteux mais cul-de-jatte — il n’a rien sur quoi tenir. Et même avec Solomonoff, il a besoin de praxéologie et d’évolutionnisme pour établir la nature de l’adéquation (ou non) de ses théories à la réalité.
Proba a priori
Posté par alpheccar le15 Fév 2005 à19:35 CEST
J’avais lu ce texte intéressant sur ton blog. Il est clair qu’il y a de nombreux liens entre la théorie bayesienne, la théorie de l’information et la théorie de la complexité algorithmique.
Mais, en pratique, les probabilités a priori ne posent pas tant de problèmes que cela. Au moins pour les types d’information a priori qu’utilisent les physiciens. Des principes de symétrie ou de consistance avec un éventuel usage du principe de maximum d’entropie couvrent un grand nombre de cas pratiques.
Pour ceux qui nous lisent et ne connaissent pas bien la théorie bayesienne, je conseille cet excellent livre ainsi que ce site web.
All your Bayes are belong to us
Posté par Fahree le15 Fév 2005 à12:36 CEST
Le problème avec l’analyse Bayesienne, c’est celui de la probabilité a priori. Et la solution, c’est l’Induction de Solomonoff.
Pardon, j'ai mis "utilité ce
Posté par Eti-N le14 Fév 2005 à23:16 CEST
Pardon, j’ai mis “utilité certaine” à la place de “certaine utilité”. Ceci dit, un éclairage est toujours le bienvenue ;)
Petite partie
Posté par alpheccar le14 Fév 2005 à23:08 CEST
Mon texte ne concerne qu’une toute petite partie de cet énorme et excellent livre. Cela ne t’aidera donc pas grandement pour la lecture du livre.
Re:Human Action
Posté par Eti-N le14 Fév 2005 à22:57 CEST
Je n’ai pas encore eu le temps/le courage de commencer le livre de Mises, mais je pense que ton analyse me sera d’une utilité certaine quand je m’y consacrais. Mais réponse est donc pour plus tard, précisement parce qu’il commence à se faire tard.