Opinions â€ș Tribune

Analyse de la validitĂ© des classements, et application au classement des universitĂ©s: l’exemple camerounais

Par Ibrahim Moukouop Nguena

J’avais Ă©noncĂ© « le paradoxe de Moukouop » en disant que vous pouvez avoir Ă  classer deux personnes A et B ; A est meilleur que B sur tous les critĂšres utilisĂ©s pour le classement, et pourtant dans le classement final, B est meilleur que A. Ce paradoxe est probablement Ă©quivalent au paradoxe de Simpson, prĂ©sentĂ© dans la littĂ©rature. Le rĂ©cent classement des universitĂ©s (au Cameroun, ndlr) donne une bonne occasion d’analyser ce problĂšme.

A titre d’exemple, vous pourriez avoir deux agents qui traitent des dossiers. On se rend compte que le dĂ©lai moyen de traitement des dossiers est de 10 jours pour l’agent A, et 5 jours pour l’agent B. Sur le dĂ©lai moyen de traitement, B sera primĂ©. Pourtant, dans les faits, il existe des cas oĂč avec les moyennes ci-dessus, quel que soit votre dossier, vous avez intĂ©rĂȘt Ă  aller vers A plutĂŽt que vers B, car A traite toujours plus vite les dossiers que B, mĂȘme si son temps moyen est pire que celui de B.

Il ne s’agit pas ici d’une curiositĂ© scientifique pour savants, mais d’un phĂ©nomĂšne bien rĂ©el, dont les implications doivent ĂȘtre prises en compte pour rĂ©aliser ou interprĂ©ter tout classement. J’en profite pour faire ressortir un concept que j’appelle « la punition de la tĂ©mĂ©rité ».

Mais avant cela, il convient de rappeler une fois de plus qu’il y a une trĂšs mauvaise interprĂ©tation du classement des universitĂ©s qui est faite. Comme je le montrerai aprĂšs avoir dĂ©mĂȘlĂ© le paradoxe, quelle que soit l’amĂ©lioration que polytech (Ecole nationale supĂ©rieure polytechnique de YaoundĂ©, une institution publique, ndlr) peut apporter Ă  la qualitĂ© de sa formation, le classement fait selon les critĂšres actuels mettra toujours polytech aprĂšs l’IAI (Institut africain d’informatique, ndlr) et Siantou (Institut supĂ©rieur Siantou, ndlr), en informatique.

Commençons par exhiber le paradoxe à travers un exemple clair et concret.

Je vais utiliser mon exemple prĂ©fĂ©rĂ©, tirĂ© de mes analyses des dĂ©lais de passage au port, dans le cadre d’une mission de consultant, chargĂ© de l’analyse des donnĂ©es portuaires.

Vous avez deux opĂ©rateurs portuaires, A et B. On a observĂ© que le dĂ©lai moyen de sortie des marchandises confiĂ©es Ă  A est de 10 jours, tandis que celui de sortie des marchandises confiĂ©es Ă  B est de 5 jours. Le critĂšre global de classement des opĂ©rateurs est le dĂ©lai moyen de sortie des marchandises, et plus il est faible, plus l’opĂ©rateur est considĂ©rĂ© bon. A priori, on pourrait Ă  partir de ceci penser que si vous avez une marchandise, il vaut mieux la confier Ă  B plutĂŽt qu’Ă  A. Il existe pourtant des configurations pour lesquelles avec ces moyennes, quelle que soit votre marchandise, vous la ferez sortir plus rapidement en la confiant Ă  A plutĂŽt qu’Ă  B.

Pour illustrer cela, on va supposer qu’il y a principalement deux circuits de sortie des marchandises (c1 et c2), et que chaque circuit impacte sur les dĂ©lais. On note les performances suivantes supposĂ©es constantes, de A et B sur chacun des circuits (hypothĂšse H1):
Opérateur A: Circuit c1=11 jours, circuit C2=2 jours
Opérateur B: Circuit c1=13 jours, circuit C2=4 jours.

A ce niveau, il est clair que quel que soit votre circuit, vous perdrez deux jours de plus en allant chez l’opĂ©rateur B plutĂŽt que chez l’opĂ©rateur A.

Il se trouve que pour la pĂ©riode de calcul, A avait traitĂ© 1000 dossiers du circuit c1 et 125 dossiers du circuit c2. Un calcul rapide montre que son temps moyen de traitement est de 10 jours. Dans la mĂȘme pĂ©riode, B avait traitĂ© 16 dossiers de c1 et 125 dossiers de c2, d’oĂč une moyenne de 5,02 jours par dossier.

Il est Ă©vident maintenant que dans un calcul naturel de moyenne, B est meilleur que A, pourtant dans les faits A est meilleur que B quel que soit votre circuit.

Quelles leçons en tirer?
L1) Le classement moyen de A est pire que celui de B simplement parce que A a beaucoup plus que B affrontĂ© le circuit difficile (1000 fois contre 16 fois). Bien qu’il l’ait fait avec plus de succĂšs que B, cela a dĂ©tĂ©riorĂ© son score global. Malheureusement, trĂšs souvent c’est ce qui se passe dans la vie. On a trĂšs souvent tendance Ă  rĂ©compenser des gens qui ont bien traitĂ© des problĂšmes simples plutĂŽt que ceux qui ont moyennement traitĂ© des problĂšmes complexes, mĂȘme si leur moyenne est trĂšs au dessus de ce que tous les adeptes de problĂšmes simples auraient fait dans le mĂȘme cas. Si dans votre carriĂšre vous avez eu Ă  travailler sur des problĂšmes complexes, vous avez sĂ»rement Ă©tĂ© victime de ce phĂ©nomĂšne, que je vais appeler « la punition de la tĂ©mĂ©rité ».

L2) En restant sur l’hypothĂšse H1 ou sur des hypothĂšses similaires, il n’y a Ă  priori aucun classement permettant de comparer A et B sur une Ă©chelle globale en conservant l’ordre donnĂ© par les critĂšres pris individuellement. On aurait pu avoir l’opĂ©rateur B qui ne travaille que sur le circuit C2, avec une moyenne de 5 jours. Cela l’aurait rendu encore pire qu’avant sur ce circuit, Ă  trois jours de plus que A, mais sa moyenne gĂ©nĂ©rale resterait prĂ©fĂ©rable Ă  celle de A, tant que A resterait trĂšs prĂ©sent sur C1. Sauf Ă  dĂ©finir une fonction prĂ©cise Ă  optimiser et Ă  fournir la formule permettant de combiner les rĂ©sultats des circuits pour l’optimiser (le bĂ©nĂ©fice total par exemple), le seul classement qui aurait du sens est celui qui se ferait par circuit. PlutĂŽt que de classer globalement, on devrait donner un classement par circuit.

L3) Le paradoxe apparaĂźt parce que nous avons pris le soin de diviser par circuits. Si on avait pris les donnĂ©es brutes sans division par circuit, on n’aurait pas soupçonnĂ© que le rĂ©sultat final traduisait le contraire de la rĂ©alitĂ©. Le paramĂštre circuit, qui est dĂ©terminant ici, mais qui peut ĂȘtre ignorĂ© Ă  priori est appelĂ© une variable de confusion. Malheureusement, dans presque tous les cas rĂ©els, on ne donne pas l’Ă©noncĂ© en listant les variables de confusion. Il appartient Ă  l’analyste de donnĂ©es de rechercher les Ă©ventuelles variables de confusion et de les prendre en compte. La recherche peut ĂȘtre trĂšs poussĂ©e, car mĂȘme dans l’exemple traitĂ© ici, il pourrait y avoir une autre variable de confusion dans les statistiques par circuit: la nature de la marchandise, la richesse de l’importateur… Sans analyse poussĂ©e de confusion, beaucoup de classements rĂ©els n’ont pas de fiabilitĂ©. MĂȘme aprĂšs l’identification des potentielles variables de confusion, il faudra bĂątir regroupements de leurs valeurs, encore appelĂ©s clusters, pour rĂ©aliser les analyses.

L4) Tout classement oĂč les classĂ©s n’ont pas strictement eu Ă  faire aux mĂȘmes objets, pour ĂȘtre validable sur le plan scientifique, doit fournir la liste de tous les paramĂštres identifiĂ©s comme pouvant l’impacter, le rapport d’analyse de confusion (calculs de odd-ratio ajustĂ©s ou de risk ratio ajustĂ©s.), les critĂšres retenus pour la notation, la formule d’agrĂ©gation pour la note finale, comment sont gĂ©rĂ©es les valeurs nulles ou manquantes (opĂ©rateur prĂ©sent sur un seul circuit par exemple), comment sont identifiĂ©es les valeurs aberrantes (Ă  sortir de l’Ă©chantillon analysĂ©), la taille de l’Ă©chantillon, la technique d’Ă©chantillonnage, et la preuve que le classement global devrait garder un sens logique et rester consistant par rapport aux classements locaux.


MĂȘme si ces Ă©lĂ©ments ne sont pas publiĂ©s sur la page du classement, ils doivent ĂȘtre disponibles pour toute personne qui souhaite vĂ©rifier la validitĂ© scientifique du classement. Mieux encore, pour des classements importants, je pense que la validitĂ© de ces analyses devrait ĂȘtre vĂ©rifiĂ©e par un organisme autre que celui qui s’est chargĂ© du classement, avant la publication du rĂ©sultat dudit classement. En confiant Ă  une organisation la mission de classer, on devrait confier Ă  une autre la mission de valider scientifiquement le classement produit. Le lecteur pourrait lire avec profit une autre analyse sur les classements, publiĂ©e Ă  l’adresse suivante: https://regulation.revues.org/9016#tocto1n4.

Quelle consĂ©quence pour l’analyse du classement des universitĂ©s?
Commençons par rappeler que les critÚres retenus sont la notoriété et la compétence perçue.

Comment combiner ces deux critĂšres pour un seul critĂšre final de classement? Je doute fort qu’il y ait une rĂšgle qui ne viole en aucun cas la consistance avec les classements par critĂšre. Maintenir deux classements selon chacun des critĂšres aurait semblĂ© plus judicieux, car plus scientifiquement interprĂ©table.

Prenons le cas de l’informatique.
S’agissant de la notoriĂ©tĂ©, il est indiscutable que l’IAI a la plus grande notoriĂ©tĂ© dans le domaine (opĂ©ration 100 000 femmes, opĂ©ration 1M de jeunes…). Sa prĂ©sence mĂ©diatique rĂ©guliĂšre fait que peu de Camerounais pourraient dire ne pas savoir que l’IAI fait l’informatique. Par contre, Ă  ce jour, beaucoup de personnes ignorent qu’on fait l’informatique Ă  Polytech, tant dans les entreprises que les administrations.

En dehors de la publicitĂ©, il y a une autre raison Ă  cela, qui justifie que mĂȘme Siantou soit devant Polytech dans ce classement. Polytech forme en moyenne Ă  peu prĂšs 40 informaticiens par an, dont plusieurs poursuivent Ă  l’Ă©tranger. Siantou et l’IAI de YaoundĂ© en forment beaucoup plus. La consĂ©quence est que peu de polytechniciens sont disponibles pour les PME.

On va donc se retrouver avec beaucoup d’entreprises dont les seuls informaticiens sont issus de Siantou ou de IAI. Cela vient d’une part de l’effectif plus Ă©levĂ© de ces autres, et d’autre part de ce que les PME et TPE reprĂ©sentent au moins 80% de nos entreprises, et que peu de polytechniciens y postulent. CĂŽtĂ© notoriĂ©tĂ© informatique, Polytech est d’office perdant, du fait mĂȘme de la taille de ses effectifs et de la concentration de ses diplĂŽmĂ©s dans les grands comptes sur place et Ă  l’Ă©tranger.

CĂŽtĂ© compĂ©tence perçue, quelle que soit la valeur calculĂ©e, on reviendra Ă  la question « comment combiner les critĂšres pour un classement final interprĂ©table et consistant »? De plus, les polytechniciens ne sont pas censĂ©s s’attaquer aux mĂȘmes problĂšmes que les diplĂŽmĂ©s de Siantou ou de l’IAI de YaoundĂ©, car il ne s’agit pas du mĂȘme niveau de formation. Ils pourraient dĂšs lors souffrir de la « pĂ©nalitĂ© de la tĂ©mĂ©rité ».

Celui qui a appris sa bureautique ou sa maintenance Ă  l’IAI et qui est perçu comme la faisant trĂšs bien, sera mieux classĂ© que celui qui a appris Ă  dĂ©velopper des logiciels et qui n’arrive pas Ă  fournir tout de suite une solution sans bugs (mĂȘme s’il est presque impossible de fournir dĂšs le dĂ©part une telle solution, c’est ce qu’on attend).
Parler mĂȘme de classer les trois Ă©tablissements en informatique alors qu’il s’agit de formations pour des compĂ©tences diffĂ©rentes pose problĂšme : On compare des ingĂ©nieurs de conception Ă  des BTS ou Ă  des ingĂ©nieurs de travaux.

Pour un classement fait sur le critĂšre de compĂ©tence perçue uniquement, l’interprĂ©tation correcte serait que le premier du classement soit perçu comme fournissant mieux les compĂ©tences qu’il est censĂ© fournir que le second ne le fait pour les compĂ©tences que le second est censĂ© fournir (un peu comme si on comparait un maçon et un menuisier sur leurs compĂ©tences. Un maçon jugĂ© trĂšs compĂ©tent est peu susceptible de remplacer un menuisier jugĂ© peu compĂ©tent).

Il est clair qu’il ne s’agirait pas de comparer les deux sur un travail de mĂȘme nature, mais simplement d’Ă©valuer chacun par rapport Ă  la nature du travail qui est la sienne. Seules les formations visant des compĂ©tences identiques pourraient se comparer l’une Ă  l’autre via un tel classement.

De tels classements sans validation de la dĂ©marche d’agrĂ©gation et sans analyses de confusion peuvent s’avĂ©rer dangereux, et produire un effet pervers. Les structures s’adaptent alors pour ĂȘtre bien classĂ©es, en s’Ă©loignant des objectifs rĂ©els qu’elles devraient viser, qui sont mal mesurĂ©s par les classements utilisĂ©s.

Voila, j’espĂšre avoir assez Ă©clairĂ© les opinions des dĂ©cideurs que vous ĂȘtes pour que vous ne vous laissiez pas tromper Ă  l’avenir par des classements ou des Ă©tudes de cause Ă  effet sans analyse de confusion. Nous menons rĂ©guliĂšrement des analyses de confusion sur des problĂšmes sociaux. De telles analyses Ă©vitent de se tromper de voie d’action, suite Ă  une interprĂ©tation incorrecte d’une information juste.

Ibrahim Moukouop Nguena
Journalducameroun.com)/n

1 COMMENTAIRES

Pour poster votre commentaire, merci de remplir le formulaire

  1. La winning Attitude.
    Merci pour cet article qui m’a au passage permis de mieux comprendre le paradoxe de Simpson.

A SAVOIR

- Les opinions et analyses présentées dans cette rubrique n'engagent que leurs auteurs et nullement la rédaction de Journalducameroun.com.

- JournalduCameroun.com n'est pas responsable des affirmations qui y sont présentées et se réserve le droit de modifier ou de retirer un article qui diffamerait, insulterait ou contreviendrait au respect des libertés publiques.

À LA UNE
Retour en haut