1 mai 2018

L’IA nous ramène toujours à la qualité des données

En mai 2018, je le constate de plus en plus: l’IA remet les données au centre de tout. Mais cette fois, je veux creuser un aspect qui me fascine dans ma formation — pas juste la qualité des données, mais leur contenu caché. Parce qu’un modèle d’IA n’apprend pas que les bonnes choses dans nos données. Il apprend aussi nos biais, nos angles morts, nos vieilles habitudes, sans le savoir pis sans le dire.

C’est l’idée qui me frappe le plus en étudiant l’IA: le modèle est un miroir. Il reflète fidèlement ce qu’il y a dans les données historiques. Si ces données portent un biais, le modèle l’apprend, l’amplifie, pis le ressort avec une assurance mathématique trompeuse.

Le modèle apprend ce qu’on lui montre

Un système d’IA entraîné sur le passé reproduit le passé. C’est évident dit comme ça, mais les conséquences sont profondes. Si les décisions passées étaient biaisées d’une manière qu’on n’avait jamais remarquée, le modèle va apprendre ce biais comme une règle.

flowchart TD
    A[Donnees historiques] --> B[Contiennent nos decisions passees]
    B --> C{Ces decisions<br/>etaient-elles biaisees?}
    C -->|Oui, sans qu'on le sache| D[Le modele apprend le biais]
    C -->|Neutres| E[Le modele apprend la regle]
    D --> F[Biais amplifie, presente comme objectif]
    E --> G[Predictions utiles]
    F --> H[Decision injuste, mais "scientifique"]

C’est ça qui me rend prudent. Pour mes dealers, un modèle qui prédit, disons, quels clients valent la peine d’être contactés, va apprendre des contacts passés. Si on a historiquement négligé certains clients pour de mauvaises raisons, le modèle va apprendre à les négliger encore — pis cette fois avec l’autorité d’un calcul. Le biais humain, blanchi par les mathématiques, devient encore plus difficile à contester.

Garder l’humain critique dans la boucle

Ce que ma formation m’enseigne, c’est qu’on ne peut pas faire confiance aveuglément à un modèle juste parce qu’il est « basé sur les données ». Il faut questionner les données elles-mêmes: que contiennent-elles? que reflètent-elles? quels angles morts cachent-elles?

Une réponse trop confiante peut avoir l’air professionnelle même quand elle reproduit une injustice. Voilà le risque que je veux nommer en 2018. « Basé sur les données » ne veut pas dire « neutre » ni « juste ». Ça veut dire « fidèle au passé », avec tout ce que le passé contient de bon pis de croche. C’est pour ça que je garde toujours un humain critique capable de regarder un résultat pis de dire « non, ça, c’est un biais, pas une vérité ».

Ce que je retiens

En mai 2018, l’IA remet les données au centre — pis ça inclut leur côté sombre. Un modèle apprend tout ce qu’il y a dans les données historiques, y compris les biais qu’on n’avait jamais vus. Pis il les ressort avec une confiance qui les rend difficiles à contester.

Pour mes dealers, ça veut dire que mettre la donnée au centre exige aussi de la questionner: que reflète-t-elle vraiment? Mon rôle, comme architecte qui se forme en IA, c’est de ne pas confondre « basé sur les données » avec « objectif ». Le modèle est un miroir fidèle, pas un juge impartial. Garder un humain critique dans la boucle, capable de repérer pis de corriger les biais, c’est ce qui sépare une IA utile d’une machine à reproduire nos pires habitudes plus vite.