L’IA, c’est surtout du nettoyage de données

En janvier 2019, après une première année comme directeur technique pis quelques vrais projets d’IA derrière nous chez HLC, je veux parler du dessous de table. Pas la belle IA des conférences avec ses démos impeccables. La vraie, celle qui se passe sous la nappe: le travail ingrat, invisible, dont personne ne se vante mais qui fait toute la différence entre un projet qui livre pis un qui meurt.

Parce que les leçons des premiers projets d’IA, ce sont presque toujours les plus terre à terre. On rêve d’algorithmes brillants; on passe nos journées à nettoyer des données pis à étiqueter des exemples. Le glamour est sur la scène; le travail est en dessous.

Le travail invisible qui fait tout

Quand je regarde où passe vraiment le temps dans un projet d’IA, la répartition surprend ceux qui n’en ont jamais fait. L’algorithme, c’est une petite tranche. Le gros, c’est préparer la matière première.

flowchart TD
    A[Projet d'IA reel] --> B[Collecter les donnees]
    A --> C[Nettoyer / corriger]
    A --> D[Etiqueter les exemples a la main]
    A --> E[L'algorithme: la petite tranche]
    A --> F[Maintenir quand ca derive]
    B --> G[80% du temps invisible]
    C --> G
    D --> G
    F --> G
    E --> H[20% qu'on montre en conference]

Ce dessous de table, c’est pour mes dealers le travail qu’on ne facture pas fièrement mais qui décide de tout. Des semaines à corriger des données incohérentes. Des heures à étiqueter des exemples à la main pour que le modèle ait quelque chose à apprendre. Pis une fois en production, la maintenance: le modèle dérive, les données changent, pis il faut réajuster. L’IA n’est jamais « finie ».

Pourquoi ces leçons sont les plus solides

Ce qui me frappe, c’est que ces leçons terre à terre sont les plus durables. Les modes en IA changent vite. Mais le fait qu’un modèle vaut ce que valent ses données, ça, ça ne change pas. Le travail invisible du dessous de table est la fondation sur laquelle tout le reste tient.

C’est pour ça que, quand un fournisseur me promet l’IA magique en quelques clics, mon réflexe de directeur technique est de demander: pis le dessous de table, qui le fait? Qui nettoie, qui étiquette, qui maintient? Si la réponse est floue, le projet va frapper le mur que tous les premiers projets frappent.

Ce que je retiens

En janvier 2019, ma plus grande leçon des premiers projets d’IA, c’est le respect du dessous de table. Le travail invisible — collecter, nettoyer, étiqueter, maintenir — représente l’essentiel de l’effort pis décide du succès. L’algorithme brillant qu’on montre en conférence n’est que la pointe.

Pour mes dealers, ça veut dire des attentes réalistes pis du budget pour le travail ingrat. Un projet d’IA qui ne planifie pas son dessous de table est un projet qui va décevoir. Les leçons les plus terre à terre sont les plus solides — pis celle-là, je la garde au cœur de ma façon d’aborder chaque nouveau projet.