1 mars 2012

Le big data attire les foules et les flous

En mars 2012, il y a un mot que je ne peux plus éviter dans les conférences pis les articles: « big data ». Il attire les foules — pis avec elles, beaucoup de flou. Comme observateur curieux de ces grandes vagues, je trouve ça fascinant à regarder: un terme qui promet une révolution, qui excite tout le monde, mais qui veut dire quelque chose de différent dans chaque bouche. C’est exactement le genre de moment où il faut un bon filtre pour séparer la tendance solide du pur emballement marketing.

Commençons par ce qui est réel. Il se passe vraiment quelque chose: la quantité de données générées explose. Le web, les téléphones, les capteurs, les transactions — tout produit des traces, en volumes qu’on n’avait jamais manipulés avant. Pis les outils pour stocker pis traiter ces masses-là mûrissent. Ça, c’est solide. Le flou commence quand on saute de « on a beaucoup de données » à « donc on va tout comprendre pis prédire l’avenir ». Entre les deux, il y a un gouffre que le marketing préfère ne pas montrer.

flowchart TD
    B[Big Data] --> S[Ce qui est solide]
    B --> F[Ce qui est flou]
    S --> S1[Volumes reels qui explosent]
    S --> S2[Outils de stockage qui murissent]
    F --> F1["Avoir des donnees<br/>= comprendre"]
    F --> F2["Plus de donnees<br/>= meilleures decisions"]
    F1 -.le gouffre.-> S1
    F2 -.le gouffre.-> S2

Le piège que je vois poindre, c’est la confusion entre volume pis valeur. Avoir beaucoup de données n’a jamais voulu dire avoir de la bonne information. Un beau tableau de bord rempli de chiffres impressionnants peut maquiller une donnée mal comprise pendant longtemps. La vraie question n’est pas « combien de données as-tu? » mais « sais-tu d’où elles viennent, comment elles sont calculées, pis ce qu’elles veulent dire vraiment? ». Le big data n’efface pas ces questions de base — il les rend juste plus faciles à oublier sous la masse.

Ce que je trouve sain, c’est de ramener le big data au sol. Derrière le mot grandiose, les vraies questions restent les mêmes que pour n’importe quelle donnée: la source, la jointure, le filtre, la fraîcheur, pis surtout la personne qui accepte de répondre du chiffre publié. Le « big » ne change pas la nature de ces questions; il augmente juste le risque de se tromper à grande échelle. Une mauvaise donnée multipliée par un milliard de lignes reste une mauvaise donnée — juste plus convaincante à l’œil.

Ce que je retiens en mars 2012, c’est qu’il faut accueillir le big data avec un mélange de curiosité pis de scepticisme. La curiosité, parce qu’il y a une vraie transformation en cours — les volumes pis les outils changent pour de bon. Le scepticisme, parce que le mot attire autant de vendeurs de rêve que d’ingénieurs sérieux. Le rôle de l’observateur lucide, c’est de tenir les deux: ne pas bouder la tendance réelle, mais ne pas gober le flou qui l’accompagne.

La suite, je la regarde de loin avec intérêt. Le big data va se décanter — l’emballement va retomber, pis ce qui restera, ce seront les usages où les données massives répondent vraiment à une question qu’on n’arrivait pas à régler avant. D’ici là, je garde mon filtre à portée de main: chaque fois qu’on me sert le mot magique, je demande la source, le calcul, le sens. Le big data attire les foules — mais c’est dans les détails peu glamour que se cache la différence entre la vraie valeur pis le beau flou.