La recherche vectorielle change la donne
En juillet 2023, je veux prendre le temps d’expliquer une idée technique qui me fascine pis qui est en train de devenir le moteur discret derrière l’IA en entreprise: la recherche par vecteurs. Comme Directeur TI pis vieux geek dans l’âme, je trouve ça important de comprendre la mécanique sous le capot, pas juste les boutons à pousser. Pis cette idée-là, une fois qu’on la saisit, change la façon de penser tout ce qu’on construit avec l’IA.
Pendant des décennies, chercher de l’information, ça voulait dire chercher par mots-clés. Tu tapes « frein vélo », pis le système cherche les documents qui contiennent exactement ces mots-là. Le problème, c’est que le sens passe à côté: un document qui parle de « système de freinage à disque » sans jamais écrire « frein vélo » ne ressort pas. Les vecteurs cherchent autrement: par le sens, pas par les lettres.
Du texte à des nombres qui ont du sens
flowchart TD
A[Un texte: frein a disque] --> B[Modele d'embedding]
C[Une question: comment ralentir mon velo] --> B
B --> D[Chaque texte devient un vecteur de nombres]
D --> E[Textes au sens proche = vecteurs proches]
E --> F{Recherche par distance}
F --> G[On trouve par le SENS, pas par les mots exacts]
G --> H[On nourrit l'IA avec nos VRAIS documents]
H --> I[Reponses ancrees, moins d'hallucination]
Le truc, c’est qu’un modèle transforme chaque morceau de texte en une longue liste de nombres — un vecteur. Deux textes qui veulent dire à peu près la même chose se retrouvent « proches » dans cet espace de nombres, même s’ils n’utilisent pas un seul mot en commun. Chercher devient alors une question de distance: quels vecteurs sont les plus proches de ma question?
Pourquoi ça compte pour mon travail
Cette mécanique, c’est exactement ce qui permet de brancher un chatbot sur nos propres documents. Au lieu de laisser l’IA inventer une réponse à partir de ce qu’elle a vu sur Internet, on retrouve d’abord les bons extraits de NOS documents par recherche vectorielle, pis on les donne au modèle pour qu’il réponde à partir de ça. Le sens reste ancré dans nos données. Pour HLC pis nos dealers, ça veut dire une IA qui répond à partir de nos vraies fiches techniques, pas d’une hallucination plausible.
Ce qui me fait triper, c’est de voir une idée mathématique assez ancienne — représenter le sens par des coordonnées — devenir soudain l’infrastructure invisible de toute une vague technologique. Comprendre ça, ce n’est pas un caprice de geek: c’est ce qui me permet, comme directeur, de juger une solution IA pour ce qu’elle fait vraiment plutôt que pour son emballage.
Ce que je retiens
En juillet 2023, les vecteurs cherchent autrement — pis ça change tout. Au lieu de chercher par mots-clés exacts, on transforme chaque texte en un vecteur de nombres où le sens proche donne des vecteurs proches. Chercher devient une question de distance, pas de lettres identiques.
Ce que je retiens, c’est que cette mécanique est le moteur discret de l’IA en entreprise: elle permet de retrouver les bons extraits de NOS documents pour que l’IA réponde à partir d’eux, plutôt que d’inventer. Pour HLC, ça veut dire une IA ancrée dans nos vraies fiches techniques. Pis comme geek devenu directeur, comprendre cette idée sous le capot, c’est ce qui me permet de juger une solution pour sa vraie valeur — pas pour son emballage. La crédibilité, ça commence par savoir comment ça marche.