Podcast : Discussion expert sur le RAG | Force5 Québec
Podcast + Transcription • Durée : 14 minutes 00 secondes
📝 Note : Cette transcription est générée à partir de la discussion audio entre deux experts.
🎧 Écouter la discussion audio
📖 Article associé : Lire l'article complet →
📋 Transcription complète de la discussion
Animatrice : [00:00]
On vit vraiment une époque fascinante avec l'intelligence artificielle. Des outils comme ChatGPT, Gemini, Claude... ils sont devenus incroyablement performants. Mais ils ont un défaut majeur. C'est un peu comme un expert de génie qu'on vient d'embaucher, mais qui n'a jamais mis les pieds dans nos bureaux. Il connaît la théorie sur tout, mais ne sait absolument rien de nos clients, de nos projets, de notre culture d'entreprise. Pour notre discussion aujourd'hui, on va vraiment décortiquer ce problème-là. On s'appuie sur une excellente analyse du blog de la firme Force 5. Notre objectif, c'est de comprendre une technologie qui change la donne : le RAG, pour Retrieval Augmented Generation. C'est la technologie qui vient en quelque sorte "plugger" l'IA directement sur le savoir de l'entreprise pour la rendre ben... vraiment utile.
Animateur : [00:36]
C'est exactement ça. En fait, en termes simples, le RAG, c'est une méthode qui oblige une IA à faire ses devoirs avant de parler. Au lieu de répondre en se basant uniquement sur sa formation générale qui date parfois de plusieurs mois, elle va d'abord consulter des documents pertinents. Des documents qu'on lui fournit en temps réel. Ça la force à s'ancrer dans les faits, ceux de l'entreprise. Ce qui la rend non seulement plus pertinente, mais surtout beaucoup plus fiable.
Animatrice : [01:00]
Pour aider à visualiser le tout, la documentation de Force 5 utilise une analogie que je trouve très, très parlante. L'IA, c'est un stagiaire exceptionnellement brillant.
Animateur : [01:10]
Hmm hmm.
Animatrice : [01:11]
Il peut analyser, synthétiser, écrire du code, rédiger des courriels... mais il arrive le premier jour et il est complètement perdu. Il ne connaît pas les projets, les clients, les procédures.
Animateur : [01:21]
Et le RAG, pour poursuivre cette analogie, c'est comme lui donner non pas toute la bibliothèque des archives de l'entreprise...
Animatrice : [01:27]
Non, ça serait trop.
Animateur : [01:28]
Beaucoup trop. C'est lui donner le dossier précis dont il a besoin, au moment où il en a besoin. Si on lui demande de faire un suivi pour un client, le RAG va chercher le dernier compte-rendu, les derniers courriels, et il place ça sur son bureau. Ce stagiaire, il n'a pas à tout mémoriser, il consulte juste l'info pertinente pour sa tâche.
Animatrice : [01:47]
C'est le principe de l'examen à livre ouvert.
Animateur : [01:49]
Précisément. On ne teste pas sa mémoire, on teste sa capacité à utiliser l'information qu'on lui donne pour trouver la bonne réponse.
Animatrice : [01:55]
D'accord. Euh... décomposons ça. Concrètement, si je pose une question à une IA qui est équipée du RAG, qu'est-ce qui se passe sous le capot ? Comment ce stagiaire trouve le bon dossier et me donne une réponse intelligente ?
Animateur : [02:09]
Ben le processus est assez élégant. Et il se fait en quatre étapes très rapides. Disons qu'on a déjà une base de connaissances. Des PDF, des documents Word...
Animatrice : [02:18]
Les documents internes de l'entreprise.
Animateur : [02:20]
Voilà. La première étape, c'est tout simplement la demande. Vous posez votre question, par exemple : "Quel est le statut du projet Alpha pour le client X ?"
Animatrice : [02:29]
Simple. Et ensuite ?
Animateur : [02:31]
L'IA ne répond pas tout de suite, tu imagines.
Animatrice : [02:33]
Non.
Animatrice : [02:34]
Et c'est là que la magie opère. La deuxième étape, c'est la récupération. Le système RAG, il agit comme un moteur de recherche. Mais un moteur de recherche ultra spécialisé.
Animateur : [02:43]
Il ne cherche pas sur Google ?
Animatrice : [02:44]
Non, il fouille dans votre base de connaissances. Il va identifier les paragraphes, les phrases, les extraits les plus pertinents pour répondre à la question sur le projet Alpha. Il pourrait trouver, euh... trois paragraphes du dernier rapport d'avancement et une note dans un courriel récent.
Animateur : [02:59]
Donc c'est un peu comme un Google interne sur stéroïdes. Il trouve le passage exact, pas juste le document de 50 pages où l'info se cache.
Animateur : [03:07]
Précisément. Ce qui nous amène à la troisième étape : l'augmentation. Le système prend maintenant votre question originale et il y accole les extraits qu'il vient de trouver. Il prépare une sorte de super requête pour le grand modèle de langage. Ça ressemble à quelque chose comme : "En te basant uniquement sur les extraits suivants, quel est le statut du projet Alpha ?"
Animatrice : [03:27]
Ah je vois. On lui donne le livre ouvert et on lui dit exactement sur quelle page regarder.
Animateur : [03:31]
Exactement. Et ça mène à la quatrième et dernière étape : la génération. Le modèle d'IA, que ce soit ChatGPT ou Gemini, reçoit cette requête augmentée avec tout le contexte. Il n'a plus à deviner, il n'a plus à inventer. Sa seule tâche, c'est de synthétiser l'information qu'on lui a fournie pour formuler une réponse claire, précise et factuelle.
Animatrice : [03:51]
Ce qui doit drastiquement réduire un problème dont on entend beaucoup parler : les fameuses "hallucinations" de l'IA. Une hallucination dans un contexte créatif, c'est une chose...
Animateur : [04:01]
Oui.
Animatrice : [04:02]
...mais dans un rapport pour un conseil d'administration, c'est une catastrophe.
Animateur : [04:05]
C'est le bénéfice le plus immédiat. Une hallucination, c'est quand l'IA... ben elle ne connaît pas la réponse, mais comme elle est programmée pour être utile à tout prix, elle va en inventer une. Une réponse qui a l'air crédible.
Animatrice : [04:17]
C'est son pire défaut en contexte professionnel.
Animateur : [04:19]
Absolument. Le RAG agit comme un garde-fou. En contraignant l'IA à baser sa réponse sur des documents fournis, on l'ancre dans la réalité de l'entreprise. La probabilité qu'elle invente des faits, elle diminue de façon spectaculaire. C'est ça qui change la donne.
Animatrice : [04:35]
Justement parlons de ça. Si on ancre l'IA dans nos propres documents, l'impact sur les opérations doit être immédiat. Pour un dirigeant ou une dirigeante qui nous écoute, ça se traduit comment au quotidien ? Au-delà de la technique, qu'est-ce que ça change vraiment ?
Animateur : [04:50]
Si on devait résumer le changement de paradigme, c'est qu'on passe d'une IA qui sait des choses de manière générale, à une IA qui sait où trouver la bonne information de manière spécifique à l'entreprise.
Animatrice : [05:01]
C'est moins une question de mémoire que de compétence.
Animateur : [05:03]
C'est exactement ça. Et ça apporte des avantages très, très concrets.
Animatrice : [05:07]
Comme le fait que l'information est toujours à jour, j'imagine ? Pas besoin d'attendre la prochaine grande mise à jour du modèle.
Animateur : [05:13]
C'est un point crucial. Le premier avantage, c'est l'actualisation. Réentraîner un modèle comme celui d'OpenAI, ça coûte des millions de dollars, ça prend des mois. C'est hors de portée pour 99,9% des entreprises. Avec le RAG, si une nouvelle politique de ressources humaines est publiée, on ajoute simplement le PDF à la base de connaissances. Et en quelques secondes, l'IA est à jour. C'est instantané et peu coûteux.
Animatrice : [05:37]
Et ça rend les réponses beaucoup plus pertinentes, évidemment.
Animateur : [05:40]
C'est le deuxième avantage : la pertinence. L'IA commence à parler le langage de l'entreprise. Elle utilise votre jargon, elle connaît vos produits, elle comprend l'historique de vos clients.
Animatrice : [05:50]
Ses réponses ne sont plus génériques.
Animateur : [05:52]
Non, elles sont contextuelles. Ce qui amène directement au troisième point : la fiabilité. Moins d'hallucinations, comme on l'a dit. Et enfin le quatrième avantage, qui est essentiel pour la confiance : la vérification.
Animatrice : [06:04]
C'est-à-dire ?
Animateur : [06:05]
La plupart des bons systèmes RAG peuvent citer leurs sources. L'IA vous donne une réponse, et elle ajoute un lien cliquable vers le paragraphe exact du document qu'elle a utilisé. Un humain peut donc valider l'information en un instant.
Animatrice : [06:18]
Je pense tout de suite à notre propre équipe de vente. Ils passent un temps fou à chercher des spécifications techniques dans de vieux PDF pour répondre précisément aux clients. C'est le genre de cas d'usage parfait pour ça ?
Animateur : [06:30]
Absolument. C'est même l'un des plus courants. Et avec le retour sur investissement le plus rapide. Imaginez, au lieu de chercher, le vendeur demande dans une fenêtre de clavardage : "Quelles sont les différences de garantie entre le modèle Pro et le modèle Élite pour un client au Québec ?"
Animatrice : [06:45]
Et le système répond instantanément ?
Animateur : [06:47]
Instantanément. Et précisément, avec les sources. Mais ça va bien au-delà de la vente.
Animatrice : [06:51]
Donnez-nous d'autres exemples ?
Animateur : [06:53]
Pensons service à la clientèle. Un agent conversationnel qui, avant même de répondre, consulte l'historique d'achat du client, ses billets de soutien précédents. La réponse est immédiatement personnalisée.
Animatrice : [07:05]
Hmm hmm.
Animateur : [07:05]
Pour le soutien technique : une IA qui guide un technicien sur le terrain en se basant sur les schémas les plus récents. En analyse financière, on peut lui donner les trois derniers rapports trimestriels et demander : "Extrais les principaux risques mentionnés par la direction." Et bien sûr, les ressources humaines. Un assistant qui répond 24/7 aux questions des employés sur les politiques de vacances en se basant strictement sur le manuel de l'employé. Ça évite toute mauvaise interprétation.
Animatrice : [07:29]
D'accord, ça semble presque magique, mais il doit y avoir une contrainte. On ne peut pas simplement lui donner 20 ans d'archives et lui dire "lis tout ça et réponds-moi" j'imagine. Il y a forcément une limite.
Animateur : [07:41]
Effectivement, et vous mettez le doigt sur la limite technique la plus importante de cette technologie. C'est le concept de la "fenêtre de contexte", ou context window en anglais. Il faut voir ça comme la mémoire à court terme de l'IA. Ou plus simplement comme la surface de son bureau de travail. C'est tout l'espace dont elle dispose pour traiter une requête à un moment donné. Et cet espace, il n'est pas infini.
Animatrice : [08:01]
Et qu'est-ce qui occupe de l'espace sur ce bureau ? Juste les documents qu'on lui donne ?
Animateur : [08:05]
C'est là que ça devient subtil. Tout. Tout ce qui est lié à votre conversation prend de la place. D'abord il y a les instructions de base que l'IA reçoit. Ensuite votre question. Puis, un élément crucial : l'historique de la conversation. Pour qu'elle se souvienne de ce dont vous avez parlé il y a 5 minutes. Viennent s'ajouter les documents pertinents récupérés par le RAG, qui sont souvent les plus volumineux. Et enfin, il faut même garder de la place pour la réponse que l'IA va générer.
Animatrice : [08:31]
Et tout ça est mesuré en... ?
Animateur : [08:33]
En jetons, ou tokens. Qui sont essentiellement des morceaux de mots.
Animatrice : [08:37]
Et si le bureau déborde ? Si la somme de tout ça est trop grande pour la fenêtre de contexte ?
Animateur : [08:42]
L'IA doit faire un choix. Elle doit oublier quelque chose. Généralement elle va laisser tomber les informations les plus anciennes de la conversation. Et c'est là que les problèmes commencent.
Animatrice : [08:52]
Elle perd le fil.
Animateur : [08:53]
Elle peut perdre le fil, ignorer une instruction importante, ou pire, se remettre à halluciner parce que le document crucial qui contenait la réponse a été poussé hors de son bureau. Pour contourner ça, les modèles les plus avancés comme ceux de ChatGPT, Gemini et Claude, développent des mécanismes de mémoire à long terme, mais c'est encore un domaine en pleine évolution.
Animatrice : [09:12]
Et cette limite technique a un impact direct sur le choix de l'outil. La version gratuite de ChatGPT par exemple, avec sa petite fenêtre de contexte, est probablement inutile pour ce genre de travail, non ?
Animateur : [09:23]
La différence n'est pas juste notable, elle est fondamentale. Les versions gratuites n'offrent souvent aucune capacité RAG ou alors de façon très limitée. Avec des fenêtres de contexte minuscules. Ça ne permet pas d'analyser un rapport de plus de quelques pages. C'est vraiment avec les abonnements Pro ou Entreprise qu'on débloque les modèles les plus puissants, avec les plus grandes fenêtres. Pour un usage professionnel sérieux, où on veut analyser des dossiers clients de 100 pages, passer à une version payante n'est pas une option, c'est une nécessité absolue.
Animatrice : [10:19]
Ce qui nous amène à la question qui, je pense, préoccupe tous les dirigeants qui nous écoutent. La question qui tue : la sécurité. Où vont nos données ? Quand on téléverse nos rapports financiers, nos stratégies de R&D, nos listes de clients... que deviennent ces informations confidentielles ?
Animateur : [10:34]
C'est la question la plus importante. Il faut être très clair sur le flux de l'information. Quand vous téléversez un document dans un service comme celui d'OpenAI ou Google, ce document quitte vos serveurs. Il est envoyé sur l'infrastructure du fournisseur. Là-bas, il est découpé, analysé et transformé en ce qu'on appelle des vecteurs numériques. Ils sont ensuite stockés dans une base de données, toujours chez le fournisseur.
Animatrice : [10:29]
Ok.
Animateur : [10:30]
Quand vous posez une question, les extraits pertinents sont récupérés et envoyés au grand modèle d'IA avec votre requête.
Animatrice : [11:06]
Donc, à chaque étape, nos données sont sur des serveurs qui ne nous appartiennent pas. Le risque fondamental, c'est la fuite ou l'utilisation inappropriée de ces informations.
Animateur : [11:15]
Exactement. Le point névralgique, c'est que des données potentiellement très sensibles quittent le périmètre de sécurité de l'entreprise. L'analyse de Force 5 mentionne que les rumeurs sur l'utilisation de ces données pour entraîner les futurs modèles sont... peu probables pour les comptes d'entreprises des géants. L'enjeu réputationnel est immense.
Animatrice : [11:32]
Mais le risque zéro n'existe pas.
Animateur : [11:34]
Jamais.
Animatrice : [11:35]
J'entends l'argument sur la réputation, mais on a vu de très grandes entreprises subir des fuites massives. Le simple fait que nos informations les plus stratégiques quittent nos serveurs, même de façon chiffrée, ça doit donner des sueurs froides à n'importe quel directeur des systèmes d'information. La question, ce n'est pas juste la confiance, c'est le contrôle.
Animateur : [11:54]
Vous avez parfaitement raison. Ce n'est pas de la paranoïa, c'est de la saine gouvernance. Et c'est pour répondre à ce besoin de contrôle qu'il existe une gradation de solutions de sécurité. La première, la plus accessible, c'est de souscrire aux abonnements d'entreprise. Des plans comme ChatGPT Enterprise ou Gemini for Workspace. Ils offrent des garanties contractuelles solides. Vos données ne sont pas utilisées pour l'entraînement, elles sont chiffrées, isolées. C'est une première couche de protection indispensable.
Animatrice : [12:23]
Et pour une entreprise dans un secteur très réglementé, comme la finance ou la santé, qui ne peut se permettre de laisser aucune donnée sortir ?
Animateur : [12:31]
Pour ces organisations, on passe aux solutions sur site, ou On-premise. Il y a deux saveurs principales. La première, c'est une approche hybride, qui est souvent un excellent compromis.
Animatrice : [12:41]
C'est-à-dire ?
Animateur : [12:41]
L'entreprise garde la partie la plus sensible, la base de données avec ses documents, à l'interne, sur ses propres serveurs. Quand un utilisateur pose une question, seuls les quelques extraits de texte pertinents sont envoyés dans le nuage. Le document complet, lui, ne quitte jamais l'entreprise.
Animatrice : [12:57]
Ah, ça réduit massivement la surface de risque.
Animateur : [13:00]
Énormément. Et puis il y a l'option "Fort Knox".
Animatrice : [13:03]
L'option Fort Knox ?
Animateur : [13:05]
Le 100% local. Dans ce cas, tout est hébergé à l'interne. Les documents, la base de données, et même le modèle d'IA lui-même. On utilise alors des modèles open source comme Llama ou Mistral. C'est la solution qui offre un contrôle absolu, la sécurité maximale. Par contre, elle est aussi beaucoup plus coûteuse et complexe à mettre en place. Ça demande une expertise technique pointue.
Animatrice : [13:26]
Donc, si je résume, le RAG est cette technologie clé qui transforme une IA générique en un véritable expert sur mesure pour l'entreprise. Mais pour que la magie opère sans risque, le succès repose sur une stratégie de sécurité lucide et le choix de la bonne architecture, qui correspond au niveau de sensibilité de ces données. Pour terminer sur une note plus concrète, l'analyse de nos sources propose une petite expérience fascinante pour vraiment saisir la puissance de cette technologie. C'est le test de l'aiguille dans une botte de foin.
Animateur : [13:59]
J'adore ce test.
Animatrice : [14:00]
Prenez un document qui n'a jamais été publié en ligne. Quelque chose d'absolument unique. Par exemple, la recette de sucre à la crème de votre mère que vous numérisez. Donnez ce document à une IA dotée de RAG, puis posez-lui une question très précise comme : "Combien de tasses de cassonade la recette contient-elle ?" C'est une façon tangible et amusante de voir par soi-même comment l'IA peut extraire une information ultra précise d'une source privée qu'elle n'avait jamais vue auparavant. Pour celles et ceux qui souhaitent approfondir ces concepts et explorer comment les appliquer dans leur propre organisation, le site de Force 5, au force5.ca, est une excellente ressource. On y trouve d'autres articles similaires, des foires aux questions très complètes, ainsi que des études de cas sur des transformations numériques réussies. L'adresse est https://force5.ca/.
📌 Note : Cette transcription complète et détaillée du podcast permet une meilleure accessibilité du contenu audio et offre une alternative textuelle pour ceux qui préfèrent lire ou rechercher des passages spécifiques de la discussion.
podcast RAG écouter podcast RAG discussion audio RAG conversation experts RAG podcast experts IA écouter discussion IA transcription podcast RAG retranscription complète accessibilité audio version texte discussion discussion verbatim podcast Québec podcast transformation numérique audio transformation numérique podcast Force5 discussion audio entreprise conversation audio experts