Efficacité Opérationnelle
Améliorer l'efficacité de l'intelligence de marché avec les LLM
Exploiter les LLM pour obtenir des informations précieuses à partir de données textuelles non structurées plus rapidement, à moindre coût et de manière plus fiable qu'un analyste à plein temps.
Tirer parti des grands modèles de langage pour obtenir des insights précieux à partir de données textuelles non structurées, plus rapidement, moins cher et de manière plus fiable qu'un analyste à plein temps.
Une entreprise médiatique voulait extraire les tendances clés de l'industrie à partir des rapports trimestriels des entreprises.
Dans ce projet, nous avons démontré comment les grands modèles de langage (LLM) pouvaient extraire des insights précieux à partir de vastes quantités de données non structurées. Pour certaines tâches, notre pipeline pouvait même surpasser le travail manuel d'un analyste financier.
Contexte & Objectifs
L'objectif du projet était d'obtenir des insights clairs et complets sur les tendances sectorielles et les stratégies des entreprises.
A la fin du projet, notre pipeline LLM devait prouver la faisabilité d'extraire les informations requises plus rapidement qu'un analyste financier tout en maintenant la qualité des données. Pour être convaincant, le pipeline LLM ne devait pas permettre à l'analyste financier de rattraper la charge de travail que le pipeline peut gérer.
Une grande partie de notre objectif était d'être plus rapide et plus fiable qu'un humain.
Environ 500 rapports d'entreprise issus des réunions trimestrielles des actionnaires ont fourni de grands volumes de données textuelles non structurées riches pour l'analyse par les grands modèles de langage.
Cependant, notre objectif était d'extraire des tendances spécifiques liées à un seul département. Cela signifiait qu'il pouvait y avoir des cas où seulement quelques phrases feraient référence au sujet souhaité dans un rapport entier. Pour cette raison, nous devions être prudents quant aux implications des données éparses sur les résultats, notamment leur impact sur la précision.
De plus, puisqu'une grande partie de notre objectif était d'être plus rapide et plus fiable qu'un humain, nous devions comparer nos résultats à ceux d'un analyste traitant manuellement les mêmes données. Nous avons identifié trois principaux défis que nous devions surmonter pour atteindre l'objectif du projet :
Exhaustivité : Un analyste lisant le contenu ne manquerait aucune information ou contenu essentiel. Ainsi, pour atteindre l'objectif, nous devions nous assurer que notre modèle ne manquait aucune information clé avec un haut degré de certitude.
Fiabilité : Un analyste lisant le rapport n'inventerait ni ne modifierait aucune information. Nous devions donc nous assurer que notre modèle n'avait pas d'hallucinations et, lorsque nous n'avions pas de résultats parfaits, nous devions définir des niveaux de confiance raisonnables.
Structure : Notre solution devait permettre la détection de motifs et de tendances dans un format structuré. Nous y sommes parvenus en convertissant avec succès le texte en données structurées dans Excel, permettant des analyses quantitatives et qualitatives supplémentaires (comme des tableaux de bord).
Approche
L'approche pourrait être divisée en deux étapes principales :
Filtrage et synthèse de l'information à partir des rapports textuels bruts : Le résultat de cette première étape était de créer une liste de phrases clés pour chaque rapport. Ces phrases clés contenaient et résumaient tous les insights qui devaient être structurés.
Structuration des phrases clés : Les phrases clés devaient ensuite être structurées pour s'adapter à un format Excel. Le principal défi ici était la diversité du formatage des informations.
Système de pooling avec plusieurs modèles adaptés
Pour améliorer encore la précision de l'extraction du contenu, nous avons utilisé une technique appelée pooling. Au lieu de dépendre d'un seul modèle, nous avons agrégé les résultats de plusieurs modèles. Cette technique a entraîné une amélioration significative de la précision de l'extraction de contenu par 50 % !Système de vote basé sur LLM

Système de vote basé sur LLM
Pour garantir que le défi de la fiabilité soit satisfait, nous avons introduit un système de vote. Ce système impliquait de faire fonctionner des requêtes répétées avec différents modèles (GPT-3.5 et GPT-4) et d'attribuer des pouvoirs de vote à chaque modèle. Nous avons sélectionné le résultat avec le plus grand nombre de votes comme résultat. Si le nombre de votes ne dépassait pas un certain seuil, nous classions les informations extraites comme non fiables et sujettes à un examen manuel.
Nous avons trouvé essentiel de prioriser la qualité de l'invite par rapport à la mise à niveau du modèle pour obtenir les meilleurs résultats.
Tout au long du projet, il est devenu évident que la qualité de l'invite avait un impact significatif sur les résultats. Même avec les derniers modèles GPT plus chers, partir d'une invite de base bien conçue et adaptée donnait de meilleurs résultats. Par conséquent, nous avons trouvé essentiel de prioriser la qualité de l'invite sur la mise à niveau du modèle pour obtenir les meilleurs résultats.
De plus, l'arbitrage entre investissement (temps et argent) et résultats était une considération importante. Passer de GPT-3.5 à GPT-4 a entraîné une augmentation des coûts de 30X. Ce montant est surprenant, et le développement d'un système capable d'équilibrer cet arbitrage était crucial.

Le processus de sélection du bon LLM
Le coût d'exploitation du pipeline LLM était au moins dix fois moins cher qu'un analyste à plein temps.
Nous avons estimé que notre processus de développement des invites conduisait à des coûts globaux inférieurs à ceux du travail manuel similaire d'un analyste à plein temps. Nos premières estimations montraient que le coût d'exploitation du pipeline LLM était au moins dix fois moins cher qu'un analyste à plein temps.
Résultats
Nous avons développé une solution pour notre client utilisant des LLMs qui pouvaient extraire des données plus rapidement et moins cher qu'un analyste qui était aussi précis et fiable, voire plus. Dans ce projet, nous avons dû relever le défi de l'exhaustivité, de la fiabilité et de la structure dans notre approche. Ce faisant, nous avons encore prouvé que notre client pouvait mettre en œuvre avec succès des LLMs pour éliminer le travail manuel intensif en temps et améliorer l'efficacité opérationnelle.
Pour garantir la confidentialité, nous modifions parfois certains détails dans nos études de cas.