Des modèles aux pipelines : le parcours d'un Data Engineer

John est passé de la science des données à l'ingénierie pour garantir la qualité et la fiabilité des données. Son rôle souligne l'importance de solides fondations de données pour une science des données réussie, en se concentrant sur une infrastructure complète plutôt que sur des projets individuels.

Alors que les données deviennent le pilier le plus important des entreprises modernes, de nombreux professionnels reconsidèrent leur rôle dans le monde des données. John Hammerschlag d'Agilytic est l'un d'entre eux. Attiré initialement par la science des données pour son frisson de découverte, John a depuis orienté son attention vers l'ingénierie des données – un chemin qui, selon lui, lui permet de « construire la route avant que le voyage ne commence ».

Souvent, les équipes composées principalement de data scientists peinent à progresser en raison d'un manque d'ingénierie des données fondamentale – quelque chose d'essentiel pour le succès à long terme de la science des données. Dans cette interview sincère, John partage comment sa curiosité a évolué de l'analyse des données à leur structuration, révélant les défis et les récompenses surprenants d'un rôle en ingénierie des données. Son parcours reflète une tendance croissante dans le domaine, où comprendre les fondations des données est tout aussi vital que d'interpréter leurs insights."

John Hammerschlag — Ingénieur de données chez Agilytic

Qu'est-ce qui vous a initialement attiré vers la science des données, et comment vos intérêts ont-ils évolué vers l'ingénierie des données ?

J'étais initialement fasciné par l'apprentissage machine et j'aimais travailler avec des modèles pour tirer des insights des données. Cette curiosité est toujours là—je travaille même sur quelques projets personnels d'apprentissage machine. Mais avec le temps, j'ai réalisé que les insights ne valent que par la qualité des données sur lesquelles ils sont basés. De nombreuses entreprises découvrent cela à leurs dépens—sans bases de données solides, le travail de science des données est souvent bloqué ou peu fiable.

Je me suis intéressé à toute la partie préparation des données, ce travail de fond qui assure que les données utilisées sont de haute qualité. Cette prise de conscience m'a conduit à l'ingénierie des données, où je me concentre sur la création d'une plateforme de données fiable. J'aime l'idée de rendre les données vraiment utiles, un peu comme construire une fondation avant de commencer à ajouter les couches d'analyse. De plus, ce changement s'aligne étroitement avec ce que nous observons dans divers projets chez Agilytic : les data scientists ont souvent besoin de pivoter vers l'ingénierie des données pour faire des progrès significatifs.

Comment la mentalité ou l'approche du travail diffère-t-elle entre la science des données et l'ingénierie des données ?

C'est cette différence d'envergure qui bloque de nombreuses organisations—elles ont des data scientists focalisés sur des résultats spécifiques, mais sans le travail d'ingénierie fondamental, leurs efforts ne s'étendent pas. La science des données est très orientée projet. Vous commencez avec un ensemble de données et travaillez vers un objectif spécifique, comme prédire un résultat.

Avec l'ingénierie des données, l'approche est beaucoup plus large. Vous ne regardez pas seulement le but d'un projet; vous concevez un pipeline qui soutient de multiples cas d'utilisation et départements. C'est penser à l'avance—anticiper les besoins futurs, comprendre le flux de données entier de la source à l'utilisation, et s'assurer que l'infrastructure peut gérer tout cela de manière fluide.

Ainsi, vous devez presque voir l’ensemble de l'écosystème de données d'un seul coup d'œil.

En termes de tâches quotidiennes, qu'est-ce qui a changé lorsque vous êtes passé à l'ingénierie des données ?

Mon travail a considérablement évolué. En travaillant dans la science des données, je passais beaucoup de temps à modéliser et à construire des algorithmes. En ingénierie des données, il s'agit plus de construire et de maintenir des pipelines. Par exemple, je passe maintenant beaucoup de temps sur PySpark plutôt que sur les bibliothèques Python généralement utilisées pour la modélisation. Mes tâches consistent à configurer des sources de données, à standardiser les données entrantes, à les agréger de manière logique pour chaque département, et à assurer le bon fonctionnement du pipeline. Le but ultime est de s'assurer que tout le monde dispose de données propres et fiables.

Et les compétences ? Ce changement de rôle a-t-il nécessité de nouvelles compétences ?

Certainement. Même si j'utilise toujours Python, maintenant il est plus centré sur PySpark pour le traitement de données distribuées. SQL est également essentiel, surtout lorsque l'on travaille avec des données structurées sur de grands ensembles de données.

L'ingénierie des données implique également beaucoup de travail dans le cloud, configurer le stockage, les ressources informatiques, et gérer les connexions entre différentes sources de données. C'est technique d'une manière différente – moins sur la précision des modèles et plus sur l'optimisation du traitement et du stockage des données.

Toutes ces compétences sont critiques pour les organisations qui ont besoin de construire des systèmes évolutifs mais qui manquent de cette expertise spécifique.

Y a-t-il eu des idées fausses ou des surprises lors de la transition de la science des données à l'ingénierie des données ?

La véritable surprise pour beaucoup est que l'ingénierie des données est une base critique à long terme, pas une solution rapide. Une idée fausse fréquente est que l'ingénierie des données mène directement à la construction de modèles—ce n'est vraiment pas le cas. Les ingénieurs de données préparent le terrain. Nous veillons à ce que les données soient prêtes et accessibles, mais généralement, nous ne sommes pas ceux qui construisent les modèles avec les données. Cette partie revient généralement aux data scientists.

De nombreux clients ont des idées fausses similaires. Ils pensent souvent que l'ingénierie des données va directement accélérer leur production de science des données, mais c'est plus une question de créer l'infrastructure pour rendre ces projets durables et évolutifs. Les clients réalisent rapidement l'importance de l'ingénierie des données lorsqu'ils font face à des retards et des inefficacités dans le déploiement des modèles sans elle.

Comment fonctionne la collaboration entre les data scientists et les ingénieurs de votre équipe ?

La collaboration est le pilier central sur lequel nous avons construit tous nos projets. Nous sommes assez intégrés, donc il y a toujours une communication ouverte si quelqu'un a besoin d'insights sur une plateforme ou un sujet d'ingénierie des données. Et si j'ai une question sur la modélisation des données, il y a toujours quelqu'un à consulter. Nous avons des canaux dédiés pour les questions et discussions, donc personne n'est laissé à se débattre avec un problème seul. Cet échange nous aide à comprendre les besoins des uns et des autres—les data scientists peuvent nous dire de quels formats de données ils ont besoin, par exemple, ainsi nous n'avons pas à refaire tout à la dernière minute.

Pour les clients, ce type de collaboration étroite entre data scientists et ingénieurs peut être transformateur. Sans une collaboration adéquate, ils font souvent face à des révisions et des inefficacités répétées. Nous avons vu de première main comment combler cet écart peut rationaliser les flux de travail de données et améliorer les résultats des projets.

Quelle valeur ajoutée unique les data scientists apportant à une équipe d'ingénierie des données ?

Ils apportent une perspective sur le résultat final—le but ultime de ce à quoi les données serviront. Cet apport est critique pour nous car il nous aide à structurer les données de manière à les rendre faciles à utiliser pour la modélisation. Sans leurs insights, nous risquerions de livrer des données qui ne correspondent pas exactement à leurs besoins, entraînant des inefficacités et un travail supplémentaire. Leur compréhension de la signification et du but des données ajoute une couche de contexte commercial qui guide notre configuration.

Avez-vous un projet dont vous êtes particulièrement fier ?

Je dirais que mon premier projet d'ingénierie des données a été celui qui m'a marqué. Il s'agissait de créer une plateforme de données sur Azure et de construire une petite application web en Python pour que le client puisse interagir avec les données et les nettoyer directement.

Finalement, nous avons même mis en place quelques modèles de prévision utilisant Prophet et Darts. Ce projet m'a permis de m'occuper de tout, de la configuration de la plateforme de données au déploiement de modèles. C'était le moyen idéal de mélanger compétences en ingénierie des données et science des données.

Quel conseil donneriez-vous à quelqu'un cherchant à faire la même transition ?

Toujours essayer de comprendre l'impact plus large de votre travail.

Il est très facile de se laisser absorber par le côté technique, mais connaître les objectifs finaux—les besoins de l'entreprise et la manière dont les clients utiliseront les données—peut faire une énorme différence. De nombreux data scientists et même des entreprises sont absorbés dans les détails techniques mais passent à côté de la vue d'ensemble de la façon dont l’ingénierie des données permet des insights évolutifs. Souvent, les solutions les plus simples—celles qui garantissent la qualité et l'évolutivité—sont les plus efficaces. Et rappelez-vous, construire des bases de données solides peut sembler lent au début, mais cela accélère le succès à long terme de la science des données.

Alors que les données deviennent le pilier le plus important des entreprises modernes, de nombreux professionnels reconsidèrent leur rôle dans le monde des données. John Hammerschlag d'Agilytic est l'un d'entre eux. Attiré initialement par la science des données pour son frisson de découverte, John a depuis orienté son attention vers l'ingénierie des données – un chemin qui, selon lui, lui permet de « construire la route avant que le voyage ne commence ».

Souvent, les équipes composées principalement de data scientists peinent à progresser en raison d'un manque d'ingénierie des données fondamentale – quelque chose d'essentiel pour le succès à long terme de la science des données. Dans cette interview sincère, John partage comment sa curiosité a évolué de l'analyse des données à leur structuration, révélant les défis et les récompenses surprenants d'un rôle en ingénierie des données. Son parcours reflète une tendance croissante dans le domaine, où comprendre les fondations des données est tout aussi vital que d'interpréter leurs insights."