Compito
RATP Dev a mis en place une plateforme Data groupe dans l'objectif d'industrialiser le déploiement de solutions data et business et de faciliter l'adoption d'une culture Data Driven. Ces solutions couvrent de nombreux périmètres métiers dans l’entreprise : maintenance prédictive, analyse de la charge à bord en temps réel, suivi de la fraude, campagnes marketing voyageurs…etc. L’ensemble de ces solutions permettent à nos réseaux de fournir de nouveaux services à des millions de voyageurs.
L’enjeu de RATP Dev est de proposer une plateforme Data permettant de rationaliser et harmoniser les données en provenance de différentes filiales et générer un socle commun et suffisamment flexible afin que les applications cibles/ utilisateurs finaux (Data Analyst, Data Scientists) puissent les exploiter à bon escient.
RATP Dev a opté pour une solution technique :
- La solution Python/Airflow/DBT qui est en charge de l’ensemble du processus ELT, depuis l’ingestion, la transformation jusqu’à la construction des datamarts Snowflake exploités dans Qlik et d'autres applications.
- La solution AWS SQS/SNS/Snowpipe pour l’ingestion des données en temps réel pour les données s’appuyant sur du Kafka/ API et AWS Lambda sous Python dédié à la transformation de données.
Dans le cadre du déploiement de nouveaux cas d’usages Opération et Maintenance, nous sommes à la recherche d’un Senior Data Engineer et Machine Learning Engineer hybride qui jouera un rôle crucial dans notre équipe, combinant les compétences ingénierie des données et en MlOps pour concevoir, développer et optimiser les solutions analytiques liées au périmètre des opérations des réseaux de transport dans un environnement basé sur les technologies AWS.
Cette personne sera chargée de créer des pipelines de données performantes, de développer des modèles analytiques robustes et de les déployer en production, en utilisant principalement Python et les services AWS.
MISSIONS
Conception et Développement de Pipelines de Données :
· Concevoir et mettre en œuvre des pipelines de données efficaces sur AWS, en utilisant des services tels que SQS, SNS, MSK, Lambda, EventBridge, S3, MWAA (AWS Airflow).
· Assurer la collecte, le nettoyage, la transformation et la préparation des données pour les rendre prêtes à être utilisées dans les modèles analytiques.
Développement de Solutions Analytiques :
· Collaborer avec les équipes d'analyse de données pour industrialiser leurs solutions analytiques répondant aux besoins métiers.
· Développer et industrialiser des modèles analytiques en utilisant des techniques d’Intelligence Artificielle et de Machine Learning (SageMaker, Bedrock, Comprehend, Tensorflow, scikit-learn, ...) et des bibliothèques Python.
Déploiement en Production et Optimisation :
· Déployer les modèles analytiques en production sur AWS, en garantissant leur scalabilité, leur performance et leur fiabilité.
· Mettre en place des mécanismes de surveillance et de suivi des modèles déployés et effectuer des ajustements et des optimisations en fonction des performances observées.
Collaboration et Communication :
· Travailler en étroite collaboration avec les autres membres de l'équipe pour intégrer les solutions analytiques dans l'architecture globale des systèmes.
· Communiquer efficacement les progrès, les défis et les solutions proposées à l'équipe et à la direction.
Profilo
Formation et Expérience :
· Ecole d'ingénieur, Université en informatique, en statistiques, en mathématiques, en sciences des données ou dans un domaine connexe.
· Minimum 4 ans d'expérience professionnelle pertinente en ingénierie des données et MlOps ou dans un rôle similaire, avec une expérience préalable sur les technologies AWS.
· Certification AWS ou toute autre certification pertinente serait un plus.
Compétences Requises :
· Solides compétences en ingénierie des données et en développement logiciel, avec une expertise dans la conception et le développement de pipelines de données et de solutions analytiques.
· Bonne maîtrise de Python et SQL pour le développement de modèles analytiques et de pipelines de données.
· Connaissance de PySpark, aussi bien pour le traitement batch que pour les flux de données en temps réel serait un plus.
· Expérience avec Airflow pour l’orchestration des workflows de données.
· Familiarité avec Kafka pour la gestion et le traitement des flux de données en temps réel.
· Première expérience avec DBT pour la création de pipeline données serait un plus.
· Connaissance approfondie des services AWS pertinents pour l'ingénierie et l’analyse des données.
· Expérience pratique avec les frameworks et les bibliothèques de Machine Learning.
· Capacité à travailler de manière autonome, à gérer efficacement les priorités et à collaborer avec des équipes multidisciplinaires.
· Bonne communication écrite et orale.
· Maîtrise de l’anglais oral comme à l’écrit