HumanTalks Paris

Gestion de la qualité dans un ETL

10 minutes

J'ai participé à la mise en place d'un ETL (extract - load - transform) qui remonte en temps réel des données dans un datalake. Pour certifier la qualité des données mises à disposition dans notre Datalake, nous avons du mettre en place des solutions d'alerting et de monitoring visuel pour détecter d'éventuelles pertes de données ou des erreurs dans leur transformation. Après avoir présenté très brièvement notre architecture et les enjeux du projet, je présenterai les solutions mises en place pour contrôler la qualité des données :

  • Mise en place de dashboards sur l'outil Chartio pour une vision macro des donnĂ©es
  • Analyse micro des erreurs grâce Ă  un outil dĂ©veloppĂ© en interne
  • Mise en place d'un système d'alerting sur Slack
  • GĂ©nĂ©ration semi-automatique de diagrammes Sankey Charts (en Cascade) pour mieux visualiser les filtres et bugs dans notre ETL
  • GĂ©nĂ©ration automatique d'une documentation des calculs (business rules) qui transforment les donnĂ©es pour que les analystes puissent les challenger.