HumanTalks Paris
Gestion de la qualité dans un ETL
10 Mar 2020 at HumanTalks Paris Mars 2020
10 minutes
J'ai participé à la mise en place d'un ETL (extract - load - transform) qui remonte en temps réel des données dans un datalake. Pour certifier la qualité des données mises à disposition dans notre Datalake, nous avons du mettre en place des solutions d'alerting et de monitoring visuel pour détecter d'éventuelles pertes de données ou des erreurs dans leur transformation. Après avoir présenté très brièvement notre architecture et les enjeux du projet, je présenterai les solutions mises en place pour contrôler la qualité des données :
- Mise en place de dashboards sur l'outil Chartio pour une vision macro des données
- Analyse micro des erreurs grâce à un outil développé en interne
- Mise en place d'un système d'alerting sur Slack
- Génération semi-automatique de diagrammes Sankey Charts (en Cascade) pour mieux visualiser les filtres et bugs dans notre ETL
- Génération automatique d'une documentation des calculs (business rules) qui transforment les données pour que les analystes puissent les challenger.