Programme de la formation
Objectifs et enjeux de la qualité des données
- Types d’anomalies (erreurs de saisies, fautes d’orthographe, erreurs intentionnelles, défaillance du système, etc.)
- Différents types de risques et d’impacts financiers
Bonnes pratiques et organisation des données
- Comment mieux organiser les fichiers
- Comment organiser les données
- Types de fichiers et de données
Principes de traitements d’anomalies
- Comment explorer les données pour détecter les valeurs aberrantes
- Comment traiter les anomalies des variables
- numériques
- catégoriques
- textuelles
- Identifier des clients doublons
- Identifier les anomalies des adresses (un petit exemple)
- Incohérences par rapport aux clauses des contrats
- Calculer un score de vraisemblance
Techniques de data science mises en oeuvre
- Découvrir comment les techniques de data science permettent de contrôler la qualité des données
- Webscraping
- Text-mining
- Machine learning
- Analyse des séries temporelles
- Comment les méthodes clustering permettent de détecter des valeurs aberrantes
- Comment les méthodes de classifications permettent de calculer un score de qualité
Cas d’application
- Vérification textuelle (noms clients, adresses, clauses contrats, et autres saisies manuelles de textes)
- Incohérence de catégories
- Règles de calculs déterministes
- Règles multi-critères
- Segmentation des indicateurs multiples