Programme de la formation
Objectifs et enjeux de la qualité des données
- Types d’anomalies
- Types de risques et d’impacts financiers
Bonnes pratiques et organisation des données
- Types de fichiers et de données
- Organisation des fichiers et des données.
Principes de traitements d’anomalies
- Explorer les données pour détecter les valeurs aberrantes
- Traiter les anomalies des variables numériques, des variables catégoriques, des variables textuelles.
- Calculer un score de vraisemblance
Techniques de data science mises en œuvre
- Webscrapping, text-mining, Machine learning, séries temporelles.
- Clustering pour détecter des valeurs aberrantes
- Méthodes de classifications pour calculer un score de qualité
Cas d’application
- Vérification textuelle
- Incohérence de catégories
- Règles de calculs déterministes
- Règles multi-critères
- Segmentation des indicateurs multiples
Manipulation de données géographiques
- Sources des données géographiques, format des données
- Cartes thématiques, cartes avec fonds divers, cartes interactives
- Segmentation des données et zoniers
- Utilisation dans la classification et la régression
Construction d’un géocoedur
- Principe de géocodage
- Programme d’un géocodeur
- Déploiement de la solution
Étude de cas
- Étude de densité et de concentration
- Zones inondables et assurés sinistrés
- Géolocalisation des accidents automobiles