[!info] TL;DR : OpenRefine est l'éditeur open source de référence pour nettoyer, fusionner et réconcilier des datasets messy en local.
OpenRefine : nettoyer la data sans Python
Outil libre (issu de Google Refine) qui tourne en local sur ta machine. Pour les datasets sales : doublons, casses, formats mixtes, valeurs proches.
Ce que ça permet
- Charger CSV, JSON, XML, Excel ou Google Sheets
- Faceter et filtrer des colonnes pour explorer les patterns
- Clusteriser les valeurs proches pour fusionner les doublons
- Réconcilier avec Wikidata, des bases externes ou customs
- Annuler infiniment et rejouer un script de nettoyage
- Travailler en local : aucune donnée n'est envoyée au cloud
Pour qui
- Analystes data qui préparent des datasets avant BI
- Journalistes data qui exploitent des fichiers ouverts
- Équipes RevOps qui dédoublonnent CRM ou listes leads
- Chercheurs qui consolident des sources hétérogènes
Mini-playbook
- Importer le dataset dans un projet OpenRefine local
- Facetter chaque colonne pour spotter les valeurs aberrantes
- Lancer un cluster sur les colonnes texte pour fusionner
- Exporter le dataset propre et le script JSON de transformation
Pièges
- Interface vieillotte qui peut rebuter les profils non techniques
- Performances limitées au-dessus de quelques millions de lignes
- Pas de collaboratif : c'est un outil mono-poste
- Maintenance communautaire, releases parfois espacées
- Courbe d'apprentissage sur les expressions GREL
Tags
- Catégorie : 🎯 Sales & Prospection
- Tags : Data, No-Code, Open Source, Free, Productivité, Utilitaire