Data Cleansing

On voit souvent dans les fichiers quelque soit leur destination  (clients, prospects, fournisseurs, articles, etc)des anomalies, telles doublons, erreurs,  qui impactent la qualité des données, leur exploitation et le reporting qui en est fait.

Le Data Cleansing représente 70% du coût et de l'effort d'implémentation des projets de datawarehouse. Le Data Warehousing Institute a déterminé que c'était le problème N°2  après les coupures de budget . L'étude portait sur un échantillon de 1648 sociétés mettant en oeuvre un logiciel de reporting analytique de l'activité.


Pour répondre à tous ces besoins et détecter les erreurs, nous avons un atelier que nous pouvons vous proposer soit sous forme de services ou de produits afin de corriger les anomalies et améliorer la qualité de vos données.

Vos données sont traitées à partir de critères spécifiques et prêtes à une meilleure exploitation.

C'est un outil automatique qui recherche des anomalies dans les données. On peut le considérer comme un auditeur de la qualité des données qui chasse pour des enregistrements ayant des valeurs surprenantes d'attributs nominal (discrete) et/ou numéric (continu). L'outil recherche des sous ensembles d'enregistrement dans lequel l'anomalie est apparente. Par exemple, l'outil peut relever dans l'age d'une population deux femmes de 70 ans. Ceci n'est pas surprenant mais si l'on considére qu'elles sont enceintes.

L'outil a été conçu pour analyser des bases de données substantielles contenant des dizaines ou centaines de milliers d'enregistrements de champs numérique ou nominal. Les valeurs anormales sont reportés avec une explication de pourquoi elles sont anormales. L'atelier fonctionne sur  Windows 98/Me/2000/XP/Solaris et IRIX.

 

 

 



Bottom page