Sla over en ga naar content

Bad Data Quality is een Business Killer!

Hoe Garbage-In > Garbage-Out praktijk bijdraagt aan een slechte besluitvorming?

We hebben allemaal wel eens gehoord van garbage in, garbage out. Dit geldt vooral als we kijken naar de gegevens die we gebruiken voor een elegant, goed getest model of software. Als we ons bij het ontwikkelen van een oplossing alleen richten op de kwaliteit van de code en de bibliotheken en tegelijkertijd de kwaliteit van de gebruikte gegevens negeren, dan mag het geen verrassing zijn dat de output van de modellen / software nooit zal zijn wat we ervan verwachten.

Wat is Data Quality?

Vandaag de dag neemt de afhankelijkheid van gegevens voor veel activiteiten en processen snel toe. Gezien ook de hyperautomatiseringstrends wordt de kwaliteit van de gegevens zelf steeds belangrijker. Volgens de Global Data Management Community (DAMA) bestaat datakwaliteit in “planning, uitvoering en controle van de activiteiten waarbij kwaliteitsbeheertechnieken worden toegepast op data, om te verzekeren dat deze geschikt zijn voor gebruik en voldoen aan de behoeften van de data-consumenten”. Datakwaliteitsbeheer is een kernonderdeel van het totale datamanagementproces.

Waarom Data Quality? 

Organisaties gebruiken veel Business Intelligence-oplossingen voor analytische en besluitvormingsdoeleinden. Gegenereerde rapporten zijn alleen betrouwbaar als de datakwaliteit goed is. Data Quality is noodzakelijk voor het succes van elke Business Intelligence oplossing. In het huidige tijdperk, waar de data wordt binnengehaald uit meerdere bronnen, kan de kwaliteit van de data verschillen tussen de bronnen. De basis voor een succesvolle implementatie van Business Intelligence is ervoor te zorgen dat alleen de gegevens van de hoogste kwaliteit de repository bereiken en worden gebruikt voor rapportage en dashboarding. 

Waarom een Data Quality Framework?

Er moet een oplossing voor datakwaliteitsvalidatie voorhanden zijn, die de kwaliteit van de gegevens voortdurend meet en daarop ingrijpt, bij voorkeur geautomatiseerde correcties toepast of op zijn minst de gevonden kwaliteitsproblemen rapporteert. Datamanagementteams moeten deze input niet alleen gebruiken om het specifieke aangetroffen kwaliteitsprobleem op te lossen, maar ook om processen te ontwerpen en te implementeren om het herhaaldelijk optreden van het soortgelijke datakwaliteitsprobleem verder te automatiseren. Welkom bij een Framework voor Data Quality.

Key must-have karakteristieken van een Data Quality Framework:

  • Uitgebreide mogelijkheden om validatie- en genezingsregels te definiëren en uit te voeren tegen diverse data sets;
  • Betrouwbare schaalbaarheidsefficiëntie ter ondersteuning van de monitoring en healing van gegevenskwaliteit in meerdere gegevensdomeinen met consistente prestaties;
  • Uitstekende loggingcapaciteit om de resultaten van de uitvoering van de regels op te slaan ter ondersteuning van auditbehoeften, maar ook voor het meten van de doeltreffendheid van de oplossing en ook voor toekomstige analyse ter verbetering van de kwaliteit van het framework zelf.

Data quality dimensie

Elke organisatie moet een middel hebben om de kwaliteit van de gegevens te meten en te controleren. Organisaties zouden moeten vaststellen welke gegevens van kritisch belang zijn voor hun activiteiten en deze meten aan de hand van de juiste dimensies. Dit zal helpen bij het identificeren van problemen en het plannen van verbeteringen. Omgaan met Data Quality is gewoon een doorlopend proces; de kwaliteit van gegevens regelmatig meten omdat gegevens in de loop van de tijd kunnen veranderen. 

Data Quality dimensies zijn meetattributen van gegevens, die afzonderlijk worden beoordeeld, geïnterpreteerd en verbeterd. Doorgaans worden de volgende zes belangrijke dimensies gebruikt. 

Er zijn nog veel meer dimensies beschikbaar om kenmerkende attributen van gegevens weer te geven. Op basis van de bedrijfscontext kunt u geschikte dimensies kiezen. De volgende links zijn nuttig om meer details te krijgen over data dimensies:

Data Quality natively behandelen in Azure

Azure biedt een eenvoudige maar krachtige manier om Data Quality problemen aan te pakken tijdens het definiëren van een datastroom.

De stappen in deze voorbeeldgegevensstroom worden hieronder afgebeeld:

  1. Definieer source dataset met source parameters en gekoppelde diensten
  2. Gebruik schema modifier Selecteer optie filter kolommen waarop u Data Quality regels wilt toepassen
  3. Met behulp van Derived Column regel implementeren met behulp van expressietaal tegen de kolomwaarden
  4. Om het geaggregeerde resultaat van de algemene data quality te verkrijgen, gebruikt u de Surrogaatcode en de Aggregate schema modifier van de data flow
  5. Gebruik bestemming Sink om het resultaat van de data quality op de gewenste plaats op te slaan met behulp van sink-parameters en gekoppelde diensten.

Met behulp van dataflow binnen Azure data factory kunnen we meting van data kwaliteitsregels implementeren en Power BI gebruiken voor de rapportage daarvan.

Een data quality framework kan worden onderverdeeld in twee delen: Meting en rapportering. Deze moeten ontkoppeld worden zodat ontwikkelaars meerdere manieren kunnen kiezen om data kwaliteit te meten gebaseerd op gebruikte technologiën voor ingestion of keuze van ontwikkelaars en de rapportering op organisatieniveau standaard te houden. Bijvoorbeeld Data Quality meting kan worden uitgevoerd met behulp van ADF, Databricks, custom apps etc. op basis van behoefte/keuze terwijl de rapportage consistent blijft met Power BI door een vaste set van velden te accepteren om rapporten te genereren.

Conclusie

Elke organisatie die de ambitie heeft om een “Insights-Driven” organisatie te zijn, moet een vertrouwd Data Quality framework hebben dat de Garbage-In > Garbage-Out constellatie elimineert. De alternatieven kunnen gewoon te schadelijk zijn. Devoteam M Cloud is een Microsoft Managed Partner met een bewezen track record in het brengen van organisaties naar hun volgende niveau van data & insights journey. Neem contact met ons op voor deskundig advies over Data Kwaliteit of een ander data & inzichten gerelateerd onderwerp.