Grazie alla crescita esponenziale dell’Information Technology, oggi i processi con cui lavoriamo sono in parte o completamente digitalizzati. Da anni ci impegniamo a immagazzinare, conservare, trasferire, trasformare e, in generale, gestire dati per supportare i sistemi IT indispensabili al funzionamento della nostra organizzazione. Ma siamo sicuri di sfruttare appieno le potenzialità dei dati di cui disponiamo?
Nel tempo abbiamo compreso che i dati raccolti tramite i sistemi IT sono preziosi anche perché, se analizzati in modo adeguato, ci aiutano ad assumere decisioni tempestive e informate. Ma di pari passo ci stiamo rendendo conto che, per riuscire ad estrarne il massimo valore, abbiamo bisogno di dati di qualità.
Dati mancanti, incoerenti, non aggiornati o non accurati, possono fornire informazioni sbagliate ai decisori e condurre a scelte inopportune che, in ultima analisi, si traducono in perdite economiche.
Che cosa significa qualità dei dati e perché ne abbiamo bisogno? Cosa possiamo fare per migliorarla e gestirla? In questo articolo daremo una risposta a queste domande e parleremo delle sfide che in futuro dovremo affrontare in questo campo.
Cos’è la qualità dei dati
La qualità dei dati è la misura di quanto i dati siano adatti allo scopo per cui sono stati raccolti ed analizzati.
I principali benefici della qualità dei dati sono:
- Aumento dei ricavi
Quando un’azienda è in grado di prendere decisioni basate su dati di qualità, è più probabile che si ottengano risultati positivi. Dati inaffidabili si traducono in decisioni sbagliate, che non consentono di cogliere al volo un’opportunità di aumento dei ricavi o, peggio, di evitare un rischio di perdita. - Riduzione dei costi
La qualità dei dati consente a un’organizzazione di operare in modo più efficiente e di completare i progetti utilizzando in modo ottimale le risorse disponibili. Senza un adeguato supporto dei dati, i ritardi e le continue modifiche dei progetti bruciano i budget e rallentano la crescita del business. - Maggiore fiducia nella Data Analytics
La qualità dei dati assicura che per il processo decisionale siano utilizzati solo dati affidabili e, quindi, aumenta la probabilità di successo dell’analisi. I risultati ottenuti grazie ai dati aumentano la fiducia nella Data Analytics. Senza la fiducia delle persone, i sistemi per l’analisi dati non perseguono il loro scopo. Pensiamo ad esempio ad un sistema di Business Intelligence che presenti informazioni non affidabili o comprensibili ai propri utenti: chi vorrebbe usarlo? - Maggiore soddisfazione del cliente
La disponibilità di dati di qualità aiuta a conoscere meglio i propri clienti e, quindi, a progettare e realizzare prodotti e servizi che corrispondano ai loro reali bisogni.
Come misurare la qualità dei dati?
La qualità dei dati non deve essere valutata in modo “soggettivo”; ma, come qualsiasi obiettivo aziendale, deve essere misurata con indicatori quantitativi affinché sia possibile valutarne l’andamento nel tempo ed effettuare analisi comparative.
Vediamo quali sono le principali metriche per misurare la qualità dei dati:
Accuratezza
L’accuratezza si riferisce alla differenza tra il valore teorico e il valore effettivo riportato dai dati.
Una metrica tipica per misurare l’accuratezza è il rapporto tra quantità di dati ed errori (come una voce mancante, incompleta o ridondante). Questo rapporto dovrebbe ovviamente aumentare nel tempo, dimostrando che la qualità dei dati migliora.
Coerenza
Si riferisce alla coerenza tra dati estratti da sorgenti separate che, in base a regole note, non devono entrare in conflitto tra loro. Un esempio di coerenza è, ad esempio, la verifica che la somma dei dipendenti in ogni reparto di un’azienda non superi il numero totale di dipendenti in quell’organizzazione.
Una metrica di coerenza potrebbe misurare la percentuale di dati conformi alle regole stabilite.
Completezza
La completezza indica se ci sono dati sufficienti per trarre conclusioni. La completezza può essere misurata determinando se ogni record è “completo” di tutti i dati previsti.
Consideriamo ad esempio gli articoli di un inventario: ogni riga di articolo per essere valida deve avere un identificatore di prodotto. In questo caso si potrebbe monitorare il numero di record non validi, cioè senza l’identificatore di prodotto compilato, rispetto al totale. Tale metrica andrebbe monitorata nel tempo con l’obiettivo di ridurla.
Tempestività
La tempestività misura il tempo che intercorre tra il momento in cui i dati sono attesi e il momento in cui sono effettivamente disponibili per l’uso.
Una metrica per valutare la tempestività è il time-to-value dei dati, la quantità di tempo speso per ottenere risultati da un set di dati. Sebbene molti fattori possano influire su questa metrica, la difficoltà nel contenimento del time-to-value è da attribuire sicuramente a problemi di qualità dei dati.
Suggerimenti per ottenere la qualità dei dati
Abbiamo discusso dei vantaggi della qualità dei dati e delle caratteristiche che la definiscono. Adesso vogliamo dare qualche suggerimento su come ottenerla:
- Definire le metriche e valutare la qualità dei dati a intervalli regolari; documentare sempre i problemi e gli errori rilevati.
- Quantificare l’impatto – positivo e negativo – della qualità dei dati. Diffondere nell’azienda i dati sul valore generato da dati validi e il costo di una scarsa qualità dei dati, per creare una “cultura della qualità dei dati”
- Identificare i processi chiave, necessari per far crescere la propria azienda. Quindi, concentrarsi sulla qualità dei dati utili a controllare e migliorare tali processi. I dati di un’azienda sono troppi e conviene partire da quelli fondamentali.
- Lavorare per creare un data warehouse, un database centrale in cui registrare solo dati pertinenti, completi, unici e affidabili.
- Creare un team multidisciplinare di data scientist, amministratori di database e sistemi IT e business analyst per assicurare la qualità dei dati. Garantire che non vi siano ambiguità nella responsabilità e che le regole di governance dei dati siano chiaramente comunicate a tutti.
Sfide emergenti sulla qualità dei dati
La qualità dei dati è una delle principali sfide per il successo dell’implementazione dei sistemi di intelligenza artificiale nelle imprese. Senza dati di qualità è difficile costruire i modelli, ad esempio addestrare un algoritmo di machine learning per risolvere un problema aziendale. Inoltre, in un’era caratterizzata sempre più dall’analisi self-service, cioè dall’analisi di dati che abbiamo a nostra disposizione senza possibilità di rilevare e correggere gli errori, l’impatto della qualità dei dati è ancora più forte.
Per molti anni, gli sforzi per ottenere la qualità dei dati si sono concentrati sui dati strutturati archiviati in database relazionali. Ma nel tempo, con la diffusione del cloud e dei big data, la natura dei problemi di qualità dei dati si è evoluta. Sempre più spesso, dobbiamo fare i conti con la qualità di dati non strutturati o semi-strutturati, come ad esempio file di testo, pdf, immagini, etc.
Al crescere della quantità e della varietà dei dati aumentano le problematiche di qualità. La mancanza di qualità dei dati ostacola le applicazioni dell’intelligenza artificiale. Ma, allo stesso tempo, l’intelligenza artificiale potrebbe aiutare a migliorare qualsiasi aspetto della gestione dei dati: l’acquisizione, l’archiviazione, la trasformazione e ovviamente l’analisi dei dati. Dovremo fronteggiare un circolo vizioso che potrà essere interrotto solo riuscendo ad introdurre una corretta gestione della qualità dei dati all’interno delle nostre organizzazioni.