martedì 14 giugno 2011

Funzioni dell’ETL

sabato, 20 marzo 2010

Funzioni dell’ETL e i principali tool software di ETL

Image002



I processi ETL (Extraction, Transformation and Loading - estrazione, trasformazione e caricamento) sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi operativi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL. I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :
  • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.);
  • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form Star Schema, Slowly Changing Dimensions, ecc.);
  • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.
La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), a near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
Ci sono numerose difficoltà da fronteggiare per ottenere un´implementazione efficiente ed affidabile dei processi ETL. I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati granulari (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione. Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc. Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze. Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions. Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.

Alcuni Software ETL:

- SmartDB Workbench;
- Data Studio;
- Integrator;
- Informatica PowerCenter;
- Datastage IBM;
- SSIS Microsoft;
- I-service IngeniumTechnology;
- Scriptella ETL;
- Benetl;
- Oracle Data Integration Suite;
- Kettle Pentaho Data Integration.

p

Nessun commento:

Posta un commento