mercoledì 22 giugno 2011

Progetto data integration

Riferimento a progetto di data integration

La  data integration o ETL e' il sistema che consente la sincronizzazione delle base dati di ambienti informatici eterogenei e si articola fondamentalmente nel processo di estrazione dei dati dalle applicazioni, di trasformazione degli 
stessi e del loro caricamento nelle diverse applicazioni destinatarie.

data integration - italsystems

Riferimenti :
Software utilizzato   : TOS talend open studio (open source)
Personale tecnico    : Team tecnico professionale

martedì 14 giugno 2011

Funzioni dell’ETL

sabato, 20 marzo 2010

Funzioni dell’ETL e i principali tool software di ETL

Image002



I processi ETL (Extraction, Transformation and Loading - estrazione, trasformazione e caricamento) sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi operativi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL. I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :
  • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.);
  • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form Star Schema, Slowly Changing Dimensions, ecc.);
  • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.
La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), a near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
Ci sono numerose difficoltà da fronteggiare per ottenere un´implementazione efficiente ed affidabile dei processi ETL. I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati granulari (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione. Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc. Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze. Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions. Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.

Alcuni Software ETL:

- SmartDB Workbench;
- Data Studio;
- Integrator;
- Informatica PowerCenter;
- Datastage IBM;
- SSIS Microsoft;
- I-service IngeniumTechnology;
- Scriptella ETL;
- Benetl;
- Oracle Data Integration Suite;
- Kettle Pentaho Data Integration.

p

Alcuni ETL Software

Alcuni ETL Software

Le principali alternative open source a Pentaho

Le principali alternative open source a Pentaho


I seguenti tre progetti open source rappresentano una valida alternativa a Pentaho nella realizzazione di progetti di Data Integration:
  • Talend: Questa soluzione di data management che è basata sulla piattaforma Eclipsecopre tutti gli aspetti di data integration, data quality e master data management. Usando il Talend Open Studio si può facilmente costruire jobs e processi attraverso una semplice ed intuitiva interfaccia grafica drag and drop. Utilizzando tale ambiente di sviluppo è possibile creare progetti sia in Java che in Perl.
  • Apatar: la seconda alternativa è rappresentata da un tool ETL di data integration tool in Java che fornisce una singola interfaccia per gestire tutti i progetti di integrazione. Utilizzando l'Apatar visual job designer anche i non esperti in programmazione potranno facilmente creare mappe e implementare trasformazioni. Tramite Apatar è possibile collegarsi a molteplici DB tra i quali Oracle, MS SQL, Sybase, DB2, MS Access, PostgreSQL e data sources JDBC.
  • Jitterbit Community Edition: l'ultima alternativa è rappresentata da un tool di integrazione per chi è un pò più tecnico. La versione community di Jitterbit include un designer per definire processi di integrazione, mapping drag and drop, connettività a centinaia di sistemi e tanto altro.

elenco architetture etl

Here is a list of Architecture Patterns, Design Patterns, and Solution Patterns in the Application and Information Architecture Domains.

Sub-Domain AreaArchitecture Pattern NameDesign PatternsSolution PatternsRelated Patterns
Data Integration/SOA
  • One-Way
  • Synchronous Request/Response
  • Basic Callback
  • Claim Check
Data Architecture
  • Custom Applications Databases
  • Packaged Application Databases
  • ETL
  • EAI
  • SOA
Business Intelligence
  • Transactional Reporting
  • Operational Reporting
  • Analytical Reporting
  • Transactional Reporting Data Access
  • Operational Reporting Data Access
  • Analytical Reporting Data Access
  • Analytical Dashboard Data Access
  • Operational Dashboard Data Access
  • Data Mining
  • ETL
  • EAI
  • TDS
  • Operational Data Store
  • Datamart
Master data management
  • Master Data Hub
  • Master Data Replication
  • Master Data Services
  • Master Data Synchronization
Data Modeling
  • Modeling Standards
  • Naming Conventions

Pentaho kettle solutions

Pentaho kettle solutions: building open source etl solutions with pentaho data integration

Pentaho kettle solutions: building open source etl solutions with pentaho data integration

Building open source etl solutions with pentaho data integration

Wiley & Sons Ltd.
di

Matt Casters, Roland Bouman, Jos Van Dongen

Disponibilità: immediata
€ 40,00 Iva Inclusa

Commento e descrizione
A complete guide to Pentaho Kettle, the Pentaho Data lntegration toolset for ETL This practical book is a complete guide to installing, configuring, and managing Pentaho Kettle. If youre a database administrator or developer, youll first get up to speed on Kettle basics and how to apply Kettle to create ETL solutionsbefore progressing to specialized concepts such as clustering, extensibility, and data vault models. Learn how to design and build every phase of an ETL solution. Shows developers and database administrators how to use the open-source Pentaho Kettle for enterprise-level ETL processes (Extracting, Transforming, and Loading data) Assumes no prior knowledge of Kettle or ETL, and brings beginners thoroughly up to speed at their own pace Explains how to get Kettle solutions up and running, then follows the 34 ETL subsystems model, as created by the Kimball Group, to explore the entire ETL lifecycle, including all aspects of data warehousing with Kettle Goes beyond routine tasks to explore how to extend Kettle and scale Kettle solutions using a distributed cloud Get the most out of Pentaho Kettle and your data warehousing with this detailed guidefrom simple single table data migration to complex multisystem clustered data integration tasks.

Pentaho Data Integration

Pentaho Data Integration (ETL)

PDF Stampa E-mail
ETL è l’acronimo, in inglese, di Extract Transform e Load. Indica quella tipologia di strumenti atti a
estrarre informazioni da diverse fonti, elaborarle e solitamente memorizzarle in un Data Warehouse (DB Repository).Pentaho Data Integration
I dati possono essere estratti da sistemi sorgenti quali database transazionali, comuni files di testo o da altri sistemi informatici (ad esempio fogli Excel).
Lo strumento ETL di Pentaho si chiama Pentaho Data Integration (o kettle) ed è un potente strumento con un approccio innovativo e orientato ai metadati; con un'interfaccia intuitiva, graficamente semplice, Pentaho Data Integration permette di integrare i dati con facilità per il programmatore. Grazie a questo strumento si possono incrociare i dati da più fonti e si ha la possibilità di aggiornare i dati in real time.