Data Warehouse

Data Warehouse :

Voordat er aan Business Intelligence (BI) rapportages en analyses gewerkt kan worden, moet de data die daarvoor nodig is meestal eerst worden verzameld uit een of meerdere bronsystemen (Oracle, SQL-Server, flat files, ERP-systemen, Social Media, etc.).
De verzamelde data uit verschillende bronsystemen kan worden samengebracht in een Data Warehouse (DWH) als aparte rapportage omgeving, onafhankelijk van de operationele productie systemen, ten behoeve van efficiëntie en performance. Tijdens het laden van de brondata, kan de data tevens worden gevalideerd, gecorrigeerd,  geïntegreerd en eventueel verrijkt. Een van de belangrijkste taken van een Data Warehouse is het bijhouden van historie op de objecten waarover de informatie wordt verzameld omdat veel bronsystemen dit niet zelf doen.
Oracle heeft een standaard model voor een Data Warehouse gedefinieerd gebaseerd op best practices. Onderstaand diagram toont de Oracle Information Management Reference Architecture:
Data Warehouse

In dit model vinden we de basis elementen van een Data Warehouse terug met 3 lagen, respectievelijk:

– De Raw Data Reservoir (Staging Layer), waar de data initieel wordt geladen uit de diverse databronnen
– De Foundation Layer (Online Data Store) bevat de informatie in een model dat data georiënteerd is, zodat de informatie voor zoveel mogelijk doeleinden kan worden gebruikt
– De Access & Performance Layer heeft een structuur die het mogelijk maakt om de gewenste BI-rapportages te maken.

Als uitgangspunt is dit model is een goede basis voor de architectuur, echter een pragmatische invulling is ook mogelijk waarbij afhankelijk van de klantwensen een vereenvoudigde structuur kan worden gekozen.

ETL Tools :

Het vullen van een Data Warehouse kan op veel manieren worden gerealiseerd, maar meestal wordt er gebruik gemaakt van een gespecialiseerd ETL-Tool. Oracle heeft twee van deze tools in haar portfolio:

– Oracle Warehouse Builder (OWB)
–  Oracle Data Integrator (ODI)

ETL, maar Oracle gebruikt ook vaak de term ELT, staat voor Extract, Transform, Load. Dit zijn de drie fasen die normaal gesproken bij het laden van een Data Warehouse worden doorlopen. Omdat zowel OWB als ODI geen gebruik maken van een middle-tier geeft Oracle de voorkeur aan ELT, omdat de transformatie fase in het warehouse plaatsvinden en niet in een tussenlaag.

– Oracle Warehouse Builder (OWB) is een ETL-tool om op een grafische manier  een omgeving te bouwen inclusief  het beheer en onderhoud van data-integratie processen in Business Intelligence systemen. De basisfuncties van OWB zijn onderdeel van de database, hiervoor zijn geen aanvullende licenties nodig. OWB is het oorspronkelijke ETL-tool van Oracle voor het laden naar uitsluitend een Oracle DWH-omgeving.

– Oracle Data Integrator (ODI) is het strategische data integratie tool van Oracle en blinkt uit in flexibiliteit m.b.t. bron- en doel systemen met o.a. adapters voor diverse ERP-systemen waarbij tevens een ETL-load naar naar niet-Oracle DWH-omgevingen kan plaatsvinden (database onafhankelijk). Door de toepassing van zogenaamde Knowledge Modules kan ODI worden uitgebreid met nieuwe functionaliteit. Bovendien maakt ODI gebruik van een Agent voor het uitvoeren van de code die lokaal of op een WebLogic Application Server geïnstalleerd kan worden, al dan niet in een geclusterde High Availability configuratie. ODI wordt uiteindelijk de opvolger van OWB. Voor bestaande OWB-omgevingen biedt Oracle migratie tools om te migreren naar ODI.

Tot slot, (Near) Real-time Data Warehousing is een trend die de laatste jaren steeds meer op komt zetten. Daarbij worden de datawijzigingen uit de bronsystemen in een continue stroom aan het DWH aangeboden. Dit wordt meestal gerealiseerd met tools als Oracle Golden Gate of Dbvisit ReplicateDeze tools stellen ons in staat elke wijziging op een database op te vangen en op een andere database te herhalen, zo gaat er niks verloren. Dit wordt op een manier uitgevoerd zodat dit een minimale extra belasting legt op het bronsysteem. Het Data Warehouse kan nu continu worden bijgewerkt zodat de rapportage altijd up-to-date is.