oracle data warehouse
Oracle Data Warehouse-gids met voordelen, architectuur, risico's en vergelijking met OLTP-systeem (Online Transaction Processing):
In de vorige tutorial van Uitgebreide gids voor Oracle we hebben kennis gemaakt met Oracle-producten en -services in verschillende domeinen, zoals applicaties, databases, besturingssystemen, enz. Dit artikel biedt diepgaande kennis van Oracle Data Warehousing. Maar laten we eerst het concept van Business Intelligence (BI) begrijpen.
Bedrijfsintelligentie
Business Intelligence is een softwaredomein dat bepaalde methoden, technologieën, tools en applicaties omvat die helpen bij het structureren, verfijnen en transformeren van bulkgegevens in een intelligente en begrijpelijke indeling die door klanten kan worden gebruikt voor het genereren van aangepaste rapporten en die ook helpt bij het nemen van zaken. beslissingen.
Er zijn verschillende opties beschikbaar om aan deze behoefte te voldoen, zoals Data Warehousing, OLAP (Online Transaction Processing), Data Mining, Data-integratie, Decision Engineering, Spreadsheets, enz.
Enterprise Data Warehousing (EDW) is een van de kerncomponenten van BI die voorziet in de analytische en rapportagebehoeften van ondernemingen. Data Warehouse is een relationeel databasebeheersysteem (RDBMS) dat geconsolideerde gegevens bevat die zijn ontvangen uit meerdere bronnen voor later gebruik.
SQL server interviewvragen en antwoorden voor ervaren pdf
Wat je leert:
- Oracle Data Warehouse-overzicht
- Vergelijking van OLTP versus datawarehouse
- Contrasterende datawarehouse en datamart
- Overzicht van het ETL-proces
- Datawarehouse-architectuur
- Gevolgtrekking
Oracle Data Warehouse-overzicht
Waarom wordt het ‘Datawarehouse’ genoemd?
Laten we proberen de betekenis van het woord ‘magazijn’ te herinneren om te relateren aan de term ‘datawarehouse’.
Een fysiek magazijn is een opslagplaats die wordt gebruikt voor het opslaan van goederen die uit verschillende bronnen zijn ontvangen, die later aan de klant kunnen worden geleverd op basis van hun behoeften.
(beeld bron
Evenzo is het datawarehouse een opslagplaats van gegevens die zijn ontvangen uit verschillende bronsystemen. Deze bronnen kunnen elk opslagsysteem zijn, zoals datamarts, platte bestanden of media-opslagapparaten met gegevens voor verschillende bedrijfsdomeinen zoals HR, Sales, Operations, Resource Management en Marketing, enz.
Doel van een datawarehouse
Een onderneming heeft misschien gehoord van het concept van datawarehouse, maar ze kunnen er niet zeker van zijn of ze die in hun onderneming moeten opnemen. Toch zou het altijd nodig zijn om gegevens uit verschillende bronnen op gemeenschappelijke grond te dumpen en ze te archiveren, zodat opslagruimte kan worden vrijgemaakt van transactiesystemen. Dit is waar het datawarehousing-systeem een zakelijke vereiste wordt.
Om in de markt te groeien, moet het management goed zijn in besluitvorming, die alleen kan worden genomen nadat de trends uit het verleden van een organisatie grondig zijn bestudeerd. Daarom worden deze gearchiveerde gegevens in een goed georganiseerd en berekend formaat in het datawarehouse bewaard, zodat ze in de toekomst kunnen worden doorverwezen voor bedrijfsanalyse.
Voordelen van datawarehousing
Datawarehouse kan, indien succesvol geïmplementeerd, op de volgende manieren nuttig zijn:
# 1) Het heeft het werk van analisten vereenvoudigd door een verbeterde versie van business intelligence-oplossingen te leveren. Het extraheert gegevens uit meerdere bronsystemen, transformeert en slaat deze op, die direct door het bedrijf kunnen worden opgevraagd voor analyse.
Het biedt ook verschillende tools die het volgende ondersteunen:
- Genereren van zakelijke rapporten op maat.
- Interactieve dashboards met de benodigde informatie.
- Mogelijkheid om alleen door dashboards te bladeren om de details te krijgen.
- Datamining en trendanalyse.
#twee) Zelfs na het ontvangen van gegevens uit verschillende bronsystemen, blijven gegevens binnen een datawarehouse consistent als gevolg van transformaties die plaatsvonden tijdens het ETL-proces. Consistente gegevens geven een besluitvormer vertrouwen in termen van nauwkeurigheid.
# 3) Datawarehouses worden ook gedefinieerd als een tijdbesparing, aangezien de kritische gegevens die belanghebbenden nodig hebben om zakelijke beslissingen te nemen, beschikbaar zijn op één locatie en gemakkelijk kunnen worden opgehaald.
# 4) Deze zijn ontworpen om historische gegevens vast te houden en kunnen daarom worden opgevraagd om trends in verschillende tijdsperioden te bestuderen. Het helpt belanghebbenden ook om het toekomstige groeipad af te leiden.
Risico's verbonden aan het gebruik van datawarehouse
Naast voordelen brengt elke nieuwe implementatie ook een reeks risico's met zich mee die moeten worden aangepakt.
Hieronder staan enkele van de risico's vermeld:
- Niet-compatibiliteit van bronsystemen met het datawarehousing-systeem kan uiteindelijk veel handmatig werk opleveren.
- Een onjuiste schatting van de tijd van het ETL-proces kan leiden tot onderbroken werk.
- Dit zijn zeer hoogwaardige opslagsystemen en vergen dus veel onderhoud. Elke workflow of zakelijke wijzigingen kunnen zeer hoge kosten kosten.
- Het opzetten van een datawarehouse is een tijdrovend proces, omdat het veel tijd kost om de bedrijfsstromen te begrijpen en integratiemogelijkheden te identificeren om een magazijn te ontwerpen.
- Gegevensbeveiliging is hier altijd een risico, aangezien het eeuwenoude historische gegevens bevat die, indien gelekt, invloed kunnen hebben op het bedrijf.
Vergelijking van OLTP versus datawarehouse
De verschillen tussen OLTP en Data Warehouse zijn te zien in de onderstaande tabel.
OLTP | Data opslagplaats |
---|---|
Invoegen en updates zijn de belangrijkste bewerkingen die door eindgebruikers worden uitgevoerd op OLTP-systemen. | Datawarehouses worden voornamelijk ondervraagd met behulp van de SELECT-instructie en kunnen alleen worden bijgewerkt met ETL-services. |
OLTP-systemen ondersteunen zakelijke transacties. | Data Warehouse ondersteunt zakelijke beslissingen die worden genomen na het analyseren van voltooide zakelijke transacties. |
Gegevens blijven vluchtig, d.w.z. blijven veranderen | Gegevens mogen niet worden gewijzigd. |
Ze bevatten de meest recente gegevens. | Ze bevatten de historische gegevens. |
Bevat de onbewerkte gegevens zonder enige berekeningen. | Bevat samengevatte en goed berekende gegevens. |
De gegevens worden genormaliseerd. | Gegevens blijven gedenormaliseerd. |
De grootte van de Oracle-database kan variëren van 50 MB tot 100 GB. | De grootte van de Oracle-database kan variëren van 100 GB tot 2 TB. |
Contrasterende datawarehouse en datamart
beste mp3-muziekdownloader voor computer
Datawarehouse en DataMart klinken niet allebei op elkaar en lijken verband te houden met gegevensopslag.
Ja, ze zijn gerelateerd en beide worden gebruikt voor het opslaan van gegevens. Het belangrijkste verschil tussen beide is de capaciteit om de gegevens vast te houden en dit verschil helpt eindgebruikers om de juiste opslageenheid voor hun systemen te kiezen.
Data Mart heeft minder capaciteit voor het bewaren van gegevens in vergelijking met het datawarehouse en kan daarom als een subset ervan worden beschouwd. Datamarts worden meestal geïdentificeerd om beperkte gegevens op te slaan die van een bepaalde afdeling of branche kunnen zijn, terwijl datawarehouses kunnen worden gebruikt om de geconsolideerde gegevens voor iedereen te bewaren.
Laten we een voorbeeld nemen van een e-commercewebsite met verschillende categorieën voor handelswaar zoals mode, accessoires, huishoudelijke artikelen, boeken en schoolbenodigdheden, elektronische apparaten, enz.
Datamarts kunnen dus worden ontworpen om de productgegevens per categorie op te slaan, terwijl datawarehouses kunnen worden gebruikt om volledige websitegegevens inclusief geschiedenis op één plek op te slaan.
Datamarts zijn kleiner van formaat, ze kunnen veel sneller worden gemaakt zonder veel analyse zoals vereist is voor het ontwerpen van een datawarehouse. Het kost echter veel moeite om verschillende datamarts gesynchroniseerd te houden om de dataconsistentie te behouden.
Overzicht van het ETL-proces
ETL (Extraction, Transformation, and Loading) is een proces waarbij gegevens uit verschillende bronsystemen worden geëxtraheerd, getransformeerd en in het Data Warehouse-systeem worden geladen. Het is een complex proces dat moet communiceren met verschillende bronsystemen voor gegevensextractie en daarom ook technisch uitdagend.
Transformatie vereist opnieuw veel analyse om het formaat van bronsystemen te begrijpen en gegevens naar het gebruikelijke formaat te brengen, zodat dezelfde gegevens in het datawarehouse kunnen worden opgeslagen.
Het ETL-proces is een terugkerende taak die dagelijks, wekelijks of zelfs maandelijks kan worden uitgevoerd, afhankelijk van de zakelijke vereisten.
Datawarehouse-architectuur
Laten we eens kijken naar de architectuur van een datawarehouse dat voornamelijk is ontworpen om verfijnde gegevens op te slaan voor vooraf gedefinieerde zakelijke vereisten. De architectuur bestaat uit 5 componenten met datastromen van boven naar beneden.
De componenten zijn als volgt:
- Data bronnen
- Gegevensstaging
- Datawarehouse (gegevensopslag)
- Data March (gegevensopslag)
- Data presentatie
Laten we alle hierboven genoemde fasen een voor een begrijpen.
# 1) Gegevensbronnen
Er zijn verschillende bronsystemen die als input dienen voor datawarehouse-systemen.
Deze bronsystemen kunnen zijn:
- Relationele databases zoals Oracle, DB2, MySQL, MS Access, etc. die kunnen worden gebruikt om dagelijkse transacties van elke organisatie vast te leggen. Deze dagelijkse zakelijke transacties kunnen verband houden met ERP, CRM, verkoop, financiën en marketing, enz.
- Platte bestanden
- webservices
- RSS-feeds en soortgelijke bronnen.
# 2) Gegevensstaging
Zodra de gegevensbronnen aanwezig zijn, zou de volgende stap zijn om deze gegevens uit de bronsystemen te extraheren naar de opslagruimte van het magazijn.
Aangezien gegevens zijn opgehaald uit verschillende systemen die verschillende opslagindelingen volgen, is het nodig om de gegevens te herstructureren om ze naar een gemeenschappelijk formaat te brengen. Daarom vindt datatransformatie plaats als een volgende stap.
Tijdens de transformatie vindt gegevensopschoning plaats, waaronder het toepassen van bedrijfsregels, het filteren van gegevens, het verwijderen van redundantie, het formatteren van gegevens, het sorteren van gegevens, enz.
# 3) Datawarehouse (gegevensopslag)
Zodra de gegevens zijn geëxtraheerd en getransformeerd, worden deze geladen in een multidimensionale omgeving, d.w.z. Data Warehouse. Nu kunnen deze verwerkte gegevens worden gebruikt voor analyse en andere doeleinden door eindgebruikers.
# 4) Datamarts (gegevensopslag)
Zoals hierboven vermeld, zijn de gegevens nu klaar om door eindgebruikers te worden geconsumeerd. Er is een optioneel proces om datamarts te maken als een volgende stap. Deze datamarts kunnen worden gebruikt om samengevatte gegevens van een bepaalde afdeling of branche op te slaan voor specifiek gebruik.
html5 interviewvragen en antwoorden voor ervaren
Bijvoorbeeld, afzonderlijke datamarts kunnen worden toegevoegd voor afdelingen zoals verkoop, financiën en marketing, enz. als een volgende stap die specifieke gegevens zal bevatten en een analist in staat stelt om gedetailleerde zoekopdrachten uit te voeren voor zakelijke behoeften. Het voorkomt ook dat elke andere eindgebruiker toegang krijgt tot het volledige magazijn en maakt de gegevens dus veilig.
# 5) Tools voor gegevenstoegang (gegevenspresentatie)
Er zijn een aantal vooraf gedefinieerde Business Intelligence-tools die door gebruikers kunnen worden gebruikt om toegang te krijgen tot datawarehouses of datamarts. Deze front-end tools zijn op een uiterst gebruiksvriendelijke manier ontworpen door gebruikers verschillende opties te bieden om toegang te krijgen tot gegevens.
De mogelijkheden worden hieronder genoemd:
- Door de query rechtstreeks via SQL toe te passen op Oracle of andere databases.
- Rapport genereren.
- Applicatie ontwikkelen.
- Met behulp van datamining tools etc.
Er zijn maar weinig populaire opslagtools op de markt:
- Analytix DS
- Amazon Redshift
- Ab Initio-software
- Code Futures
- Holistisch gegevensbeheer
- Informatics Corporation
Cloud Data Warehousing
Datawarehouses worden overdreven erkend door de wereld. De volgende vraag die rijst: gebruiken we een geoptimaliseerde aanpak om datawarehouses in te zetten?
Vervolgens werd Cloud Data Warehousing geïntroduceerd die de overhand nemen op Enterprise Data Warehousing (EDW). Het concept van cloudgebaseerde datawarehouses biedt verschillende voordelen.
Dit zijn de volgende:
(i) Schaalbaarheid: Gegevens op cloudsystemen zijn eenvoudig op en neer te schalen zonder gedoe, terwijl het veel tijd en middelen kost om schaalvergroting op traditionele datawarehouses uit te voeren.
(ii) Kostenbesparing: Cloudgebaseerde datawarehouses hebben een opmerkelijk verschil gemaakt in de investering die nodig is voor een magazijnopstelling. Ze hebben de grote initiële kosten verlaagd door de kosten van
-
- Onderhoud van hardware / serverruimtes.
- Personeel nodig voor onderhoud.
- Overige operationele kosten.
(iii) Prestaties: Prestaties zijn een andere factor waardoor cloudgebaseerde systemen de overhand hebben gekregen op traditionele systemen. Als het bedrijf wereldwijd wordt uitgebreid en gegevens moeten worden benaderd vanuit verschillende delen van de wereld met een snellere doorlooptijd, zijn cloudgebaseerde magazijnen het beste te gebruiken.
Massively Parallel Processing (MPP) is een van de gezamenlijke verwerkingsmethoden die door magazijnen worden gebruikt om hetzelfde te bereiken.
(iv) Connectiviteit: Zoals hierboven vermeld, als gegevens moeten worden benaderd vanuit meerdere geografische locaties, hebben gebruikers uitstekende connectiviteit met deze magazijnen nodig en een cloudgebaseerd magazijn biedt hetzelfde.
Gevolgtrekking
We hopen dat jullie na het lezen van het bovenstaande artikel allemaal een goed idee hebben gekregen van het Oracle Data Warehousing-systeem. Laat het ons weten als u inzicht nodig heeft over een bepaald onderwerp rond datawarehousing, zodat we hetzelfde kunnen behandelen in komende tutorials.
PREV-zelfstudie VOLGENDE zelfstudie
Aanbevolen literatuur
- Wat is een datameer | Datawarehouse versus Data Lake
- Zelfstudie over datawarehousetesten met voorbeelden | ETL-testgids
- Top 10 van populaire datawarehouse-tools en testtechnologieën
- Dimensionaal gegevensmodel in datawarehouse - zelfstudie met voorbeelden
- Metadata in Data Warehouse (ETL) uitgelegd met voorbeelden
- ETL-testen Tutorial datawarehouse-testen (een complete gids)
- Schematypen in datawarehouse-modellering - Star & SnowFlake-schema
- Wat is ETL-proces (extraheren, transformeren, laden) in datawarehouse?