data warehousing fundamentals
Leer alles over de grondbeginselen van datawarehousing. In deze uitgebreide gids wordt uitgelegd wat datawarehousing is, samen met de typen, kenmerken, verdiensten en nadelen ervan:
Een datawarehouse is de nieuwste opslagtrend in de hedendaagse IT-industrie.
In deze tutorial wordt uitgelegd wat een datawarehouse is? Waarom is datawarehousing cruciaal? Typen datawarehouse-toepassingen, kenmerken van een datawarehouse, voor- en nadelen van datawarehousing.
Lijst met zelfstudies over datawarehousing in deze serie:
Tutorial # 1: Grondbeginselen van datawarehousing
Tutorial # 2: Wat is ETL-proces in Data Warehouse?
Tutorial # 3: Datawarehouse-testen
Tutorial # 4: Dimensionaal gegevensmodel in datawarehouse
Tutorial # 5: Schematypen in datawarehouse-modellering
Tutorial # 6: Data Mart-zelfstudie
Tutorial # 7: Metadata in ETL
Overzicht van zelfstudies in deze serie datawarehousing
Tutorial_Num | Wat je gaat leren |
---|---|
Zelfstudie # 7 | Metadata in ETL In deze tutorial wordt de rol van metadata in ETL, voorbeelden en soorten metadata, metadata-opslag en uitdagingen in metadatabeheer uitgelegd. |
Zelfstudie # 1 | Grondbeginselen van datawarehousing Leer alles over datawarehousing-concepten in deze tutorial. Deze uitgebreide gids legt uit wat datawarehousing is, samen met de soorten, kenmerken, verdiensten en nadelen. |
Tutorial # 2 | Wat is ETL-proces in Data Warehouse? Deze diepgaande tutorial over ETL-proces legt de processtroom en -stappen uit die betrokken zijn bij het ETL-proces (extractie, transformatie en belasting) in datawarehouse. |
Tutorial # 3 | Datawarehouse-testen Doelen en betekenis van datawarehousetests, ETL-testverantwoordelijkheden, fouten in DW en ETL-implementatie in detail in deze tutorial. |
Tutorial # 4 | Dimensionaal gegevensmodel in datawarehouse In deze tutorial worden de voordelen en mythen van dimensionaal gegevensmodel in datawarehouse uitgelegd. U leert ook over afmetingstabellen en feitentabellen met voorbeelden. |
Zelfstudie # 5 | Schematypen in datawarehouse-modellering In deze zelfstudie worden verschillende typen datawarehouse-schema's uitgelegd. Lees wat is Star Schema & Snowflake Schema en het verschil tussen Star & Snowflake Schema. |
Tutorial # 6 | Data Mart-zelfstudie In deze tutorial worden Data Mart-concepten uitgelegd, waaronder datamart-implementatie, typen, structuur en verschillen tussen datawarehouse en datamart. |
Wat je leert:
Grondbeginselen van datawarehousing: een complete gids
Doelgroep
- Datawarehouse / ETL-ontwikkelaars en testers.
- Databaseprofessionals met basiskennis van databaseconcepten.
- Databasebeheerders / Big data-experts die de concepten van datawarehousing willen begrijpen.
- Afgestudeerden / Freshers die op zoek zijn naar datawarehouse-banen.
Wat is datawarehousing?
Een datawarehouse (DW) is een opslagplaats van enorme hoeveelheden georganiseerde gegevens. Deze gegevens worden geconsolideerd uit een of meer verschillende gegevensbronnen. DW is een relationele database die voornamelijk is ontworpen voor analytische rapportage en tijdige besluitvorming in organisaties.
De gegevens voor dit doel worden geïsoleerd en geoptimaliseerd van de brontransactiegegevens, wat geen enkele impact zal hebben op het hoofdbedrijf. Als een organisatie een bedrijfsverandering doorvoert, wordt DW gebruikt om de effecten van die verandering te onderzoeken, en daarom wordt DW ook gebruikt om het niet-besluitvormingsproces te volgen.
Het datawarehouse is meestal een alleen-lezen systeem, aangezien operationele gegevens sterk gescheiden zijn van DW. Dit biedt een omgeving om de grootste hoeveelheid gegevens op te halen met een goede schrijfopdracht.
DW zal dus fungeren als de backend-engine voor Business Intelligence-tools die de rapporten, dashboards voor de zakelijke gebruikers toont. DW wordt veel gebruikt in het bankwezen, de financiële sector, de detailhandel, enz.
Waarom is datawarehousing cruciaal?
Hieronder staan enkele van de redenen waarom Data Warehouse cruciaal is.
- Datawarehouse verzamelt alle operationele gegevens uit verschillende heterogene bronnen van 'verschillende formaten' en via het proces van extraheren, transformeren en laden (ETL) laadt het de gegevens in DW in een 'gestandaardiseerd dimensionaal formaat' binnen een organisatie.
- Datawarehouse houdt zowel 'actuele gegevens als historische gegevens' bij voor analytische rapportage en op feiten gebaseerde besluitvorming.
- Het helpt organisaties om 'slimmere en snellere beslissingen' te nemen om kosten te verlagen en de omzet te verhogen door kwartaal- en jaarverslagen te vergelijken om hun prestaties te verbeteren.
Typen datawarehouse-applicaties
Business Intelligence (BI) is een tak van datawarehousing die is ontworpen voor besluitvorming. Zodra de gegevens in de DW zijn geladen, speelt BI een grote rol door de gegevens te analyseren en te presenteren aan de zakelijke gebruikers.
In de praktijk houdt de term 'datawarehouse-applicaties' in, in hoeveel verschillende soorten de gegevens kunnen worden verwerkt en gebruikt.
We hebben drie soorten DW-toepassingen, zoals hieronder vermeld.
Vragen en antwoorden over het testen van Java-automatiseringstesten
- Informatieverwerking
- Analytische verwerking
- Datamining ten dienste van BI
# 1) Informatieverwerking
Dit is een soort applicatie waarbij het datawarehouse direct een-op-een contact mogelijk maakt met de daarin opgeslagen data.
Omdat de gegevens kunnen worden verwerkt door directe queries op de gegevens te schrijven (of) met een eenvoudige statistische analyse van de gegevens, worden de eindresultaten aan de zakelijke gebruikers gerapporteerd in de vorm van rapporten, tabellen, grafieken of grafieken.
DW ondersteunt de volgende tools voor informatieverwerking:
(i) Query-tools: Het bedrijf (of) de analist voert de query's uit met behulp van querytools om de gegevens te verkennen en de output te genereren in de vorm van rapporten of afbeeldingen volgens de zakelijke vereisten.
(ii) Rapportagetools: Als het bedrijf de resultaten wil zien in een bepaald formaat en op een geplande basis, d.w.z. dagelijks, wekelijks of maandelijks, dan worden rapportagetools gebruikt. Dit soort rapporten kunnen op elk moment worden opgeslagen en bekeken.
(iii) Statistiekenhulpmiddelen: Als het bedrijf een analyse wil maken van een brede kijk op gegevens, zullen statistische tools worden gebruikt om dergelijke resultaten te genereren. Bedrijven kunnen conclusies en voorspellingen doen door deze strategische resultaten te begrijpen.
# 2) Analytische verwerking
Dit is een soort applicatie waarbij een datawarehouse de analytische verwerking van daarin opgeslagen gegevens mogelijk maakt. De gegevens kunnen worden geanalyseerd door de volgende bewerkingen als Slice-and-Dice, Drill Down, Roll Up en Pivoting.
(i) Slice-and-Dice : Datawarehouse biedt slice-and-dice-bewerkingen om de gegevens te analyseren die op veel niveaus worden geopend met een combinatie van verschillende perspectieven. De slice-and-dice-bewerking maakt intern gebruik van het drill-down-mechanisme. Slicing werkt op dimensionale gegevens.
Als onderdeel van de bedrijfsvereiste, als we ons concentreren op een enkel gebied, analyseert slicing de afmetingen van dat specifieke gebied volgens de vereisten en geeft het de resultaten. Dicing werkt op analytische bewerkingen. Zoomen in blokjes voor een specifieke set attributen over alle dimensies om verschillende perspectieven te bieden. De afmetingen worden beschouwd vanaf een of meer opeenvolgende plakjes.
(ii) Drill-down : Als het bedrijf naar een gedetailleerder niveau van een samenvattingsnummer wil gaan, dan is drill-down een bewerking om door die samenvatting naar kleinere detailniveaus te navigeren. Dit geeft een goed beeld van wat er gebeurt en waar het bedrijf beter op gericht moet worden.
Zoom in op tracks vanaf het hiërarchieniveau tot het kleine detailniveau voor de hoofdoorzaakanalyse. Dit kan gemakkelijk worden begrepen aan de hand van een voorbeeld, aangezien er vanuit de verkoop kan worden ingezoomd Landniveau -> Regio niveau -> Staat niveau -> District niveau -> Winkel niveau.
(iii) Oprollen : Roll-up werkt tegengesteld aan de drill-down-bewerking. Als het bedrijf samengevatte gegevens wil, komt roll-up in beeld. Het aggregeert de gegevens op detailniveau door omhoog te gaan in de dimensionale hiërarchie.
Roll-ups worden gebruikt om de ontwikkeling en prestaties van een systeem te analyseren.
Dit kan worden begrepen met een Voorbeeld zoals in een sales roll up waar de totalen van kunnen worden opgeteld Stadsniveau Staatsniveau Regio niveau Land niveau
(iv) Draaien : Pivoting analyseert dimensiegegevens door de gegevens op de kubussen te roteren. Bijvoorbeeld, de rijdimensie kan worden omgewisseld in de kolomdimensie en vice versa.
# 3) Datamining
Dit is een soort applicatie waarbij het datawarehouse kennisontdekking van de gegevens mogelijk maakt en de resultaten worden weergegeven met visualisatietools. In de bovenstaande twee soorten applicaties kan de informatie worden aangestuurd door de gebruikers.
Omdat de gegevens in verschillende bedrijven enorm toenemen, is het moeilijk om het datawarehouse te doorzoeken en door te nemen om alle mogelijke inzichten in gegevens te krijgen. Dan komt datamining in beeld om de ontdekking van kennis te bewerkstelligen.
Dit drijft de gegevens binnen met alle eerdere associaties, resultaten enz. En voorspelt de toekomst. Dit is dus datagedreven en niet gebruikersgestuurd. De gegevens kunnen worden ontdekt door verborgen patronen, associaties, classificaties en voorspellingen te vinden.
Datamining gaat dieper in op de data om de toekomst te voorspellen. Op basis van de voorspellingen stelt het ook de te ondernemen acties voor.
Hieronder staan de verschillende activiteiten van Data Mining:
- Patronen: Datamining ontdekt patronen die in de database voorkomen. Gebruikers kunnen de zakelijke input leveren waarop enige kennis van de patronen wordt verwacht voor besluitvorming.
- Verenigingen / relaties: Datamining ontdekt relaties tussen de objecten met de frequentie van hun associatieregels. Deze relatie kan tussen twee of meer objecten zijn (of) het kan de regels ontdekken binnen de eigenschappen van hetzelfde object.
- Classificatie: Datamining organiseert gegevens in een reeks vooraf gedefinieerde klassen. Dus als een object uit de gegevens wordt opgepikt, koppelt classificatie het respectieve klasselabel aan dat object.
- Voorspelling: Datamining vergelijkt een reeks bestaande waarden om de best mogelijke toekomstige waarden / trends in het bedrijfsleven te vinden.
Daarom stelt datamining op basis van alle bovenstaande resultaten ook een reeks te ondernemen acties voor.
Kenmerken van een datawarehouse
Een datawarehouse wordt gebouwd op basis van de volgende kenmerken van data als Subject georiënteerd, Geïntegreerd, Niet-vluchtig en Tijdvariant.
# 1) Op onderwerp gericht: We kunnen een datawarehouse definiëren als onderwerpgericht omdat we gegevens kunnen analyseren met betrekking tot een specifiek onderwerpgebied in plaats van de toepassing van wijze gegevens. Dit levert resultaten op die beter gedefinieerd zijn voor gemakkelijke besluitvorming. Met betrekking tot een onderwijssysteem kunnen de vakgebieden studenten, vakken, cijfers, docenten, etc. zijn.
# 2) Geïntegreerd: De gegevens in het datawarehouse zijn geïntegreerd uit verschillende bronnen, zoals andere relationele databases, platte bestanden, enz. Zo'n enorme hoeveelheid gegevens wordt opgehaald voor effectieve gegevensanalyse. Maar er kunnen gegevensconflicten zijn, aangezien verschillende gegevensbronnen verschillende indelingen kunnen hebben. Het datawarehouse brengt al deze gegevens in een consistent formaat over het hele systeem.
# 3) Niet-vluchtig: Zodra de gegevens in het datawarehouse zijn geladen, kunnen ze niet meer worden gewijzigd. Logischerwijs is dit acceptabel, aangezien frequente wijziging van gegevens u niet in staat stelt de gegevens te analyseren. De frequente wijzigingen in de operationele database kunnen op een geplande basis in een datawarehouse worden geladen, tijdens dit proces worden nieuwe gegevens toegevoegd, maar de eerdere gegevens worden niet gewist en blijven als historische gegevens.
# 4) Tijdvariant: Alle historische gegevens samen met de recente gegevens in het datawarehouse spelen een cruciale rol bij het ophalen van gegevens van een willekeurige tijdsduur. Als het bedrijf rapporten, grafieken, enz. Wil, dan zijn voor het vergelijken met de voorgaande jaren en om de trends te analyseren alle oude gegevens die 6 maanden oud, 1 jaar oud of zelfs oudere gegevens enz. Zijn vereist.
Voordelen van een datawarehouse
Wanneer een datawarehouse-systeem productief is, krijgt een organisatie de volgende voordelen door het te gebruiken:
- Verbeterde bedrijfsinformatie
- Verbeterde systeem- en queryprestaties
- Business Intelligence uit meerdere bronnen
- Tijdige toegang tot gegevens
- Verbeterde gegevenskwaliteit en -consistentie
- Historische intelligentie
- Hoog investeringsrendement
# 1) Verbeterde bedrijfsinformatie: In de tijd dat Data Warehousing en Business Intelligence er nog niet waren, namen de zakelijke gebruikers en analisten de beslissingen met een beperkte hoeveelheid data en met hun eigen onderbuikgevoel.
DW & BI hebben een verandering teweeggebracht door inzichten te geven met echte feiten en met de echte organisatiegegevens die in de loop van de tijd zijn verzameld. Zakelijke gebruikers kunnen direct alle gegevens van bedrijfsprocessen opvragen, zoals marketing, financiën, verkoop, enz., Op basis van hun behoeften aan strategische besluitvorming en slimme zakelijke beslissingen.
# 2) Verbeterde systeem- en queryprestaties: Datawarehousing verzamelt omvangrijke informatie uit heterogene systemen en plaatst deze onder één systeem, zodat één enkele query-engine kan worden gebruikt voor het snel ophalen van gegevens.
# 3) Business Intelligence uit meerdere bronnen: Weet jij hoe Business Intelligence in het algemeen werkt met data? Het absorbeert de gegevens van meerdere systemen, subsystemen, platforms en gegevensbronnen om aan een project te werken. Datawarehouse lost dit probleem echter op voor BI door alle projectgegevens zonder duplicaten te consolideren.
anime-sites om anime op te bekijken
# 4) Tijdige toegang tot gegevens: Zakelijke gebruikers profiteren doordat ze minder tijd besteden aan het ophalen van gegevens. Ze hebben een aantal tools bij de hand, waarmee ze met minimale technische kennis de data kunnen opvragen en de rapportages kunnen genereren. Hierdoor besteden zakelijke gebruikers voldoende tijd aan data-analyse in plaats van aan dataverzameling.
# 5) Verbeterde gegevenskwaliteit en -consistentie: Datawarehousing zet gegevens met verschillende bronsysteemformaten om in één enkel formaat. Daarom kunnen dezelfde bedrijfseenheden die de gegevens naar het datawarehouse sourcen, de DW-repository hergebruiken voor hun zakelijke rapporten en query's.
Vandaar dat vanuit het standpunt van de organisatie alle bedrijfseenheden stand-by zullen staan met consistente resultaten / rapporten. Deze goede kwaliteit en consistente gegevens helpen dus om een succesvol bedrijf te runnen.
# 6) Historische intelligentie: Datawarehouse houdt alle historische gegevens bij die niet worden bijgehouden door transactionele systemen. Deze grote hoeveelheid gegevens wordt gebruikt om gegevens voor een specifieke tijdsduur te analyseren en te rapporteren, en om de trends te analyseren om de toekomst te voorspellen.
# 7) Hoog rendement op investering (ROI): Iedereen begint een bedrijf door een goed rendement op de investeringen te verwachten, in termen van grotere winsten en lagere uitgaven. In de echte datawereld hebben veel onderzoeken aangetoond dat de implementatie van het datawarehouse en de Business Intelligence-systemen hoge inkomsten genereerde en de kosten bespaarde.
U zou nu moeten kunnen begrijpen hoe een goed ontworpen DW-systeem voordelen toevoegt aan uw bedrijf.
Nadelen van datawarehousing
Hoewel het een zeer succesvol systeem is, is het goed om enkele van de valkuilen in het systeem te kennen:
- Het creëren van een datawarehouse is beslist een tijdrovend en complex proces.
- De onderhoudskosten zijn hoog, aangezien het systeem continue upgrades nodig heeft. Het kan ook toenemen als het niet correct wordt gebruikt.
- De ontwikkelaars, testers en gebruikers moeten de juiste training krijgen om het DW-systeem te begrijpen en technisch te implementeren.
- Mogelijk zijn er gevoelige gegevens die niet in DW kunnen worden geladen voor besluitvorming.
- Herstructurering van bedrijfsprocessen (of) bronsystemen heeft een groot effect op DW.
Gevolgtrekking
We hopen dat deze inleidende tutorial een achtergrond biedt van de grondbeginselen van datawarehousing. We hebben alle fundamentele concepten van datawarehousing onder de loep genomen.
We hebben de definitie, typen, kenmerken, voordelen en nadelen van datawarehousing geleerd in deze uitgebreide tutorial.
Lees de Easy Data Warehousing-trainingsreeks door.
Aanbevolen literatuur
- Voorbeelden van datamining: meest voorkomende toepassingen van datamining 2021
- Hoe datagestuurd testen werkt (voorbeelden van QTP en selenium)
- Datamining: proces, technieken en grote problemen bij gegevensanalyse
- ETL-testen Tutorial datawarehouse-testen (een complete gids)
- Beste GRATIS C # Tutorial-serie: de ultieme C # -gids voor beginners
- Zelfstudie voor computernetwerken: de ultieme gids
- QTP Tutorial # 18 - Datagestuurde en hybride frameworks uitgelegd met QTP-voorbeelden
- 10+ beste tools voor gegevensverzameling met strategieën voor het verzamelen van gegevens