data mart tutorial types
In deze tutorial worden Data Mart-concepten uitgelegd, waaronder datamart-implementatie, typen, structuur en verschillen tussen datawarehouse en datamart:
In deze Volledige datawarehouse-trainingsreeks , we hebben de verschillende bekeken Datawarehouse-schema's in detail.
Deze tutorial zal u helpen om Data Mart-concepten in detail te leren, samen met eenvoudige voorbeelden.
We zullen zien wat is een datamart? Wanneer hebben we een datamart nodig? Kosteneffectieve datamarting, kosten van een datamart, soorten datamarts, stappen bij het implementeren van een datamart, de structuur van een datamart, wanneer is een pilot-datamart nuttig? Datamart nadelen en de verschillen tussen Data Warehouse vs Data Mart.
Doelgroep
- Datawarehouse / ETL-ontwikkelaars en testers.
- Databaseprofessionals met basiskennis van databaseconcepten.
- Databasebeheerders / Big data-experts die datawarehouse / ETL-concepten willen begrijpen.
- Afgestudeerden / Freshers die op zoek zijn naar Data Warehouse-banen.
Wat je leert:
- Wat is een datamart?
- Vergelijking van datawarehouse versus datamart
- Soorten datamarts
- Implementatiestappen van een datamart
- Structuur van een datamart
- Wanneer is een pilot-datamart nuttig?
- Nadelen van datamart
- Gevolgtrekking
Wat is een datamart?
Een datamart is een klein deel van het datawarehouse dat voornamelijk gerelateerd is aan een bepaald bedrijfsdomein als marketing (of) verkoop etc.
De gegevens die in het DW-systeem zijn opgeslagen, zijn enorm, daarom zijn datamarts ontworpen met een subset van gegevens die tot individuele afdelingen behoren. Zo kan een specifieke groep gebruikers deze gegevens gemakkelijk gebruiken voor hun analyse.
In tegenstelling tot een datawarehouse met veel combinaties van gebruikers, heeft elke datamart een bepaalde set eindgebruikers. Het kleinere aantal eindgebruikers resulteert in een betere responstijd.
Datamarts zijn ook toegankelijk voor business intelligence (BI) -tools. Datamarts bevatten geen gedupliceerde (of) ongebruikte data. Ze worden regelmatig bijgewerkt. Het zijn onderwerpgerichte en flexibele databases. Elk team heeft het recht om zijn datamarts te ontwikkelen en te onderhouden zonder het datawarehouse (of) de gegevens van andere datamarts te wijzigen.
Een datamart is geschikter voor kleine bedrijven omdat het veel minder kost dan een datawarehouse-systeem. De tijd die nodig is om een datamart te bouwen, is ook minder dan de tijd die nodig is om een datawarehouse te bouwen.
Picturale weergave van meerdere datamarts:
wat is regressietesten met voorbeeld
Wanneer hebben we datamart nodig?
Plan en ontwerp op basis van de noodzaak een datamart voor uw afdeling door de belanghebbenden erbij te betrekken, omdat de operationele kosten van datamart soms hoog kunnen zijn.
Overweeg de onderstaande redenen om een datamart te bouwen:
- Als u de gegevens wilt partitioneren met een set strategie voor gebruikerstoegangscontrole.
- Als een bepaalde afdeling de queryresultaten veel sneller wil zien in plaats van enorme DW-gegevens te scannen.
- Als een afdeling wil dat gegevens worden gebouwd op andere hardware (of) softwareplatforms.
- Als een afdeling wil dat gegevens worden ontworpen op een manier die geschikt is voor haar tools.
Kosteneffectieve datamart
Een kosteneffectieve datamart kan worden gebouwd door de volgende stappen:
- Identificeer de functionele splitsingen: Verdeel de organisatiegegevens in elke datamart (afdelings) specifieke gegevens om aan de vereisten te voldoen, zonder verdere organisatorische afhankelijkheid.
- Identificeer de vereisten van het hulpprogramma voor gebruikerstoegang: Mogelijk zijn er verschillende tools voor gebruikerstoegang op de markt die verschillende datastructuren nodig hebben. Datamarts worden gebruikt om al deze interne structuren te ondersteunen zonder de DW-gegevens te verstoren. Eén datamart kan naar behoefte aan één tool worden gekoppeld. Datamarts kunnen ook dagelijks bijgewerkte gegevens aan dergelijke tools leveren.
- Identificeer problemen met toegangscontrole: Als verschillende datasegmenten in een DW-systeem privacy nodig hebben en toegankelijk moeten zijn voor een reeks geautoriseerde gebruikers, kunnen al deze gegevens naar datamarts worden verplaatst.
Kosten van datamart
De kosten van datamart kunnen als volgt worden geschat:
- Hardware- en softwarekosten: Elke nieuw toegevoegde datamart heeft mogelijk extra hardware, software, verwerkingskracht, netwerk- en schijfopslagruimte nodig om te werken aan vragen die door de eindgebruikers zijn aangevraagd. Dit maakt datamarting een dure strategie. Daarom moet het budget nauwkeurig worden gepland.
- Netwerktoegang: Als de locatie van de datamart anders is dan die van het datawarehouse, moeten alle gegevens worden overgedragen met het datamart-laadproces. Er moet dus een netwerk worden geboden om enorme hoeveelheden gegevens over te dragen, wat duur kan zijn.
- Tijdvensterbeperkingen: De tijd die nodig is voor het laden van de datamart is afhankelijk van verschillende factoren, zoals complexiteit en gegevensvolumes, netwerkcapaciteit, mechanismen voor gegevensoverdracht, enz.
Vergelijking van datawarehouse versus datamart
S.No | Datawarehouse | Datamart |
---|---|---|
1 | Complex en kost meer om te implementeren. | Eenvoudig en goedkoper te implementeren. |
twee | Werkt op organisatieniveau voor het hele bedrijf. | De reikwijdte is beperkt tot een bepaalde afdeling. |
3 | Het opvragen van de DW is moeilijk voor zakelijke gebruikers vanwege de enorme gegevensafhankelijkheden. | Het opvragen van de datamart is eenvoudig voor zakelijke gebruikers vanwege de beperkte gegevens. |
4 | De implementatietijd kan in maanden of jaren zijn. | De implementatietijd is korter kan in dagen, weken of maanden zijn. |
5 | Verzamelt gegevens uit verschillende externe bronsystemen. | Verzamelt gegevens van een paar gecentraliseerde DW (of) interne (of) externe bronsystemen. |
6 | Er kunnen strategische beslissingen worden genomen. | Er kunnen zakelijke beslissingen worden genomen. |
Soorten datamarts
Datamarts worden ingedeeld in drie typen, namelijk afhankelijk, onafhankelijk en hybride. Deze classificatie is gebaseerd op hoe ze zijn gevuld, d.w.z. ofwel vanuit een datawarehouse (of) vanuit andere gegevensbronnen.
Extractie, transformatie en transport (ETT) is het proces dat wordt gebruikt om de gegevens van datamart uit alle bronsystemen te vullen.
Laten we elk type in detail bekijken !!
# 1) Afhankelijke datamart
In een afhankelijke datamart worden gegevens uit het bestaande datawarehouse zelf gehaald. Dit is een top-down benadering omdat het deel van de geherstructureerde data in de datamart uit het gecentraliseerde datawarehouse wordt gehaald.
Een datamart kan DW-gegevens logisch of fysiek gebruiken, zoals hieronder wordt weergegeven:
- Logische weergave: In dit scenario zijn de gegevens van de datamart niet fysiek gescheiden van de DW. Het verwijst logisch naar DW-gegevens via virtuele weergaven (of) tabellen.
- Fysieke subset: In dit scenario worden de gegevens van de datamart fysiek gescheiden van de DW.
Zodra een of meer datamarts zijn ontwikkeld, kunt u de gebruikers alleen toegang geven tot de datamarts (of) tot zowel datamarts als datawarehouses.
ETT is een vereenvoudigd proces in het geval van afhankelijke datamarts, omdat de bruikbare gegevens al aanwezig zijn in de gecentraliseerde DW. De nauwkeurige set samengevatte gegevens moet gewoon naar de respectieve datamarts worden verplaatst.
Een afbeelding van de afhankelijke datamart wordt hieronder weergegeven
# 2) Onafhankelijke datamart
Een onafhankelijke datamart is het meest geschikt voor kleine afdelingen in een organisatie. Hier worden gegevens niet uit het bestaande datawarehouse gehaald. De onafhankelijke datamart is niet afhankelijk van bedrijfs-DW of andere datamarts.
Onafhankelijke datamarts zijn stand-alone systemen waar data wordt geëxtraheerd, getransformeerd en geladen uit externe (of) interne databronnen. Deze zijn eenvoudig te ontwerpen en te onderhouden totdat ze eenvoudige, afdelingsgerichte zakelijke behoeften ondersteunen.
U moet met elke fase van het ETT-proces werken in het geval van onafhankelijke datamarts op dezelfde manier als hoe de gegevens zijn verwerkt in gecentraliseerde DW. Het aantal bronnen en de gegevens die naar de datamarts worden gevuld, kan echter kleiner zijn.
Picturale weergave van een onafhankelijke datamart
# 3) Hybride datamart
In een hybride datamart worden gegevens geïntegreerd van zowel de DW als andere operationele systemen. Hybride datamarts zijn flexibel met grote opslagstructuren. Het kan ook verwijzen naar andere datamarts-gegevens.
Picturale weergave van een hybride datamart:
Implementatiestappen van een datamart
De implementatie van Data Mart die als een beetje ingewikkeld wordt beschouwd, wordt uitgelegd in de onderstaande stappen:
- Ontwerpen: Aangezien de tijd dat zakelijke gebruikers een datamart aanvragen, omvat de ontwerpfase het verzamelen van vereisten, het creëren van geschikte gegevens uit de respectieve gegevensbronnen, het creëren van de logische en fysieke datastructuren en ER-diagrammen.
- Constructie: Het team zal alle tabellen, views, indexen, etc. ontwerpen in het datamart-systeem.
- Bevolken: Gegevens worden geëxtraheerd, getransformeerd en samen met metadata in datamart geladen.
- Toegang tot: Data Mart-gegevens zijn beschikbaar voor toegang door de eindgebruikers. Ze kunnen de gegevens opvragen voor hun analyse en rapporten.
- Beheren: Dit omvat verschillende managementtaken, zoals gebruikerstoegangscontrole, fijnafstelling van de datamart-prestaties, het onderhouden van bestaande datamarts en het maken van datamart-herstelscenario's voor het geval het systeem uitvalt.
Structuur van een datamart
De structuur van elke datamart wordt gemaakt volgens de vereisten. Datamart-structuren worden Star-joins genoemd. Deze structuur zal verschillen van de ene datamart tot de andere.
Star-joins zijn multidimensionale structuren die worden gevormd met feiten- en dimensietabellen om grote hoeveelheden gegevens te ondersteunen. Star Join heeft een feitentabel in het midden, omringd door de dimensietabellen.
Respectieve feitentabelgegevens worden geassocieerd met dimensietabellen met een refererende sleutelreferentie. Een feitentabel kan worden omringd door tabellen van 20-30 dimensies.
Net als bij het DW-systeem bevatten ook in star joins de feitentabellen alleen numerieke gegevens en kunnen de respectieve tekstgegevens worden beschreven in dimensietabellen. Deze structuur lijkt op een sterschema in DW.
Picturale weergave van een Star Join-structuur.
Maar de gedetailleerde gegevens van de gecentraliseerde DW vormen de basis voor de gegevens van elke datamart. Er zullen veel berekeningen worden uitgevoerd op de genormaliseerde DW-gegevens om deze om te zetten in multidimensionale datamarts-gegevens die worden opgeslagen in de vorm van kubussen.
Dit werkt op dezelfde manier als hoe de gegevens van oudere bronsystemen worden omgezet in genormaliseerde DW-gegevens.
basisvragen en antwoorden voor technische ondersteuning
Wanneer is een pilot-datamart nuttig?
Een pilot kan worden ingezet in een kleine omgeving met een beperkt aantal gebruikers om er zeker van te zijn dat de implementatie succesvol is voordat de volledige implementatie plaatsvindt. Dit is echter niet altijd essentieel. De pilot-implementaties hebben geen zin als het doel is bereikt.
U moet rekening houden met de onderstaande scenario's die aanbevelen voor de pilotimplementatie:
- Als de eindgebruikers nieuw zijn in het datawarehouse-systeem.
- Als de eindgebruikers zich op hun gemak willen voelen om zelf gegevens / rapporten op te halen voordat ze naar productie gaan.
- Als de eindgebruikers hands-on willen met de nieuwste tools (of) technologieën.
- Als het management de voordelen wil zien als een proof of concept voordat het als een grote release wordt uitgebracht.
- Als het team wil of alle ETL-componenten (of) infrastructuurcomponenten ruim voor de release werken.
Nadelen van datamart
Hoewel datamarts enkele voordelen hebben ten opzichte van DW, hebben ze ook enkele nadelen, zoals hieronder wordt uitgelegd:
- Ongewenste datamarts die zijn gemaakt, zijn moeilijk te onderhouden.
- Datamarts zijn bedoeld voor de behoeften van kleine bedrijven. Door de omvang van datamarts te vergroten, zullen de prestaties ervan afnemen.
- Als u meer datamarts maakt, moet het management goed zorgen voor hun versiebeheer, beveiliging en prestaties.
- Datamarts kunnen historische (of) samengevatte (of) gedetailleerde gegevens bevatten. Het is echter mogelijk dat updates van DW-gegevens en datamart-gegevens niet tegelijkertijd plaatsvinden vanwege problemen met gegevensinconsistentie.
Gevolgtrekking
Veel organisaties richten zich op datamarts vanuit een kostenbesparend perspectief. Daarom is deze tutorial gericht op de technische aspecten van datamarts in het datawarehouse-systeem.
Metadata in ETL worden in detail uitgelegd in onze aanstaande tutorial.
Bezoek hier om de datawarehousing-trainingsserie voor iedereen te zien.
Aanbevolen literatuur
- Zelfstudie over datawarehousetesten met voorbeelden | ETL-testgids
- Python-gegevenstypen
- C ++ gegevenstypen
- Dimensionaal gegevensmodel in datawarehouse - zelfstudie met voorbeelden
- Apriori-algoritme in datamining: implementatie met voorbeelden
- Voorbeelden van datamining: meest voorkomende toepassingen van datamining 2021
- Grondbeginselen van datawarehousing: een ultieme gids met voorbeelden
- Zelfstudie voor het testen van volumes: voorbeelden en tools voor het testen van volumes