metadata data warehouse explained with examples
Deze tutorial legt de rol van metadata in ETL uit, voorbeelden en soorten metadata, metadata-opslag en uitdagingen in metadatabeheer:
Datamart in ETL werd in onze vorige tutorial in detail uitgelegd.
Het concept van Metadata is erg belangrijk in ETL en in deze tutorial wordt alles over Metadata uitgelegd.
Het behandelt de rol van metadata, voorbeelden van metadata, evenals de typen ervan, metadata-repository, hoe kunnen metadata van datawarehousing worden beheerd, uitdagingen voor metadatabeheer.
Je leert ook wat metadatagestuurde ETL is en het verschil tussen data en metadata.
Lees hier de gratis datawarehouse-trainingsserie.
Doelgroep
- Datawarehouse / ETL-ontwikkelaars en testers.
- Databaseprofessionals met basiskennis van databaseconcepten.
- Databasebeheerders / big data-experts die datawarehouse / ETL-gebieden willen begrijpen.
- Afgestudeerden / eerstejaarsstudenten die op zoek zijn naar datawarehouse-banen.
Wat je leert:
software die op een computer is geïnstalleerd en wordt gebruikt om virtuele machines te beheren
Metadata in ETL
Datawarehouse-team (of) gebruikers kunnen metadata in verschillende situaties gebruiken om het systeem te bouwen, te onderhouden en te beheren. De basisdefinitie van metadata in het datawarehouse is, 'Het zijn data over data'
Metadata kunnen allerlei informatie over DW-gegevens bevatten, zoals:
- Bron voor alle geëxtraheerde gegevens.
- Gebruik van die DW-gegevens.
- Alle soorten gegevens en hun waarden.
- Kenmerken van gegevens.
- Transformatielogica voor geëxtraheerde gegevens.
- DW-tabellen en hun attributen.
- DW-objecten
- Tijdstempels
Metadata fungeert als een inhoudsopgave voor gegevens in het DW-systeem, die de techniek toont met meer details over die gegevens. In eenvoudige bewoordingen kun je in elk boek een index bedenken die als metadata fungeert voor de inhoud van dat boek.
Op dezelfde manier werkt Metadata als een index voor de DW-inhoud. Al dergelijke metadata worden opgeslagen in een repository. Door metadata te doorlopen, komen de eindgebruikers te weten waar ze het DW-systeem kunnen analyseren. Anders is het moeilijk voor de eindgebruikers om te weten waar ze de data-analyse moeten starten in zo'n enorm DW-systeem.
Rol van metadata in datawarehouse
Vroeger werden metadata gemaakt en onderhouden als documenten. Maar in de digitale wereld van vandaag hebben verschillende tools deze taak gemakkelijker gemaakt door metadata op elk niveau van het DW-proces vast te leggen.
Metagegevens die door één tool zijn gemaakt, kunnen worden gestandaardiseerd (d.w.z. gegevens kunnen in één uniek formaat worden gebracht) en kunnen overal in het DW-systeem worden hergebruikt in de andere tools.
Aangezien we weten dat operationele systemen actuele gegevens bijhouden, houden de DW-systemen historische en actuele gegevens bij.
Metadata moeten een overzicht houden van alle veranderingen die plaatsvinden in bronsystemen, gegevensextractie / transformatiemethoden en in de structuur (of) inhoud van data die in dit proces zullen ontstaan. Metadata zullen verschillende versies bijhouden om al deze wijzigingen over meerdere jaren bij te houden.
Voldoende metadata in de repository zal elke gebruiker helpen om het systeem efficiënter en onafhankelijker te analyseren. Door metagegevens te begrijpen, kunt u voor de beste resultaten allerlei soorten query's op DW-gegevens uitvoeren.
Picturale weergave van de rol van metadata:
hoe jnlp-bestand te openen in Windows 10
Voorbeelden van metagegevens in eenvoudige bewoordingen
Hieronder staan enkele voorbeelden van metadata.
- Metadata voor een webpagina kunnen de taal bevatten waarin deze is gecodeerd, de tools die zijn gebruikt om deze te bouwen, browsers ondersteunen, enz.
- Metadata voor een digitale afbeelding kunnen de grootte van de afbeelding, resolutie, kleurintensiteit, aanmaakdatum van de afbeelding, enz. Bevatten.
- Metadata voor een document kunnen de aanmaakdatum van het document, de datum van de laatste wijziging, de grootte, auteur, beschrijving, enz. Bevatten.
Vergelijking tussen data en metadata
S.No | Gegevens | Metadata |
---|---|---|
een | Data is een verzameling informatie. | Metadata is informatie over data. |
twee | Gegevens kunnen (of) mogelijk niet worden verwerkt. | Metadata zijn altijd verwerkte gegevens. |
Soorten metagegevens
De indeling van metadata in verschillende typen zal ons helpen deze beter te begrijpen. Deze classificatie kan worden gebaseerd op het gebruik (of) de gebruikers enz.
Laten we de verschillende soorten metadata hieronder bekijken:
# 1) Metadata van achterkamer: Leidt de DBA's (of) de eindgebruikers bij het uitpakken, opschonen en laden van processen.
# 2) Metadata van de voorkamer: Geeft de eindgebruikers opdracht om met BI-tools en rapportages te werken.
# 3) Metadata verwerken: Hierin worden ETL-procesmetadata opgeslagen, zoals het aantal geladen, afgewezen, verwerkte rijen en de tijd die nodig is om in een DW-systeem te laden, enz. Deze informatie kan ook toegankelijk zijn voor de eindgebruikers.
Tegelijkertijd zijn de statistieken van de verzameltabellen ook belangrijk voor het ETL-team. In deze metadata worden de procesgegevens van de verzameltabellen opgeslagen, zoals het aantal geladen, afgewezen, verwerkte rijen en de tijd die nodig is om in elke verzameltabel te laden.
# 4) Datalijn: Dit slaat de logische transformatie voor elk bronsysteemelement op naar het DW-doelelement.
# 5) Zakelijke definities: De context voor DW-tabellen is afgeleid van de bedrijfsdefinities. Elk kenmerk in een tabel is gekoppeld aan een bedrijfsdefinitie. Daarom moeten deze worden opgeslagen als metadata (of) elk ander document voor toekomstig gebruik. Zowel de eindgebruikers als het ETL-team zijn afhankelijk van deze bedrijfsdefinities.
# 6) Technische definities: Technische definities worden uitsluitend gebruikt in het datastaging-gebied, meer dan de bedrijfsdefinities. Het belangrijkste doel is om de ambiguïteit te verminderen tijdens het maken van verzameltabellen en om bestaande tabellen opnieuw te gebruiken. In technische definities worden de details van elke verzameltabel opgeslagen, zoals de locatie en structuur.
Elke verzameltabel wordt hier technisch gedocumenteerd, indien niet gedocumenteerd, betekent dit dat de verzameltabel niet bestaat. Dit vermijdt de recreatie van dezelfde verzameltafel.
# 7) Zakelijke metadata: Gegevens worden in zakelijke termen opgeslagen ten behoeve van eindgebruikers / analisten / managers / eventuele gebruikers. Zakelijke metagegevens zijn een proxy voor de bronsysteemgegevens, d.w.z. er zullen geen gegevensmanipulaties op worden uitgevoerd. Het kan worden afgeleid uit alle zakelijke documenten en bedrijfsregels.
# 8) Technische metadata: Dit slaat technische gegevens op, zoals tabellenattributen, hun gegevenstypen, grootte, primaire sleutelattributen, externe sleutelattributen en eventuele indexen. Dit is meer gestructureerd in vergelijking met zakelijke metadata.
Technische metadata zijn voornamelijk bedoeld voor het DW-team zoals ontwikkelaars / testers / analisten / DBA's om het systeem te bouwen (of) te onderhouden. Dit wordt ook aanzienlijk gebruikt door de beheerders om de databasebelastingen en gegevensback-ups enz.
# 9) Operationele metagegevens: Zoals we weten, zijn de gegevens in het DW-systeem afkomstig van veel operationele systemen met verschillende gegevenstypen en velden. DW-extracten zetten dergelijke gegevens om in het unieke type en laden al deze gegevens in het systeem.
Tegelijkertijd moet het in staat zijn om de gegevens terug te koppelen aan de bronsysteemgegevens. De metadata die al deze informatie over operationele databronnen opslaat, staat bekend als Operationele metadata.
# 10) Bronsysteeminformatie:
U kunt de volgende metadata uit verschillende bronsystemen verzamelen:
- Database (of) bestandssysteem: Hiermee worden de namen van de bronsysteemdatabases (of) bestanden opgeslagen.
- Tabel specificaties: Hiermee worden alle details over tabellen opgeslagen, zoals de naam van de tabel, het doel, de grootte, attributen, primaire sleutels en externe sleutels.
- Regels voor het afhandelen van uitzonderingen: Hierin worden verschillende methoden opgeslagen om het systeem te herstellen in geval van systeemstoringen.
- Bedrijfsdefinities: Hierin worden bedrijfsdefinities opgeslagen voor een kort begrip van gegevens.
- Bedrijfsregels: Hiermee wordt een set regels voor elke tabel opgeslagen om de gegevens ervan te begrijpen en inconsistentie te voorkomen.
Metagegevens van het bronsysteem besparen het DW-team veel tijd bij het analyseren van de gegevens.
# 11) ETL-taakmetagegevens: ETL-taakmetagegevens zijn erg belangrijk omdat hierin de details van alle te verwerken taken in het schema worden opgeslagen om het ETL-systeem te laden.
Deze metadata slaat de volgende informatie op:
- Functie naam: ETL-taaknaam.
- Functie doel: Het doel van het uitvoeren van de taak.
- Brontabellen / -bestanden: Het biedt de namen en locatie van alle tabellen en bestanden waaruit de gegevens afkomstig zijn van deze ETL-taak. Dit kan meer dan één tabel (of) bestandsnaam hebben.
- Doeltabellen / bestanden: Het biedt de namen en locatie van alle tabellen en bestanden waarnaar de gegevens worden getransformeerd door deze ETL-taak. Dit kan meer dan één tabel (of) bestandsnaam hebben.
- Geweigerde gegevens: Het biedt de namen en locatie van alle tabellen en bestanden waarvan de bedoelde brongegevens niet in het doel zijn geladen.
- Pre-processen: Het biedt de taken (of) scriptnamen waarvan de huidige taak afhankelijk is. Het betekent dat deze met succes moeten worden uitgevoerd voordat de huidige taak wordt uitgevoerd.
- Postprocessen: Het biedt de taken (of) scriptnamen die onmiddellijk na de huidige taak moeten worden uitgevoerd om het proces te voltooien.
- Frequentie: Het geeft informatie over hoe vaak de taak moet worden uitgevoerd, d.w.z. dagelijks, wekelijks (of) maandelijks.
# 12) Metadata van transformatie: Transformatie-metadata slaan alle ETL-procesgerelateerde constructie-informatie op. Elke afzonderlijke manipulatie van gegevens in het ETL-proces staat bekend als datatransformatie.
Elke set functies, opgeslagen procedures, cursors, variabelen en loops in het ETL-proces kan worden beschouwd als transformaties. Maar dergelijke transformaties kunnen niet afzonderlijk als metadata worden gedocumenteerd.
Het hele ETL-proces is opgebouwd met datatransformaties. Er zijn maar weinig transformaties in ETL kunnen vooraf worden gedefinieerd en gebruikt in het DW-systeem. ETL-ontwikkelaars besteden hun tijd aan het bouwen (of) opnieuw verwerken van alle datatransformaties. Hergebruik van de vooraf gedefinieerde transformaties tijdens de ontwikkeling van het ETL-proces zal het werk versnellen.
Lees de onderstaande datatransformaties door die u in ETL kunt vinden:
- Extracties van brongegevens: Dit omvat gegevenstransformaties die moeten worden gelezen uit bronsysteemgegevens zoals een SQL Select-query (of) FTP (of) XML- / mainframegegevens lezen.
- Surrogaatsleutelgeneratoren: Het nieuwe volgnummer dat voor elke databasetabelrij moet worden gegenereerd, wordt opgeslagen als metadata.
- Opzoeken: Lookups kunnen worden gevormd met alle IN-statements, inner joins en outer joins. Deze worden voornamelijk gebruikt om de surrogaatsleutels van alle respectieve dimensietabellen vast te houden tijdens het laden van een feit.
- Filters: Filters worden aanbevolen om de gegevens te sorteren die tijdens het ETL-proces moeten worden geëxtraheerd, geladen en afgewezen. Het filteren van de gegevens in de vroege stadia van het ETL-systeem is een goede gewoonte. Filters worden toegepast afhankelijk van de bedrijfsregels (of) beperkingen.
- Aggregaten: Afhankelijk van het niveau van gegevensgranulariteit, kunnen de metagegevens met betrekking tot geaggregeerde functies worden gebruikt, zoals som, aantal, gemiddelde, enz.
- Update strategieën: Dit zijn de regels die op een record worden toegepast tijdens het bijwerken van de gegevens. Als er een wijziging is in de bestaande gegevens, geeft dit aan of een record moet worden toegevoegd, verwijderd (of) bijgewerkt.
- Doellader: Doelloader slaat de details op van de database, tabelnamen en kolomnamen waarin de gegevens moeten worden geladen via het ETL-proces. Bovendien worden hiermee ook de details van het hulpprogramma voor bulkladen opgeslagen, dat wordt uitgevoerd tijdens het laden van gegevens in het ETL-systeem.
Elke transformatie kan een aparte naam krijgen met een korte opmerking over het doel ervan.
Enkele voorbeelden van naamgevingsconventies zijn hier samengevat voor de bovenstaande lijst met transformaties.
gratis firewall-bescherming voor Windows 7
Metadata-opslagplaats in ETL
Een metadata-repository is een plaats waar elk type metadata wordt opgeslagen in een lokale database (of) in een virtuele database. Elk type metadata, zoals zakelijke metadata (of) technische metadata, kan logisch worden gescheiden in een repository.
Naast de bovenstaande twee typen heeft de repository ook nog een component met de naam Informatie-navigator.
De informatie-navigator kan worden gebruikt om de onderstaande taken uit te voeren:
- Interface van Query-tool: Dit biedt een interface naar de querytools om toegang te krijgen tot DW-metagegevens.
- Drill down voor details: Dit stelt de gebruiker in staat om metadata in te zoomen voor meer gedetailleerde informatie. Als voorbeeld kan de gebruiker op het eerste niveau een gegevenstabeldefinitie krijgen. Door naar beneden te boren, kan hij de tabelattributen op het volgende niveau krijgen. Door de gegevens verder te analyseren, kan hij de details van elk attribuut krijgen, enz.
- Vooraf gedefinieerde vragen en rapporten bekijken: Hierdoor kan de gebruiker vooraf gedefinieerde vragen en rapporten bekijken. Dit fungeert als een verwijzing naar frame-queries op zichzelf met geschikte parameters enz.
Grafische weergave van Metadata Repository:
Hoe kunnen metagegevens van datawarehousing worden beheerd?
Mensen, processen en tools zijn de belangrijkste bronnen om metadata te beheren.
- Mensen moeten de metadata begrijpen voor correct gebruik.
- Het proces zal metadata opnemen in tools (of) repository met de voortgang van de DW-levenscyclus voor toekomstig gebruik.
- Daarna kunnen metadata worden beheerd door tools.
Uitdagingen voor metadatabeheer
Als de metadata eenmaal is aangemaakt, kunt u voor de onderstaande uitdagingen komen te staan bij het integreren en beheren van metadata in het systeem.
- Het kan meer moeite kosten om verschillende formaten metadata in een standaardformaat te brengen als er verschillende tools worden gebruikt in het DW-systeem. Omdat metadata kan worden opgeslagen in spreadsheets, applicaties (of) databases.
- Metadata-formaten hebben geen gevestigde industriestandaarden. Met dit gebrek aan gestandaardiseerd proces, is het moeilijk om metadata door verschillende niveaus van het DW-systeem en tools te sturen.
- Het consequent onderhouden van verschillende versies van historische metadata is een complexe taak.
Wat is metadatagestuurde ETL?
Metadatagestuurde ETL vormt een laag om het laden van gegevens naar een DW-systeem te vereenvoudigen. U kunt beslissen of u de gegevens in het systeem wilt verwerken (of) niet afhankelijk van de metadata. Daarom kun je het noemen als metadatagestuurde ETL.
Gevolgtrekking
De belangrijke rol van metadata bij het bepalen van het succes (of) falen van een DW-systeem werd in deze tutorial in detail uitgelegd.
We hebben ook de betekenis, rol, voorbeelden, typen, uitdagingen van metadata in detail onderzocht, samen met de betreffende afbeeldingen.
We hopen dat deze informatieve tutorials uit deze Data Warehouse-serie uw kennis over datawarehousing en gerelateerde concepten hebben verrijkt !!!
Veel leesplezier !!
Bezoek hier om vanaf het begin te leren datawarehousing.
Aanbevolen literatuur
- Zelfstudie over datawarehousetesten met voorbeelden | ETL-testgids
- ETL-testen Tutorial datawarehouse-testen (een complete gids)
- Dimensionaal gegevensmodel in datawarehouse - zelfstudie met voorbeelden
- Data Mart-zelfstudie - Typen, voorbeelden en implementatie van Data Mart
- Wat is ETL-proces (extraheren, transformeren, laden) in datawarehouse?
- De 10 beste tools voor het in kaart brengen van gegevens die nuttig zijn in het ETL-proces (2021 LIST)
- Voorbeelden van datamining: meest voorkomende toepassingen van datamining 2021
- Vragen en antwoorden over ETL-tests