what is data lake data warehouse vs data lake
Deze tutorial legt alles uit over Data Lake, inclusief de behoefte, definitie, architectuur, voordelen en verschillen tussen Data Lake en Data Warehouse:
De term ‘Data Lake’ wordt vrij vaak gebruikt in de huidige IT-wereld. Heb je je ooit afgevraagd wat het is en waar de term precies vandaan komt?
In het informatietechnologietijdperk waarin gegevens dag en nacht in tal van vormen toenemen, wordt het concept van datameer zeker belangrijk en nuttig.
Laten we eens kijken wat een datameer is en wat de voordelen, toepassingen, enzovoort zijn.
Wat je leert:
- Wat is een datameer en hoe werkt het?
- Gevolgtrekking
Wat is een datameer en hoe werkt het?
Een datameer is een systeem of gecentraliseerde gegevensopslagplaats waarmee u al uw gestructureerde, semi-gestructureerde, ongestructureerde en binaire gegevens kunt opslaan in de natuurlijke / native / onbewerkte indeling.
Gestructureerde gegevens kunnen tabellen uit RDBMS'en bevatten; semi-gestructureerde gegevens omvatten CSV-bestanden, XML-bestanden, logboeken, JSON, enz .; ongestructureerde gegevens kunnen pdf's, word-documenten, tekstbestanden, e-mails, enz. zijn; en binaire gegevens kunnen audio-, video- en afbeeldingsbestanden bevatten.
Het volgt een platte architectuur voor het opslaan van gegevens. Over het algemeen worden gegevens opgeslagen in de vorm van object-blobs of bestanden.
(beeld bron
Met een datameer kunt u al uw onderneming opslaan zoals deze zich op één plek bevindt, zonder dat u eerst de gegevens hoeft te structureren. U kunt er rechtstreeks de verschillende soorten analyses op uitvoeren, waaronder machine learning, realtime analyses, on-premises gegevensverplaatsing, realtime gegevensverplaatsing, dashboards en visualisaties.
Het houdt alle gegevens erin in de oorspronkelijke vorm en gaat ervan uit dat de analyse later, op aanvraag, zal plaatsvinden.
Analogie van Data Lake
(beeld bron
De term Data Lake is bedacht door James Dixon, de toenmalige CTO bij Pentaho. Hij definieert datamart (een subset van een datawarehouse) als vergelijkbaar met een waterfles gevuld met gezuiverd, gedestilleerd water, verpakt en gestructureerd voor direct en gemakkelijk gebruik.
Aan de andere kant is het analoog aan een watermassa in zijn natuurlijke vorm. Gegevens stromen van de stromen (diverse bedrijfsfuncties / bronsystemen) naar het meer. Consumenten van datameer, d.w.z. gebruikers hebben toegang tot het meer om te analyseren, onderzoeken, monsters te verzamelen en erin te duiken.
Net zoals het water in het meer voorziet in verschillende behoeften van mensen, zoals vissen, varen, drinkwater leveren, enz., Dient de architectuur van het datameer meerdere doelen.
waar vind je de netwerkbeveiligingssleutel
Een datawetenschapper kan het gebruiken om de data te onderzoeken en een hypothese te maken. Het biedt data-analisten de mogelijkheid om data te analyseren en patronen te ontdekken. Het biedt een modus voor zakelijke gebruikers en belanghebbenden om gegevens te verkennen.
Het biedt ook de mogelijkheid voor rapporterende analisten om rapporten te ontwerpen en deze aan het bedrijf te presenteren. Integendeel, het datawarehouse heeft gegevens verpakt voor duidelijk omschreven doeleinden, net als een bisleri-fles die alleen voor drinkwater kan worden gebruikt.
Data Lake Market - Groei, trends en voorspellingen
De datameermarkt is verdeeld op basis van product (oplossing of dienst), implementatie (on-prem of cloud), klantensector (detailhandel, banken, nutsbedrijven, verzekeringen, IT, gezondheidszorg, telecom, uitgeverij, productie) en geografische Regio's.
Volgens het rapport gepubliceerd door Mordor Intelligence, hieronder is de momentopname van de markt voor data lake:
(beeld bron
# 1) Marktoverzicht
De Data Lakes Market werd in 2019 geraamd op 3,74 miljard dollar en zal naar verwachting tegen 2025 17,60 miljard dollar bedragen, tegen een CAGR (samengestelde jaarlijkse groeisnelheid) van 29,9% gedurende de projectieperiode 2020-2025.
Deze datareservoirs blijken voor veel organisaties in toenemende mate een economische optie te zijn boven datawarehouses. In tegenstelling tot datameren, vereist datawarehousing aanvullende gegevensverwerking voordat het het magazijn binnengaat.
De kosten van het beheren van een datameer zijn lager in vergelijking met een datawarehouse, omdat er veel verwerking en ruimte nodig is om de database voor magazijnen te creëren.
ms sql interviewvragen en antwoorden
# 2) Grote spelers
Er wordt voorspeld dat de Data Lake-markt een geconsolideerde markt zal zijn die wordt gedomineerd door de vijf belangrijkste spelers, zoals te zien is in de onderstaande afbeelding.
# 3) Belangrijkste trends
- Het gebruik ervan zal naar verwachting aanzienlijk toenemen in de banksector. Banken passen datameren toe om onderweg analyses te kunnen leveren. Het helpt ook om veel silo's in de banksector op te lossen.
- Aangezien er een enorme toename is in digitale betalingen / gebruik van mobiele portemonnees over de hele wereld, nemen de mogelijkheden voor big data-analyse en daarmee de kans voor hen toe.
- Verwacht wordt dat Noord-Amerika een hoge acceptatie zal hebben voor datameren. Uit een onderzoek van Capgemini blijkt dat meer dan 60% van de financiële organisaties in de VS denkt dat big data-analyse als een onderscheidende factor voor bedrijven fungeert en hen een concurrentievoordeel geeft. Meer dan 90% van de organisaties is van mening dat investeren in big data-projecten de kans op succes in de toekomst vergroot.
- Ze zijn nodig voor het gebruik van slimme metertoepassingen en in de VS wordt verwacht dat er in 2021 ongeveer 90 miljoen slimme meters zullen worden geïnstalleerd. Daarom is er een voorspelde grote vraag naar.
Waarom is Data Lake vereist?
Het doel van een datameer is om een onbewerkte weergave van data te geven (data in zijn puurste vorm).
Voorbeelden
Tegenwoordig hebben veel grote bedrijven, waaronder Google, Amazon, Cloudera, Oracle, Microsoft en nog een paar andere datameer-aanbiedingen.
Veel organisaties gebruiken cloudopslagservices zoals Azure Data Lake of Amazon S3. Bedrijven gebruiken ook een gedistribueerd bestandssysteem zoals Apache Hadoop. Het concept van een persoonlijk datameer waarmee u uw eigen big data kunt beheren en delen, is ook geëvolueerd.
Als we het hebben over industriële toepassingen, dan past het heel goed in het zorgdomein. Vanwege het ongestructureerde formaat van veel gegevens in de zorg ( Bijvoorbeeld, Aantekeningen van artsen, klinische gegevens, ziektegeschiedenis van de patiënt, enz.) En de vereiste voor realtime inzichten, is een datameer een geweldige optie boven datawarehouse.
Het biedt flexibele oplossingen ook in de onderwijssector, waar de gegevens erg groot en erg rauw zijn.
In de transportsector, voornamelijk in supply chain management of logistiek, helpt het bij het maken van voorspellingen en het realiseren van kostenbesparende voordelen.
Luchtvaart- en elektriciteitsindustrieën maken ook gebruik van datameren.
Een voorbeeld van de implementatie ervan is GE Predix (ontwikkeld door General Electric), een industrieel datameerplatform met sterke gegevensbeheercompetenties voor het creëren, implementeren en beheren van industriële toepassingen die zijn gekoppeld aan industriële activa, gegevens verzamelen en analyseren en realtime bieden. inzichten voor het verbeteren van industriële infrastructuur en processen.
Verschil tussen datawarehouse en datameer
Vaak vinden mensen het moeilijk om te begrijpen hoe een meer verschilt van een datawarehouse. Ze stellen ook dat het hetzelfde is als het datawarehouse. Maar dit is niet de realiteit.
De enige overeenkomst tussen het datameer en het datawarehouse is dat beide gegevensopslagplaatsen zijn. Rust, ze zijn anders. Ze hebben verschillende gebruiksscenario's en doeleinden.
De verschillen worden hieronder toegelicht:
Data Lake | Datawarehouse | |
---|---|---|
Analytics | Een datameer kan worden gebruikt voor machine learning, dataprofilering van gegevensdetectie en voorspellende analyse. | Een datawarehouse kan worden gebruikt voor Business Intelligence, visualisaties en batchrapportage. |
Gegevens | Een Data Lake zal alle ruwe data erin bewaren. Het kan gestructureerd, ongestructureerd of semi-gestructureerd zijn. Het is mogelijk dat een deel van de gegevens in het datameer nooit gebruikt zal worden. | Een datawarehouse bevat alleen die gegevens die worden verwerkt en verfijnd, d.w.z. gestructureerde gegevens die nodig zijn voor het rapporteren en oplossen van specifieke bedrijfsproblemen. |
Gebruikers | Over het algemeen zijn de gebruikers van een datameer datawetenschappers en dataontwikkelaars. | Over het algemeen zijn de gebruikers van het datawarehouse zakelijke professionals, operationele gebruikers en bedrijfsanalisten. |
Toegankelijkheid | Het datameer is zeer toegankelijk en gemakkelijk en snel te updaten omdat ze geen structuur hebben. | In het datawarehouse is het bijwerken van de gegevens een meer gecompliceerde en kostbare operatie omdat datawarehouses door hun ontwerp zijn gestructureerd. |
Schema | Schema-on-write. Ontworpen vóór de DW-implementatie. | Schema-on-read. Geschreven op het moment van analyse. |
Architectuur | Platte architectuur | Hiërarchische architectuur |
Doel | Het doel van onbewerkte data opgeslagen in datalakes staat niet vast of is onbepaald. Soms kunnen de gegevens naar een datameer stromen met een specifiek toekomstig gebruik in gedachten of gewoon om de gegevens bij de hand te hebben. Het datameer heeft minder georganiseerde en minder gefilterde gegevens. | De verwerkte gegevens die zijn opgeslagen in het Datawarehouse hebben een specifiek en welomlijnd doel. Een DW heeft gegevens georganiseerd en gefilterd. Daarom heeft het minder opslagruimte nodig dan het datameer. |
Opslag | Ontworpen voor goedkope opslag. De hardware van het datameer verschilt sterk van de hardware van het datawarehouse. Het maakt gebruik van standaard servers in combinatie met goedkope opslag. Dit maakt het datameer redelijk economisch en zeer schaalbaar tot terabytes en petabytes. Dit wordt gedaan om alle gegevens in een datameer te bewaren, zodat u op elk moment terug kunt gaan naar de tijd om analyses uit te voeren. | Duur voor grote datavolumes. Het datawarehouse heeft dure schijfopslag om het zeer performant te maken. Om ruimte te besparen, wordt het datamodel daarom vereenvoudigd en worden alleen de gegevens die echt nodig zijn om zakelijke beslissingen te nemen in het datawarehouse bewaard. |
Ondersteuning voor gegevenstypen | Een Data Lake ondersteunt zeer goed de niet-traditionele gegevenstypen zoals serverlogboeken, sensorgegevens, sociale netwerkactiviteit, tekst, afbeeldingen, multimedia, enz. Alle gegevens worden bewaard, ongeacht de bron en structuur. | Over het algemeen bestaat een datawarehouse uit gegevens die worden opgehaald uit transactionele systemen. Het ondersteunt niet erg goed de niet-traditionele gegevenstypen. Het opslaan en gebruiken van niet-traditionele gegevens kan duur en moeilijk zijn met het datawarehouse. |
Veiligheid | De beveiliging van datameren bevindt zich in de ‘volwassen’ -fase, aangezien dit een relatief nieuw concept is dan het datawarehouse. | De beveiliging van datawarehouses bevindt zich in de ‘volwassen’ fase. |
Behendigheid | Zeer wendbaar; configureer en configureer opnieuw zoals vereist. | Minder wendbaar; vaste configuratie. |
Data Lake-architectuur
Architectuur diagram
Hierboven ziet u het conceptuele architectuurdiagram van het datameer. Aan de linkerkant kun je zien dat we de databronnen hebben die gestructureerd, semi-gestructureerd of ongestructureerd kunnen zijn.
Deze gegevensbronnen worden gecombineerd tot een onbewerkte gegevensopslag die gegevens in onbewerkte vorm gebruikt, d.w.z. gegevens zonder enige transformaties. Dit is een goedkope, permanente en schaalbare opslag.
Vervolgens hebben we analytische sandboxen die kunnen worden gebruikt voor gegevensontdekking, verkennende gegevensanalyse en voorspellende modellen. In feite wordt dit door datawetenschappers gebruikt om data te onderzoeken, nieuwe hypothesen op te bouwen en use cases te definiëren.
Dan is er een batchverwerkingsengine die de onbewerkte gegevens verwerkt tot voor de consument bruikbare vorm, d.w.z. in een gestructureerd formaat dat kan worden gebruikt voor rapportage aan eindgebruikers.
Dan hebben we een real-time verwerkingsengine die wordt opgenomen in het streamen van gegevens en deze transformeert.
Belangrijkste kenmerken van Data Lake
Om als Data Lake te worden geclassificeerd, moet een big data-repository de volgende drie kenmerken hebben:
# 1) Een enkele gemeenschappelijke gegevensopslagruimte, meestal ondergebracht in een Distributed File System (DFS).
Hadoop-datameren houden gegevens in hun oorspronkelijke vorm vast en leggen veranderingen in gegevens en relatieve semantiek vast tijdens de gegevenslevenscyclus. Deze aanpak is met name gunstig voor nalevingscontroles en interne audits.
Dit is een verbetering ten opzichte van het conventionele Enterprise Data Warehouse, waarin wanneer gegevens transformaties, aggregaties en aanpassingen ondergaan, het moeilijk is om gegevens als een geheel te plaatsen wanneer dat nodig is, en bedrijven ernaar streven de bron / oorsprong van gegevens te achterhalen.
# 2) Bevat mogelijkheden voor planning en taakplanning (bijvoorbeeld via een planner-tool zoals YARN, enz.).
Het uitvoeren van workloads is een essentiële behoefte voor Hadoop en YARN biedt resourcebeheer en een centraal platform voor constante processen, veiligheid , en tools voor gegevensbeheer in Hadoop-clusters, om ervoor te zorgen dat analytische workflows het vereiste niveau van gegevenstoegang en rekenkracht hebben.
# 3) Omvat de verzameling hulpprogramma's en functies die nodig zijn om de gegevens te consumeren, te verwerken of ermee te werken.
Gemakkelijke en snelle toegankelijkheid voor gebruikers is een van de belangrijkste kenmerken van een datameer, omdat organisaties de gegevens in hun oorspronkelijke of pure vorm opslaan.
In welke vorm de gegevens ook zijn, d.w.z. gestructureerd, ongestructureerd of semi-gestructureerd, ze worden ingevoegd zoals ze zijn in het datameer. Het stelt gegevenseigenaren in staat klant-, leveranciers- en operationele gegevens te combineren door technische of politieke belemmeringen voor het delen van gegevens weg te nemen.
Voordelen
(beeld bron
- Veelzijdig : Competent genoeg om allerlei soorten gestructureerde / ongestructureerde gegevens op te slaan, variërend van CRM-gegevens tot sociale netwerkactiviteiten.
- Meer flexibiliteit van schema : Heeft geen planning of voorkennis van data-analyse nodig. Het slaat alle gegevens op zoals ze in de oorspronkelijke vorm zijn en gaat ervan uit dat de analyse later, op aanvraag, zal plaatsvinden. Dit is erg handig voor OLAP. Bijvoorbeeld, het Hadoop-datameer stelt u in staat om schemavrij te zijn, waarin u schema en gegevens kunt ontkoppelen.
- Realtime beslissingsanalyse : Ze profiteren van het voordeel van een enorme hoeveelheid consistente gegevens en deep learning-algoritmen om realtime beslissingsanalyses te bereiken. In staat om waarde te verkrijgen uit een onbeperkt aantal gegevenstypen.
- Schaalbaar: Ze zijn veel beter schaalbaar dan traditionele datawarehouses en ze zijn ook minder duur.
- Geavanceerde analyse / compatibiliteit met SQL en andere talen: Met datameren zijn er talloze manieren om de gegevens op te vragen. In tegenstelling tot traditionele datawarehouses die alleen SQL ondersteunen voor eenvoudige analyses, bieden ze u veel andere opties en taalondersteuning om gegevens te analyseren. Ze zijn ook compatibel met tools voor machine learning, zoals Spark MLlib.
- Gegevens democratiseren: Gedemocratiseerde toegang tot gegevens via een enkele, geïntegreerde weergave van gegevens door de hele organisatie, terwijl een effectief gegevensbeheerplatform wordt gebruikt. Dit zorgt voor een algehele beschikbaarheid van gegevens.
- Betere kwaliteit van gegevens: Over het algemeen krijgt u een betere kwaliteit van gegevens met datameren dankzij technologische voordelen zoals gegevensopslag in native formaat, schaalbaarheid, veelzijdigheid, schemaflexibiliteit, ondersteuning voor SQL en andere talen en geavanceerde analyses.
Uitdagingen en risico's
Datameren bieden veel voordelen. Maar ja, er kleven ook een paar uitdagingen en risico's aan die een organisatie zorgvuldig moet aanpakken.
Zij zijn:
- Als ze niet goed zijn ontworpen, kunnen ze in datamoerassen veranderen. Soms blijven organisaties gewoon doorgaan met het dumpen van onbeperkte gegevens in deze meren zonder enige strategie en doel in gedachten.
- Soms weten de analisten die de gegevens willen gebruiken niet hoe ze dat moeten doen, omdat het behoorlijk uitdagend is om mijnbouw in datameren te doen. Zo verliezen ze na verloop van tijd relevantie en momentum. Organisaties moeten eraan werken om deze barrière voor analisten weg te nemen.
- Omdat we veel ongeorganiseerde gegevens in datameren hebben, zijn deze niet vers of actueel genoeg om in productie te worden gebruikt. Daarom blijven de gegevens in deze meren in de pilotmodus en worden ze nooit in productie genomen.
- Ongestructureerde gegevens kunnen leiden tot onbruikbare gegevens.
- Soms ervaren organisaties dat het geen significante impact heeft op het bedrijfsleven met betrekking tot de gedane investeringen. Dit vereist een mentaliteitsverandering. Om effecten te laten optreden, moeten bedrijven managers en leiders aanmoedigen om beslissingen te nemen op basis van de analyses die zijn afgeleid van deze gegevensreservoirs.
- Veiligheid en toegangscontrole zijn ook een van de risico's wanneer u ermee werkt. Sommige gegevens waarvoor privacy en regelgeving vereist zijn, worden zonder enig overzicht in datalakes geplaatst.
Implementatie
In een onderneming is het redelijk verstandig om de implementatie van de data lake op een agile manier uit te voeren.
Dat wil zeggen, om eerst een Data Lake MVP te implementeren, wordt deze door de gebruikers getest op kwaliteit, gemakkelijke toegang, opslag en analytische mogelijkheden, feedback ontvangen en vervolgens de complexe vereisten en functies toevoegen om waarde toe te voegen aan het meer.
Over het algemeen doorloopt een organisatie de onderstaande vier basisfasen van implementatie:
(beeld bron
Fase 1:
Het Basic Data Lake: In deze fase gaat het team aan de slag met de basisarchitectuur, technologie (cloudgebaseerd of legacy) en beveiligings- en beheerspraktijken voor het datameer. Het is in staat gemaakt om alle onbewerkte gegevens uit verschillende bedrijfsbronnen op te slaan en de interne en externe gegevens te combineren om verrijkte informatie te leveren.
Stage 2:
The Sandbox: Verbetering van analytische vaardigheden: In dit stadium hebben de datawetenschappers toegang tot het datareservoir om voorbereidende experimenten uit te voeren voor het gebruik van onbewerkte gegevens en analytische modellen te ontwerpen om aan zakelijke behoeften te voldoen.
Stap 3:
mijn SQL-interviewvragen en antwoorden
Datawarehouses en Data Lake-samenwerking: In deze fase gaat de organisatie datameer gebruiken in synergie met de bestaande datawarehouses. De gegevens met lage prioriteit worden naar hen verzonden zodat de opslaglimiet van datawarehouses niet wordt overschreden.
Het biedt een vooruitzicht om inzichten te verkrijgen uit koude gegevens of om deze te bevragen om informatie te ontdekken die niet door conventionele databases wordt geïndexeerd.
Fase 4:
End-to-end-acceptatie van Data Lake: Dit is de laatste en volwassen acquisitiefase waarin het een sleutelelement wordt van de gegevensarchitectuur van de organisatie en een effectieve directe zoekactie. Tegen die tijd zou het datameer EDW hebben vervangen en worden ze de enige bron van alle bedrijfsgegevens.
Via het datameer kan een organisatie het volgende doen:
- Creëer complexe datamodellering- en analyseoplossingen voor verschillende zakelijke behoeften.
- Ontwerp interactieve dashboards die inzichten uit het datameer en verschillende applicatie- en databronnen consolideren.
- Implementeer geavanceerde analyse- of robotica-programma's, terwijl het computerbewerkingen afhandelt.
Op dit punt heeft het ook sterke beveiligings- en bestuursmaatregelen.
Data Lake-leveranciers
Er zijn verschillende leveranciers die data lake-tools in de branche leveren.
(beeld bron
Als we naar de grote bedrijven kijken:
- Computergebruik biedt een intelligente data lake-tool. BDM (Big Data Management) 10.2.2 is de nieuwste beschikbare versie.
- Er is een verkoper gebeld kijker die ook de tool levert.
- Het bedrijf Talend die populair is vanwege hun ETL-tools, biedt ook de Data Lake-tool.
- Dan hebben we een open-source tool genaamd Kylo van de Teradata bedrijf. Het team met de naam ‘Think Big’-team in het bedrijf Teradata heeft deze tool ontwikkeld.
- Het bedrijf Cask-gegevens Inc biedt ook deze diensten aan.
- Van Microsoft , u kunt vinden Azure-gegevensmeer beschikbaar in de industrie.
- HVR-software biedt ook data lake consolidatieoplossingen.
- Podiumgegevens, een Qlik-bedrijf levert toolproducten zoals data lake pipelines, multi-zone data lake.
- Sneeuwvlok heeft ook een datameer-product.
- Zaloni is een datameerbedrijf dat enorme hoeveelheden gegevens verwerkt met behulp van Big Data.
Dit zijn dus allemaal de populaire serviceproviders en verkopers voor dergelijke tools.
Als je op zoek bent naar het oefenen en opbouwen van je kennis over datameren, dan kun je terecht voor Informatica of Kylo. Bent u op zoek naar een cloudgebaseerde dienst, dan kunt u kiezen voor Looker, Informatica en Talend. Deze drie leveranciers bieden AWS-cloudgegevensmeren. U kunt bij Kylo ook een gratis proefperiode van 1 maand krijgen.
Gevolgtrekking
In deze tutorial hebben we het concept van het datameer in detail besproken. We hebben het basisidee achter datameer doorgenomen, de architectuur, de belangrijkste kenmerken, de voordelen, de voorbeelden, gebruiksscenario's, enz.
We zagen ook hoe een datameer verschilt van het datawarehouse. We hebben ook betrekking op de beste leveranciers die aanverwante diensten verlenen.
Veel leesplezier !!
Aanbevolen literatuur
- Zelfstudie over datawarehousetesten met voorbeelden | ETL-testgids
- Top 10 gestructureerde gegevenstest- en validatietools voor SEO
- Datamining: proces, technieken en grote problemen bij gegevensanalyse
- Data Mart-zelfstudie - Typen, voorbeelden en implementatie van Data Mart
- Top 10 van populaire datawarehouse-tools en testtechnologieën
- Dimensionaal gegevensmodel in datawarehouse - zelfstudie met voorbeelden
- 10+ beste tools voor gegevensverzameling met strategieën voor het verzamelen van gegevens
- Datapoolfunctie in IBM Rational Quality Manager voor testgegevensbeheer