Datamaske
En datamaske (engelsk: data mesh) er et domeneorientert dataarkitektur-paradigme for administering av stordata som et alternativ til datasjøer (data lakes) og tradisjonelle datavarehus, og er ment å kombinere noen av fordelene fra datareservoar og datavarehus. En datamaske kan bestå av et eller flere datavarehus og/eller datasjøer, samt felles verktøy og standarder for disse. En viktig komponent i datamasken er et tilkoblingslag for å kontrollere, administrere og støtte datatilgang på tvers av organisasjonen.
Datamasken er en type dataplattformarkitektur som omfavner allestedsnærværende data i bedriften ved å utnytte et domeneorientert og selvbetjent design. Hovedtanken med en datamaske er at man istedenfor å bygge en stor sentralisert dataplattform lar bedriftsdataarkitekter lage distribuerte datanettverk. Dette gjøres ved at datamasken fødererer dataeierskap blant dataeierne, som i sin tur holdes er ansvarlige for å levere dataene som et produkt. Hvert av domenene har da sine egne ETL-kommandokøer (ETL-pipelines), men deler på lagring, katalogisering og tilgangskontroll til rådataene. Datamasker kan hjelpe med å unngå informasjonssiloer.
Design basert på datamasker har blant annet ha blitt tatt i bruk av nettbutikken Zalando.[1]
Historie
[rediger | rediger kilde]Begrepet data mesh ble først definert av Zhamak Dehghani i 2019,[2] mens hun jobbet som prinsipalkonsulent hos teknologiselskapet ThoughtWorks. Hun har fått støtte for idéene sine fra Agile Lab og Deloitte.[3]
Navnet datamaske kommer fra maskenettverk, som i likhet med datamaske-arkitekturen er basert på en desentralisert nettverksarkitektur. Det domeneorienterte og selvbetjente designet låner dermed den amerikanske teknologen Eric Evans sin teori om domenedrevet design som han lanserte i 2003.[4]
Prinsipper
[rediger | rediger kilde]Datamasker er definert etter prinsipper som:
- Domeneorientert, desentralisert dataeierskap og arkitektur
- Hvert domene håndterer sine egne kommandokøer eller kanaler (data pipelines).
- Data som produkt
- (DaaP, data as a product)[5] Hvert domene må definere en tjenestenivåavtale og kvalitetsmål som de kan garantere for sine forbrukere.
- Selvbetjent datainfrastruktur som en platform
- Muliggjør blant annet selvbetjent forretningsinnsikt (self-service business intelligence). Abstraherer kompliserte tekniske detaljer ved å ha en sentral plattform med domeneagnostisk datainfrastruktur som håndterer motorene for data pipeline-ene, lagring og strømmeinfrastruktur. Imidlertid er hvert av domenene ansvarlige for å gjøre seg nytte av disse komponentene for å lage spesialtilpassede ETL-pipelines.
- Føderert forvaltning av dataressurser
- I motsetning til en monolittiske datainfrastruktu støttes distribuerte, domenespesifikke datakonsumenter. Grunnlaget for dette gjøres ved å definere datastandarder som legger til rette for samarbeid på tvers av domenene. Dette kan være standarder for formatering, governance, oppdagbarhet, metadata-felter, med mer. Det legges til rette for å benytte dataene på tvers av domener, både når det gjelder rådata og vaskede data.
Skalerbarhet
[rediger | rediger kilde]Zhamak har argumentert for at dataarkitekturen kan skaleres ved å brytes ned i mindre, domeneorienterte komponenter.[6]
Sammenlignet med data fabric
[rediger | rediger kilde]Begrepene data mesh (datamaske) og data fabric brukes av og til om hverandre, men data fabric er en mer arkitektonisk tilnærming til datatilgang, mens en datamaske forsøker å koble dataprosesser med brukere.[7][8]
Se også
[rediger | rediger kilde]- Dataforvaltning
- Datahvelvmodellering, metode for datamodellering med lagring av data fra ulike driftssystemer og sporing av dataopprinnelse, tilrettelagt for revisjon, lastehastigheter og resiliens
- Datavarehus, veletablert type databasesystem for å organisere data på en tematisk rettet måte
- Mikrotjenester (Microservices), variant av tjenesteorientert arkitektur hvor en tjeneste sys sammen av løst koblede tjenester
- ETL og ELT
Referanser
[rediger | rediger kilde]- ^ «Data Mesh in Practice: How Europe's Leading Online Platform for Fashion Goes Beyond the Data Lake». Databricks (engelsk). Besøkt 28. januar 2022.
- ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022.
- ^ «From data mess to a data mesh». Deloitte Netherlands (nederlandsk). Besøkt 28. januar 2022.
- ^ Moses, Barr (19. august 2021). «What is a Data Mesh — and How Not to Mesh it Up». Medium (engelsk). Besøkt 28. januar 2022.
- ^ «Data Mesh defined | James Serra's Blog» (engelsk). 16. februar 2021. Besøkt 28. januar 2022.
- ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022.
- ^ ParamitaGhosh (3. november 2021). «Data Fabric vs. Data Mesh». DATAVERSITY (engelsk). Arkivert fra originalen 28. januar 2022. Besøkt 28. januar 2022.
- ^ States, Houston TX United (25. oktober 2021). «Data Mesh Vs. Data Fabric: Understanding the Differences». Datanami. Besøkt 28. januar 2022.