Data Lakehouse: Uuden sukupolven tietovarasto

Data Lakehouse: Uuden sukupolven tietovarasto
Kirjoittanut Tommi Penttilä
21.08.2023 - Lukuaika 5 min
Microsoft Fabric
Data Lakehouse
Databricks

Tietovarastoinnin historiasta nykypäivään

Relaatiotietokannat ovat kaikille tietovarastointiin perehtyneille tuttuja. Niihin on kätevä tallentaa strukturoitua dataa ja jäykkä rakenne mahdollistaa tehokkaan tiedonhallinnan sekä analytiikkaan optimoidut kyselyt.

Datan määrän ja monimuotoisuuden lisääntyessä tiedon tallentamiseen alettiin käyttää niin kutsuttuja datajärviä (data lake), jotka ovat yksinkertaistettuna tallennustilaa, johon voidaan tallentaa tiedostoja tai blobeja (binary large object). Datajärviin voidaan siis tallentaa lähestulkoon mitä vain ja niiden tallennustila on relaatiotietokantoihin verrattuna huomattavan edullista. Toisaalta ne eivät tarjoa erityisen hyviä työkaluja datan hallintaan, jolloin datan laatu saattaa herkästi kärsiä.

Monissa suurten datamäärien tietovarastointiprojekteissa onkin viimeisen noin kymmenen vuoden aikana käytetty relaatiotietokantoja ja datajärviä rinnakkain. Tällöin raakadata viedään ensin datajärveen, jossa se muokataan strukturoituun muotoon ja tehdään mahdollisesti joitain aggregointeja. Datajärvessä muokattu ja puhdistettu data siirretään sitten relaatiotietokantaan, jotta relaatiotietokantojen kyvykkyydet saadaan käyttöön. Tähän lähestymistapaan Microsoft loi työkalun Azure Synapse Analytics, joka toi mielenkiintoisella tavalla datajärven ja relaatiotietokannat yhden tuotteen alle.

Nähdäkseni seuraava kehitysaskel on ollut luopua erillisestä tietokannasta kokonaan, jolloin voidaan puhua täysiverisestä Data Lakehousesta. Termin esitteli ensimmäistä kertaa Databricks blogitekstissään 2020. Databricksin visiossa datajärven päälle rakennetaan tiedonhallintakerros, jonka avulla dataa voidaan hallita kuin se olisi relaatiotietokannassa. Spark-teknologiaa hyödyntämällä päästään myös analytiikan vaatimiin suoritustehoihin, vaikka dataa säilytetään edullisessa datajärvessä.

Data Lakehouse (Lähde: Databricks blogi)

Aikaisemmin tänä vuonna Microsoft julkaisi uuden tuotteensa Microsoft Fabricin, jonka toimintalogiikka on kiusallisen lähellä Databricksin visiota Data Lakehousesta. Microsoft on toki lisännyt tuotteeseensa myös Power BI:n toiminnallisuudet, mikä nostaa sen omalle tasolleen. Fabric ei ole vielä yleisesti saatavilla, mutta jos se pystyy tulevaisuudessa lunastamaan Microsoftin lupaukset, se tulee uskoakseni mullistamaan Data Lakehouse -maailman. Kunnes joku keksii jotain vielä parempaa.

Microsoft Fabric (Lähde: Microsoft Learn)

Data Lakehousen edut

Yhtenäinen arkkitehtuuri: Kaikki dataprosessit saadaan tuotettua yhdessä paikassa.

Skaalautuvuus: Datajärvi skaalautuu automaattisesti datan määrän kasvaessa. Myös tiedon säilyttäminen datajärvessä perinteisen tietovaraston sijaan on huomattavasti edullisempaa. Toisaalta tietojen jatkuva kysely ja uudelleen kirjoittaminen nostaa varaston kustannuksia.

Suorituskyky: Lakehouse on rakennettu käsittelemään monimutkaisia kyselyjä hämmästyttävän tehokkaasti. Jos tehot tuntuvat loppuvan, voidaan myös suoritustehoa lisätä saumattomasti.

Tiedon hallinta: Data Lakehouse sisältää relaatiotietokantamaisia tiedonhallintamekanismeja.

Reaaliaikainen analytiikka: Data Lakehouse mahdollistaa reaaliaikaisen analytiikan, kun tiedon säilytys ja analyysi suoritetaan yhdessä paikassa. Tämä on ratkaisevan tärkeää yrityksille, jotka tarvitsevat päätöksentekoa varten välittömiä näkemyksiä tiedoistaan.

Data Lakehousen huonot puolet

Monimutkaisuus: Data Lakehouse luo tietovarastointiin ylimääräisen abstraktiokerroksen. Spark-moottorin virheilmoitukset voivat olla hyvinkin vaikeaselkoisia ja joskus moottorin suorittamat optimoinnit tuottavat arvaamattomia lopputuloksia.

Osaajien löytäminen: Kuten uusissa teknologioissa aina, voi tekijöiden löytäminen olla hankalaa.

Kustannukset: Vaikka relaatiotietokannoista luopumisen pitäisi johtaa kustannusten laskemiseen, voivat tehottomat kyselyt ja tiedon historian varastointi osoittautua yllättävän hintaviksi. Osaavissa käsissä näitä ongelmia ei kuitenkaan pitäisi syntyä. Kun vain niitä osaavia käsiä löytyisi jostain...

Tiedonhallinnan tulevaisuus

Yhteenvetona voidaan todeta, että Data Lakehouse edustaa tiedonhallinnan tulevaisuutta. Arkkitehtuurissa yhdistyy datajärvien skaalautuvuus ja monipuolisuus sekä tietovarastojen suorituskyky, luotettavuus ja hallinta. Se tarjoaa yrityksille yhtenäisen, skaalautuvan ja suorituskykyisen keinon tietojen hallintaan. Jos kustannukset pysyvät maltillisina ja työkalut kehittyvät niin, ettei ylimääräinen abstraktiokerros aiheuta ongelmia, en näe yhtään syytä jäädä vanhaan maailmaan. Tästä näkemyksestä keskustelen toki mielelläni.

Avainsanat:

Data Lakehouse,

Data,

Tietovarastointi,

Tiedonhallinta,

Microsoft Fabric,

Databricks,

Data lake

Tommi Penttilä
Tommi PenttiläData Engineer

Tommi on datainsinööri vahvalla painotuksella Microsoft Fabriciin ja Databricksiin. Datan lisäksi kiinnostuksen kohteita ovat musiikki ja brasilialainen jujutsu.

tommi@dataclinic.fi+358 40 911 9306

Tilaa blogin uutiskirje

Saa ilmoitus sähköpostiisi uusista julkaisuistamme

Data Clinic logo

Nosta liiketoimintasi uudelle tasolle

Yhteystiedot

+358 50 551 9293

Osoite

Siltasaarenkatu 12 C, 8. kerros

00530 Helsinki

Laskutus

Näkemystä datasi hyödyntämiseen

© 2025 Data Clinic Oy

Tämä sivusto käyttää evästeitä palveluiden toimittamisessa, käyttäjäkokemuksen parantamisessa ja liikenteen analysoinnissa