Voit lukea blogisarjan aiemmat osat alla olevian linkkien kautta:
Mikä on Microsoft Fabric? Osa 1: Historiasta nykypäivään
Mikä on Microsoft Fabric? Osa 2: Teknologia
Mikä on Microsoft Fabric? Osa 3: Suorituskyky
Mikä on Microsoft Fabric? Osa 4: Lisenssit
Mikä on Microsoft Fabric? Osa 5: Fabric on Microsoftin lempilapsi ja kehittyy vauhdilla
Tätä kirjoittaessa itselläni oikeita asiakasprojekteja Fabricilla on kasassa reilun vuoden verran. Fabriciin siirtyneiden asiakkaiden määrä on myös kivunnut omassa maailmassani kaksinumeroiseksi luvuksi. Suurin yksittäinen muutos, näin jälkikäteen ajateltuna, tällaiselle pitkän linjan Microsoft tietovarastotyöntekijälle, on komponentti, mihin analyyttinen data kerätään ja varastoidaan. Eli Lakehouse. Miten tässä näin kävi?.
Lakehouse on nimensä mukaisesti Lake & house. Lake kertoo osiosta, joka on verrattavissa vaikkapa työaseman kiintolevyasemaan. Eli hakemistoja ja tiedostoja. House puolestaan kuvaa sitä formaalimpaa (tietokantamaista) osuutta, jossa tiedot tallentuvat taulurakenteeseen. Eli dataa riveinä ja sarakkeina valmiina vastaamaan kyselyihin, joilla tietoa jatkojalostetaan, summataan, lasketaan keskiarvoja jne.
Ajatellaan sitten perinteistä on-premises tietovarastoa tai modernimpaa pilvivarastoa, on tiedostomuotoisellekin datalle (xls, csv, jne) käytännössä aina tarvittu oma paikkansa. Tietovaraston kokonaisarkkitehtuurissa SQL-Serveri on saanut tähän tuekseen erilaisia levyjakoratkaisuja ja vaikkapa AzureSQL puolestaan mm. Azure Data Laken. Päähuomio on kiinnittynyt tietokannan osuuteen, mutta kuin varkain dataa on kuitenkin ollut kahdessa paikassa, kaksien erilaisten käyttöoikeuksien takana keskenään erilaisissa komponenteissa, joiden päivittymisen synkronointi on muodostanut usein omat haasteensa ja ylläpito ja kehittäminen ovat puolestaan tarvinneet omat vastuuhenkilönsä. Lakehouse hoitaa molemmat tehtävät ja tarjoaa joustavan tavan käsitellä muutakin kuin struktuuria dataa.
Relaatiotietokannat tietovaraston keskuksena pitivät pintansa vuosikymmeniä. Vuosien varrella uhkaajia ilmestyi tasaisesti ja itsekin ehti jo tottumaan, että haastajat (Hadoop, data lake, muistinvaraiset datamallit, dokumenttikannat jne) tulivat provokatiivisesti torvet soiden ja sitten pölyn laskeuduttua esimerkiksi Microsoft-näkökulmasta tutut SQL-Server, AzureSQL tai Synapse -relaatiokanta jäivät taistelukentälle seisomaan voittajana.
Fabric tunnetusti tarjoaa useampia vaihtoehtoja tiedon tallentamiseen. Fabricin Warehouse on looginen jatkumo Microsoftin tietokannoille. Tätä historiaa vasten Lakehousen ohittaminen ja Warehouseen tarttuminen tulee helposti ikäänkuin lihasmuistista. Lakehousea vaihtoehtona ei tulisi kuitenkaan missään tapauksessa ilman perusteita sivuuttaa.
Lakehouse ei ole Microsoftin keksintö. Vapaamuotoisesti historian ehkäpä voisi tiivistää siten, että opiskelijaporukka Berkeleyn yliopistolla kehitti Hadoopista muistinvaraisen ja moninkertaisesti tehokkaamman version (Apache Spark) ja siihen yhteyteen vieläpä tehokkaan tallennustavan (Apache Delta Lake). Palapelin paloista syntyi myöhemmin Databricks (sekä yritys että tuote) ja sen sisälle käsite Lakehouse. Nyt Lakehouse on siis sekä Databrickissä että Fabricissa.
Spark on aiemminkin esiintynyt myös Microsoftin tuotteissa (Synapse Analytics, HDInsight), mutta varsinaisesti keskiöön ja kaikkien huulille se nousi nyt Fabricssa.
Lakehouseen liitetään usein termi “Big data”. Jos mielletään Big Dataksi kaikki sellainen data, joka ei luontaisesti istu Excel-sheettiin, joko kokonsa tai formaattinsa (sanasta big huolimatta kyse ei ole pelkästään datan koosta vaan myös muodosta) vuoksi, saadaan hyvä käsitys siitä, millaisen datan kanssa Lakehouse on parhaimmillaan.
Power BI -raportointi ja -analytiikka on toiminut jo useat viime vuodet Microsoftin datatuotteiden veturina. Fortune 500 yrityksistä 97% käyttää Power BI -palvelua. Ja mitä tulee Big Dataan, Sparkia puolestaan Fortune 500 yrityksistä käyttää 80%. En tietenkään voi tietää miten päätösprosessi Lakehousen mukaanottamisesta Fabriciin on mennyt, mutta loogista on, että Microsoft Fabric-kokonaisuudessa yhdistää nämä menestystarinat samaan pakettiin.
Puhutaan sitten datan tallentamisesta tai siirtämisestä, Fabric tarjoaa monenlaisia vaihtoehtoja. Asiakasprojektissa ei kuitenkaan voida valita kaikkia, vaan jo alkuvaiheessa tehdään päätöksiä, mitkä komponentit ovat paras ratkaisu asiakkaan kannalta.
Operatiivisen datan matka mm. raporteilla näkyväksi analyyttiseksi dataksi kulkee nykysuositusten mukaisesti kolmivaiheisen matkan:
Operatiivinen raakadata = bronze
Puhdistettu ja jalostettu data = silver
Liiketoimintavalmis data = gold
Eräs asiakkaani tiivistikin kysymyksellään tämän nk. Medallion-arkkitehtuurin osuvasti “eli mitalit kuvaavat sitä miten operatiivisen datan Danten helvetti, muutetaan analyyttisen datan paratiisiksi?”.
Ja juuri siitähän tässä on kysymys. Tämän mahdollistamiseksi projekteissa tehdään valinnat millä Fabric-komponenteilla implementoidaan mikäkin mitali.
Koska osa lähtödatasta on joka tapauksessa tiedostomuotoista ja toisaalta yhä enemmän REST API -rajapintojen tarjoamaa semistruktuuria jsonia, Lakehouse on paras ja ketterin valinta operatiivisen raakadatan kodiksi.
Käytännössä tämä tarkoittaa että Bronze-alueen datan kodiksi Lakehouse valikoituu melko luonnollisesti. Sen sijaan Silver- ja Gold -kerroksen vastineilla on pitkä historia relaatiotietokannoissa. Ja toisaalta Fabric tarjoaa Lakehouselle vaihtoehdon niin Warehousen kuin SQL databasen (preview) muodossa. Warehouse toimii saman Delta-formaatin päällä kuin Lakehouse. Molemmissa on kyselyyn T-SQL endpoint. Erottava tekijä on siis Lakehousen eduksi files-osio ja Spark-enginen Big data kyvykkyydet ja toisaalta Warehousessa monille tutut T-SQL insert & update mahdollisuudet.
Migraatiopolku aiemmista tietovarastoratkaisuista SQL Database komponenttiin niin Silverissä kuin Goldissa olisi usein lyhin. Uskoisin, että asiakkaiden kannattaa kuitenkin tulevaisuudessa olla vähintäänkin tarkkana perusteluiden kanssa, mikäli toimittajat tarjoavat SQL databasea Silveriin ja Goldiin. SQL Databasea ei ole suunniteltu analyyttiselle datalle vaan esimerkiksi sovellusten tietokannaksi (https://learn.microsoft.com/en-us/fabric/database/sql/overview). Warehouse sen sijaan on suunniteltu analyyttisen datan tietokannaksi ja on tekniikaltaan ikään kuin sekoitus Lakehousea ja SQL Databasea. Tosielämän Fabric-projekteissa kuitenkin nimenomaan Lakehousen etuja nousee jatkuvasti esiin niin, että tekijänäkään en ole enää ihan varma, muuttuivatko juuri tässä ajassa asiakkaiden vaatimukset Lakehousea myötäileviksi vai olemmeko vaan aiemminkin tulkinneet myös ruuvit nauloiksi, kun vasara oli työkalupakkimme toimivin väline.
Fabric on data-alusta, joka on syntynyt AI-aikakaudella. Yksi osoitus muuttuneesta maailmasta on, että kun Silver-kerros toteutetaan nimenomaan Lakehousessa saadaan AI-tiimin asiantuntijakollegat tekemään työnsä samaan orkestoituun dataprosessiin ja jopa samoihin notebookeihin. Lakehousen myötä erilaisten asiantuntijoiden erilliset projektit muuttuivat yhteisiksi tehtäviksi.
Kun sekä Bronze että Silver ovat Lakehousessa, kannattaa miettiä, onko ratkaisun teknistä pinoa syytä kasvattaa vaihtamalla komponentti Goldissa erilaiseksi. Jo käytännön syistäkin Lakehouse tuntuu oivalta valinnalta siis myös Goldiin. Toisaalta pitäytymällä Lakehouse-tekniikassa mahdollistuu esimerkiksi myös joustavammat kyvykkyydet viedä Gold-tason data myös (notebookeilla) ulkoisten järjestelmien rajapintoihin. Myös mahdollisille ulos vietäville tiedostoille löytyy Lakehousesta oma looginen paikkansa. Yksityiskohdat voivat vaihdella, mutta isossa kuvassa Lakehouse vaikuttaisi olevan myös käyttökustannuksiltaan kustannustehokkain datavaranto.
Koska Lakehousessa on myös SQL-endpoint, aiemmin keskiössä ollut osaaminen hyödyntyy edelleen. Ainakin itselläni Management Studio ja T-SQL ovat edelleen päivittäisessä käytössä datan penkomisessa ja mallinnuksen suunnittelussa. Kaiken tämän takana oleva komponentti on kuitenkin useimmiten vaihtunut tietokannasta Lakehouseksi. Ja hyvä niin.
Mikä on Microsoft Fabric? Osa 1: Historiasta nykypäivään
Mikä on Microsoft Fabric? Osa 2: Teknologia
Mikä on Microsoft Fabric? Osa 3: Suorituskyky
Mikä on Microsoft Fabric? Osa 4: Lisenssit
Mikä on Microsoft Fabric? Osa 5: Fabric on Microsoftin lempilapsi ja kehittyy vauhdilla
Pinjan tiedolla johtamisen ja business intelligence -palvelut
Mikä on Lakehouse kohteessa Microsoft Fabric?