Varaa tapaaminen
Tietopankki

Mikä on Microsoft Fabric? Osa 2: teknologia

Dataa sinisellä taustalla

Voit lukea artikkelisarjan ensimmäisen julkaisun oheisen linkin kautta: Mikä on Microsoft Fabric? Osa 1:  historiasta nykypäivään.

Microsoft Fabric siis yhdistää modernin tietovarastoinnin ja raportoinnin alustatarpeet uudella pilvipalvelutuotteellaan yhdeksi tuotteeksi. Ok, on hienoa ja selkeää että yksi tuote, jonka saa palveluna, ratkaisee tietovarastoinnin ja raportoinnin erilaiset tarpeet monipuolisesti, mutta onko Fabricissa jokin uudenlainen erityinen tekninen innovaatio tms. Mikä on se juttu?

Isossa kuvassahan tietovarastointi ja raportointi on varsin yksinkertaista. Kerätään eri lähteiden tiedot tietovarastoon talteen. Mallinnetaan, siivotaan, yhdistellään jne. Tietovarastosta ne voidaan ladata raportointia palvelevaan datamalliin, jonne on määritelty muun muassa mittarit ja hierarkiat. Datamallista tieto virtaa edelleen raporteille ja dashboardeille. Ja tämä kaikkihan on onnistunut jo kymmeniä vuosia. Mihin tässä tarvitaan tai on tarvittu kehitysharppauksia?

Silmiini osui sattumalta taannoin televisiosta uusintajakso autosarjasta, jossa kerrottiin 1961 esitellystä Jaquar E-Typestä, suurmenestyksestä, joka maltillisesti hinnoiteltuna tarjosi kuitenkin aikansa superautojen suorituskykyä. Tarinan mukaan E-Type oli itsensä Enzo Ferrarin mielestä ”maailman kaunein auto”.

Fabricin käänteentekevä idea on siinä, että sama alusta on tehty yhteensopivaksi erilaisten tarvittavien moottoreiden kanssa.

Edellisessä Fabric-kirjoituksessa kerrattiin menneitä vuosia ja mainittiin Microsoftin kilpailijoista Qlik ja Snowflake. Jos asetamme itsemme Enzoksi, niin Qlik toi ennennäkemättömän suorityskyvyn datamalliin ja kauniit kuoret raportointiin. Toisaalta taustalla tarvittava tietovarasto ei kuitenkaan kuulunut tuohon tarinaan. Myöhemmin Snowflake toi käyttämällään alusta- ja moottoriratkaisulla ällistyttävän suorituskyvyn jo tietokantatasolle. Muistan tuolloin havahtuneeni siihen, että periaatteessahan isojakaan tietomassoja ei tosiaan enää tarvitsisi kahdentaa raportointia palvelevaan datamalliin. Raportointijärjestelmät kuten Power BI pystyvätkin kyllä hyödyntämään raportoinnissa Snowflakea suoraan, mutta ongelmaksi muodostuu (voimansiirto) Direct Query, joka asettaa kosolti rajoituksia raporttien tekemiseen.

Millainen Jaquar sitten on tämä Fabric? Fabric rakentuu uudelle alustalle. Fabricin alusta ei ole salatiedettä vaan teknisesti se rakentuu OneLake-storagen päälle Deltaformaatin tauluihin ja levytasolla edelleen Parquet-pakkaustekniikalla pakattuihin tiedostoihin. Fabricin käänteentekevä idea on siinä, että sama alusta on tehty yhteensopivaksi erilaisten tarvittavien moottoreiden kanssa.

Mitä tämä moottorien yhteensopivuus sitten käytännössä hyödyttää? Pohditaan tätä muutamalla esimerkillä.

"Ajastetut lataukset jauhavat tietovarastossa myyntidatat liiketoiminnan seurannan vaatimaan muotoon. Tämä vie aikaa. Kun kaikki on valmista alkaa Power BI semanttisten mallien virkistys että raportit päivittyvät. Tämä vie lisää aikaa. “

Teknisesti edeltävä kuvaus on tarkoittanut, että esimerkiksi SQL-moottorin avulla kasatut tiedot kahdennetaan vielä Power BI Analysis service -moottorille kelpaavaan muotoon. Fabric-ideologiassa vaihe jää tarpeettomaksi.

Eikä edun tarvitse jäädä pelkästään tietovarastotyön sisäiseksi ajansäästöksi vaan se mahdollistaa datatyön erilaisten erikoisosaajien siirtymisen samalle alustalle. Muita perinteisesti ongelmallisia tilanteita voisivat olla seuraavat: 

"Tietovaraston myyntidataan tarvittaisiin uusia tietoja, mutta tietojärvestä vastaa eri ryhmä ja pelkkä dataan pääsy vie tuhottomasti aikaa" 

"Myyntidataan tarvittaisiin uusi ennuste, jonkun pitäisi toimittaa datatieteilijälle siirtotiedostoja".

"Ennustemalli valmistui, se pitäisi liittää tietovarastoon"

"Saisiko tuotannon häiriöseurantadatan ja myyntidatan samaan tarkasteluun?"

Teknisestihän näissä kuvitteellisissa tilanteissa haastetta tuo esimerkiksi SQL-, Spark-, Kusto- ja lopulta Power BI Analysis service -moottorien  (datan ja osaajien) siiloutuminen. Fabricissa alusta on yhteinen, hallinta on keskitetty ja tarvittaessa jopa datat ristiinkäytettävissä. 

Monet asiat ovat olleet jo pitkään mahdollisia, mutta käytännössä niiden jatkuva kehittäminen tai liittäminen liiketoiminnan prosesseihin on liian usein jäänyt erilaisten alusta-, moottori- tai voimansiirto-ongelmien jalkoihin. Fabric tarjoaa tähän sisäänrakennettua etua ja onnistuessaan Microsoft on lyömässä koko data-alalle isompaa vaihdetta silmään.

Tämä artikkeli onkin toinen osa Microsoft Fabriciin keskittyvää blogisarjaa. Jo julkaistussa osassa kerroin Fabriciin pohjautuvaa datan käsittelyn historiaa. Sarjan tulevassa osassa käymme läpi Fabricin suorituskykyä isoilla datamassoilla.

Jos haluat kuulla lisää Fabricin mahdollisuuksista, varaa aika keskusteluun

Lue lisää:

Tiedolla johtaminen - kuinka hyödynnät dataa entistä tehokkaammin
Microsoft Fabric ja tekoäly helpottavat oppilaitosten datan hallintaa ja raportoinnin itsepalvelua
Mikä Microsoft Fabric on? 
Pinjan tiedolla johtamisen ja business intelligence -palvelut

Jani Laitala

Jani Laitala

Toimin Pinjalla data-arkkitehtina toteuttaen niin tietovarastoratkaisuja kuin raportointiakin. Olen kiinnostunut datassa olevasta informaatiosta ja haluan kommunikoida sen visuaaleilla. Vapaa-ajalla perheemme touhuaa niin kulttuurin kuin urheilunkin parissa.

Lue lisää tältä kirjoittajalta