Pinja Blogi

Mikä on Microsoft Fabric? Osa 2: teknologia

Kirjoittanut Jani Laitala | 5.12.2023 8:11:35

Voit lukea artikkelisarjan kaikki julkaistut osat oheisen linkkien kautta:

Mikä on Microsoft Fabric? Osa 1: historiasta nykypäivään
Mikä on Microsoft Fabric? Osa 2: teknologia
Mikä on Microsoft Fabric? Osa 3: Suorituskyky
Mikä on Microsoft Fabric? Osa 4: lisenssit

Microsoft Fabric siis yhdistää modernin tietovarastoinnin ja raportoinnin alustatarpeet uudella pilvipalvelutuotteellaan yhdeksi tuotteeksi. Ok, on hienoa ja selkeää että yksi tuote, jonka saa palveluna, ratkaisee tietovarastoinnin ja raportoinnin erilaiset tarpeet monipuolisesti, mutta onko Fabricissa jokin uudenlainen erityinen tekninen innovaatio tms. Mikä on se juttu?

Isossa kuvassahan tietovarastointi ja raportointi on varsin yksinkertaista. Kerätään eri lähteiden tiedot tietovarastoon talteen. Mallinnetaan, siivotaan, yhdistellään jne. Tietovarastosta ne voidaan ladata raportointia palvelevaan datamalliin, jonne on määritelty muun muassa mittarit ja hierarkiat. Datamallista tieto virtaa edelleen raporteille ja dashboardeille. Ja tämä kaikkihan on onnistunut jo kymmeniä vuosia. Mihin tässä tarvitaan tai on tarvittu kehitysharppauksia?

Silmiini osui sattumalta taannoin televisiosta uusintajakso autosarjasta, jossa kerrottiin 1961 esitellystä Jaquar E-Typestä, suurmenestyksestä, joka maltillisesti hinnoiteltuna tarjosi kuitenkin aikansa superautojen suorituskykyä. Tarinan mukaan E-Type oli itsensä Enzo Ferrarin mielestä ”maailman kaunein auto”.

Fabricin käänteentekevä idea on siinä, että sama alusta on tehty yhteensopivaksi erilaisten tarvittavien moottoreiden kanssa.

Edellisessä Fabric-kirjoituksessa kerrattiin menneitä vuosia ja mainittiin Microsoftin kilpailijoista Qlik ja Snowflake. Jos asetamme itsemme Enzoksi, niin Qlik toi ennennäkemättömän suorityskyvyn datamalliin ja kauniit kuoret raportointiin. Toisaalta taustalla tarvittava tietovarasto ei kuitenkaan kuulunut tuohon tarinaan. Myöhemmin Snowflake toi käyttämällään alusta- ja moottoriratkaisulla ällistyttävän suorituskyvyn jo tietokantatasolle. Muistan tuolloin havahtuneeni siihen, että periaatteessahan isojakaan tietomassoja ei tosiaan enää tarvitsisi kahdentaa raportointia palvelevaan datamalliin. Raportointijärjestelmät kuten Power BI pystyvätkin kyllä hyödyntämään raportoinnissa Snowflakea suoraan, mutta ongelmaksi muodostuu (voimansiirto) Direct Query, joka asettaa kosolti rajoituksia raporttien tekemiseen.

Millainen Jaquar sitten on tämä Fabric? Fabric rakentuu uudelle alustalle. Fabricin alusta ei ole salatiedettä vaan teknisesti se rakentuu OneLake-storagen päälle Deltaformaatin tauluihin ja levytasolla edelleen Parquet-pakkaustekniikalla pakattuihin tiedostoihin. Fabricin käänteentekevä idea on siinä, että sama alusta on tehty yhteensopivaksi erilaisten tarvittavien moottoreiden kanssa.

Mitä tämä moottorien yhteensopivuus sitten käytännössä hyödyttää? Pohditaan tätä muutamalla esimerkillä.

"Ajastetut lataukset jauhavat tietovarastossa myyntidatat liiketoiminnan seurannan vaatimaan muotoon. Tämä vie aikaa. Kun kaikki on valmista alkaa Power BI semanttisten mallien virkistys että raportit päivittyvät. Tämä vie lisää aikaa. “

Teknisesti edeltävä kuvaus on tarkoittanut, että esimerkiksi SQL-moottorin avulla kasatut tiedot kahdennetaan vielä Power BI Analysis service -moottorille kelpaavaan muotoon. Fabric-ideologiassa vaihe jää tarpeettomaksi.

Eikä edun tarvitse jäädä pelkästään tietovarastotyön sisäiseksi ajansäästöksi vaan se mahdollistaa datatyön erilaisten erikoisosaajien siirtymisen samalle alustalle. Muita perinteisesti ongelmallisia tilanteita voisivat olla seuraavat: 

"Tietovaraston myyntidataan tarvittaisiin uusia tietoja, mutta tietojärvestä vastaa eri ryhmä ja pelkkä dataan pääsy vie tuhottomasti aikaa" 

"Myyntidataan tarvittaisiin uusi ennuste, jonkun pitäisi toimittaa datatieteilijälle siirtotiedostoja".

"Ennustemalli valmistui, se pitäisi liittää tietovarastoon"

"Saisiko tuotannon häiriöseurantadatan ja myyntidatan samaan tarkasteluun?"

Teknisestihän näissä kuvitteellisissa tilanteissa haastetta tuo esimerkiksi SQL-, Spark-, Kusto- ja lopulta Power BI Analysis service -moottorien  (datan ja osaajien) siiloutuminen. Fabricissa alusta on yhteinen, hallinta on keskitetty ja tarvittaessa jopa datat ristiinkäytettävissä. 

Monet asiat ovat olleet jo pitkään mahdollisia, mutta käytännössä niiden jatkuva kehittäminen tai liittäminen liiketoiminnan prosesseihin on liian usein jäänyt erilaisten alusta-, moottori- tai voimansiirto-ongelmien jalkoihin. Fabric tarjoaa tähän sisäänrakennettua etua ja onnistuessaan Microsoft on lyömässä koko data-alalle isompaa vaihdetta silmään.

Tämä artikkeli onkin toinen osa Microsoft Fabriciin keskittyvää blogisarjaa. Jo julkaistussa osassa kerroin Fabriciin pohjautuvaa datan käsittelyn historiaa. Sarjan tulevassa osassa käymme läpi Fabricin suorituskykyä isoilla datamassoilla.

Lue lisää:

Tiedolla johtaminen - kuinka hyödynnät dataa entistä tehokkaammin
Mikä on Microsoft Fabric? Osa 1: historiasta nykypäivään
Mikä on Microsoft Fabric? Osa 2: teknologia
Mikä on Microsoft Fabric? Osa 3: Suorituskyky
Mikä on Microsoft Fabric? Osa 4: lisenssit
Microsoft Fabric ja tekoäly helpottavat oppilaitosten datan hallintaa ja raportoinnin itsepalvelua
Mikä Microsoft Fabric on? 
Pinjan tiedolla johtamisen ja business intelligence -palvelut