18. července 2024

Co je Microsoft Fabric

Kontext
Už delší dobu se v souvislosti s Power BI setkáváme s pojmem Microsoft Fabric. Jaký je ale vztah mezi Fabricem a Power BI? Na to se pokusí odpovědět dnešní blog post. Zjednodušeně řečeno by se dalo říci, že Power BI je nadmnožinou SQL Server Analysis Services. Obsahuje v sobě engine vertipaq jako úložiště. Pro byznys logiku používáme jazyk DAX na počítané sloupce, measures a počítané tabulky. Dotazujeme se do něj DAXem. Plus má navíc možnosti pro načítání dat a transformace (Power Query a mashup engine), možnosti pro tvorbu vizualizací a tam nekončíme.
Když otevřete Power BI Desktop a poté procesy ve Windows, uvidíte proces msdsrv.exe což jsou Analysis Services ve své tabulární podobě. Na pozadí Power BI Service běží SSAS servery.
Fabric
Stejně tak Microsoft Fabric je opět nadmnožinou toho, co nabízí Power BI v jednom integrovaném prostředí. Zahrnuje služby jako Data Engineering, Data Factory, Data Science, Real-Time Analytics, Data Warehousing a Databáze. Fabric integruje různé komponenty do jednotného prostředí a umožňuje snadnou transformaci surových dat na užitečné informace. Klíčové výhody zahrnují jednotné řízení, bezpečnost, jednoduchost a integraci s umělou inteligencí. Platforma je postavena na modelu Software as a Service (SaaS) a využívá konceptu Data Lake (OneLake) pro centralizované ukládání dat. Real-Time hub slouží k práci s daty v pohybu. 
Komponenty
Power BI - tak tohle už známe, není třeba příliš rozepisovat
Data Factory - služba od Microsoftu pro datovou integraci, Obsahuje Dataflows Podpora velké hromady datových zdrojů (okolo 200), hromada tranformací a podpora datových destinací včetně Azure SQL a dalších. V podstatě cloudové Power Query. A také obsahuje Data Pipelines, vycházející z Azure Data Factory (ADF) takové cloudové ETL, jako například v onpremises prostředí SQL Server Integration Services (SSIS). 
Data Activator - část Fabricu, která umožňuje vytvářet a volat Power Automate úlohy. Umí například kontrolovat hodnoty, patterny a na základě těchto poslat například email.
Real Time Hub - jak název napovídá je spojen se zpracováním dat v reálném čase.
Synapse Data Engineering - obsahuje Spark platformu pro sběr, ukládání, zpracování  a analýzu velkých objemů dat. Je integrován s Data Factory pro orchestraci Spark notebků a jobů. 
Synapse Data Science - Integrace Fabricu s Azure Machine Learningem. Podpora pro datové vědce, tvorbu predikcí a analýz.
Synapse Data Warehouse - pod ním leží buď Azure SQL DW a/nebo Azure SQL Database. Podpora ukládání a zpracování dat v relační podobě a to i velké objemy.
OneLake - pod tím vším leží Data Lake (Datové Jezero). Sjednocené úložiště pro ukládání dat organizace. Postaveno na ADLS (Azure Data Lake Storage gen 2). Jedná se o hierarchické úložiště, kde One Lake je root level, dále obsahuje kontejnery workspace, složky a pod nimi soubory. Všechny komponenty Fabricu jsou napojeny na OneLake, podobně jako veškerá spolupráce v Office je vázaná na OneDrive. Můžeme tedy přemýšlet nad tím tak, že OneLake je OneDrive pro data.
Závěr
Cílem dnešního postu bylo probrat, jaká je vlastně vazba mezi Power BI a Microsoft Fabric. Fabric je nadmnožinou toho, co máme k dispozici v Power BI, stejně jako Power BI je nadmnožinou SSAS. Kombinuje staré známé služby z Microsoft Azure ekosystému do jednotného celku, kde máme vše pohromadě bez nutnosti mezi sebou sami spojovat různé Azure služby. Takže pokud byste měli datový sklad Azure SQL DW, používali Azure Data Factory pro datové pumpy a Power BI jako výstupy. Tak vám Microsoft Fabric tohle vše přináší v jednom integrovaném celku s jednou integrovanou cenovkou

11. července 2024

Řešení problému Default membara

 V minulém článku jsem Vám (kdo jste ještě neznali) představil Calculation Groups http://www.neoral.cz/2024/07/calculation-groups.html

Na ty nyní navážeme s řešením dalšího problému. Některé faktové záznamy jsou verzovány a seskupování více verzí dohromady nedává smysl. V bývalé firmě (Dixons) například byl verzovaný plán. Na začátku roku plán od prvního do dvanáctého měsíce, po prvních 4 měsících zpřesněný plán 5-12. Po dalších 4 měsících třetí zpřesněná verze 8-12. Pokud byste porovnávali ve dvanáctém měsíci aktuál vs plán a neřešili verzi plánu, máte problém. 

V multidimenzionálních kostkách se tento problém dal řeši natavením tzv. default membera. V Power BI a Tabularu si můžeme opět pomoci Calculation Group. 

Nasimulujeme si opět nad demo databází Adventure Works DW

Souhrny přes produkt a přes časovou osu vypadají smysluplně, nicméně přes měnu to vypadá, že sčítáme jablka s hruškami. Internetové prodeje USD+AUD+... = 29milionů.
Chtěl bych zobrazit hodnoty pro všechny metriky v dané měně, pokud je měna vybraná, nebo pokud se jedná o souhrn vícero měn, zobrazit čísla v dolarech.

V model view přidám new calculation group. Tu přejmenuji jako Default currency a do Počítané položky Default currency napíši následující výraz

Počítanou položku poté stačí použít v sekci filter všech stránek a zaškrtnout.


Závěr

Ukázali jsme si další scénář využití calculation groups. Tentokrát pro nastavení defaultu pro neagregovatelné položky.


4. července 2024

Calculation Groups

Když jsem někdy kolem roku 2016 stál v bývalé firmě jako BI datový architekt před strategickým rozhodnutím, jestli pro nové BI řešení použí SQL Server Analysis Services v Multidimenzionálním provedení, nebo použít Tabular. Chyběly v té době v Tabularu některé funkce. Jako největší nedostatek jsem považoval nemožnost použít calculate skript pro výpočty uložené v dimenzi.

Tento nedostatek byl odbourán v SQL Serveru 2019 a máme je již nějakou dobu i v Power BI. Dříve bylo potřeba použít k jejich nastavení Tabular Editor, nyní je možno je spravovat přes modelové zobrazení v Power BI Desktopu.

Nejčastější scénář, byť ne jediný, kde se dají použít calculation groups jsou časové kalkulace.

Představte si, že máte v modelu 3 základní metriky

Výpočet předchozího roku pro Internetové prodeje by mohl vypadat následovně
Kdybychom chtěli pro tři vstupní metriky spočítat předchozí rok, měli bychom 3 počtítané členy. Když by bylo potřeba ještě variance proti předchozímu roku, varianci v % a kumulovaný souhrn, nastává explozivní nárůst počtu počítaných členů z bázových metrik. 3 vstupní a jejich 4 (LY,VLY,VLY%, YTD) časové variance a jsme hned na 15 measures v datovém modelu.
Tento problém jsme schopni elegantně vyřešit s calculation groups.
Přepneme se do model view

Pravé tlačítko na calculation groups, vytvořit novou. Dostaneme varování před používáním implicitních measures (že se se sloupec sám sesumuje při zaškrtnutí číselného sloupečku, správně je používat measures pojmenované/explicitní definované v modelu).
Vznikne nová počítaná položka, kterou pojmenuji Actual a bude se odkazovat na funkci SELECTEDMEASURE() která je takovým chameleonem podle toho, co je aktuálně vybrané v Power BI vizualizaci.
Nová počítaná položka pro výpočet předchozího roku se může odkazovat místo explicitního názvu measure právě na SELECTEDMEASURE(), jinak je syntaxe stejná. 

Variance proti předchozímu roku by mohla vypadat následovně.
Procentuální variance s možností přepsat pro procenta format string

Následovně by mohl vypadat výstup s použitím calculation groups na sloupcích ve vizuálu Matrix. Dá se ale použít i jako Slicer a v podstatě všude možně.
Závěr
Calculation groups se dají použít kdekoliv, kde máte opakovatelný pattern, jen metrika se mění. Dalo by se přirovnat k počítané položce v Excelu, případně počítanému členu v SSAS Multidimenzional. Hezký a častý scénář jsou časové kalkulace. Nicméně tam použití Calculation Groups nekoknčí.Příště si ukážeme například jak řešit problém "defaultního membera".