22-04-2024 Door: Sjoerd Janssen

DW & BI Summit 2024: Generatieve AI, de nieuwe hype?

Deel dit bericht

Alhoewel de titel van de Summit anders doet vermoeden, zijn Datawarehousing en Business Intelligence niet de belangrijkste onderwerpen van de elfde editie van de Data Warehousing en Business intelligence Summit geweest. Naast (hybrid) query processing, datamodellering, data architecturen en concepten zoals Delta Lake en Data Mesh is er in deze editie namelijk veel aandacht geweest voor generatieve AI. Hoe wordt generatieve AI al toegepast in verschillende datamanagement en analytics producten? Hoe regelen we de governance van (generatieve) AI? En hoe kunnen we generatieve AI gebruiken in combinatie met knowledge graphs?

Generatieve AI in bestaande producten
Dat generatieve AI een hot topic is, zie je terug in de toepassing hiervan in verschillende datamanagement- en analyticsproducten. Er zijn zoveel voorbeelden hiervan te noemen dat Mike Ferguson besloten heeft op het Summit hier zelfs een hele sessie aan te wijden. Volgens Mike is generatieve AI de belangrijkste trend in datamanagement en analytics.

Dat is ook niet gek gezien de voordelen die deze technologie kan bieden. Zo kan de productiviteit van dataproducenten worden verhoogd door generatieve AI in te zetten om metadata zoals businesstermen, synoniemen en beschrijvingen te laten genereren of hier in ieder geval al een suggestie voor te geven. Functionaliteit die nu al is ingebakken in de datacatalogus van Atlan. Aan de consumerende kant kan generative AI juist helpen om, via een dialoog met een chatbot, de juiste informatie te vinden.

Maar het gaat nog veel verder dan het verrijken en zoeken van data. Zo noemt Mike het voorbeeld van Ellie.AI, een tool die op basis van prompts een datamodel kan genereren. Een ander voorbeeld is SNAPLogic SnapGPT, een tool waarmee je op basis van prompts hele data pipelines kunt genereren. En ook op databaseniveau zien we al de integratie van generatieve AI. Hier ondersteunt het het gebruik van dialogen in natuurlijke taal om gestructureerde, ongestructureerde en geospatiale data te bevragen. Dat is iets wat we aan de BI kant in producten als Thoughtspot overigens ook tegenkomen. Ook in datamanagementactiviteiten als het genereren van datakwaliteitsregels, masterdata-matchingregels en data governance policy's kan het toepassen van generatieve AI voordelen bieden. Daarvan geeft Mike in zijn sessie ook enkele productvoorbeelden.

Maar er zijn zeker ook de nodige zorgen rondom het toepassen van generatieve AI. Zoals de mogelijkheid van hallucineren, waarbij generatieve AI een onjuist antwoord verzint op het moment dat het algoritme zelf geen goed antwoord “weet”. En ook het feit dat de large language models die generatieve AI gebruikt vaak getraind zijn op grote publieke datasets helpt niet altijd in de relevantie en geschiktheid van de antwoorden voor businessdoeleinden. Om deze zorgen te verminderen is het van belang om de modellen te finetunen en te voeden met de kennis van de business. Dit kan door het aanvullen van de knowledge base met zogenaamde embeddings. In deze embeddings, die gecreëerd worden op vector databases, kun je additionele informatie die relevant is binnen jouw specifieke businesscontext toevoegen aan het model. Daarmee kan het algoritme sneller relevantere en meer betrouwbare antwoorden genereren.

Generatieve AI governance
Hallucinatie en relevantie zijn niet de enige zorgen die het gebruik van generatieve AI, en overigens ook andere AI-algoritmes, met zich meebrengt. In zijn sessie getiteld “Data governance as keystone for compliant AI and digital trust” staat Jan Henderyckx uitgebreid stil bij deze zorgen. Hij verwijst in zijn sessie naar de exponentiële groei van het aantal AI gerelateerde incidenten waar de OECD over rapporteert. Deze internationale organisatie is gericht op het creëren van beter beleid om zo de kwaliteit van leven te verbeteren. Jan vraagt zich zelfs af of we niet te maken hebben met een “Monkey with a hand grenade” moment. Oftewel zijn we ons wel voldoende bewust en van alle risico’s die het gebruik van (generatieve) AI voor personen, organisaties en zelfs hele ecosystemen met zich meebrengt. Kunnen we het nog wel onder controle houden?

Jan.png


Ten aanzien van het ethisch gebruik van AI ontstaan wel steeds meer best practices, frameworks en wetgeving. The National Institute of Standards and Technology (NIST) is een agentschap van de Amerikaanse overheid dat zich niet alleen op best practices en frameworks op dit gebied richt, maar ook de toegang tot data en compute resources, research en development en internationale samenwerking stimuleert. De recent aangekondigde AI-act van de Europese Unie daarentegen is veel meer gericht op wetgeving en het sanctioneren van overtredingen.

Naast dat Jan in zijn sessie deze ontwikkelingen in de markt schetst, geeft hij ook handvatten hoe je als organisatie kunt omgaan met de risico’s die het gebruik van AI met zich meebrengen. Zo is het van belang om te bewaken dat de AI die je toepast FAT (Fair, Accountable en Transparant) is. Het zal daarvoor privacy, intellectueel eigendom en copyrightwetgeving moeten respecteren en het model zal ook geen vooroordelen en discriminatie moeten stimuleren. Je moet als organisatie ook verantwoording af kunnen leggen over het gebruik van de AI. Dit kun je doen door de juiste maatregelen te treffen om negatieve consequenties tegen te gaan en ervoor te zorgen dat je transparantie kunt geven over het model dat je gebruikt. Daarbij is het van belang dat je kunt aangeven wat de belangrijkste features zijn in het model.

Daarmee worden ook de nodige eisen gesteld aan de data die je gebruikt. Dit vraagt om een uitgebreidere definitie van datakwaliteit waarbij ook aspecten worden meegenomen als: Bevat de data een evenredige vertegenwoordiging van de verschillende klassen die we willen onderscheiden? Zitten er geen vooroordelen in de data? Bevat de data wel voldoende uitzonderingen? Daarnaast is het van belang als organisatie een bredere kijk op datageletterdheid te hebben waarin er aandacht moet zijn voor kritisch denken ten aanzien van het gebruik van AI. Want zoals op een slide met een quote van Spider-Man te lezen staat “With great power comes great responsibility!”.

Knowledge graphs (en generatieve AI?)
Een derde presentatie waar het gebruik van generatieve AI aan bod komt is de presentie van Panos Alexopoulos over de beloftes en uitdagingen van knowledge graphs. In zijn ogen zijn knowledge graphs niet echt iets nieuws. Als je al ervaring hebt in datamodellering, taxonomieën en ontologieën dan heb je daarmee al veel kennis van knowledge graphs. Wat wel cruciaal is bij een knowledge graph is de gedeelde semantiek. De nauwkeurigheid van, de explicietheid van en de mate van overeenstemming over de betekenis zijn dan ook cruciaal voor knowledge graphs. Als deze zaken op orde zijn kunnen knowledge graphs op veel gebieden worden ingezet. Zo kunnen ze worden toegepast voor data analytics en data science, voor het ondersteunen en verbeteren van machine learning toepassingen en voor het integreren van data op basis van de betekenis.

Panos.png


Hoe gemakkelijk of moeilijk het kan zijn om een knowledge graph te maken legt Panos uit aan de hand van een vergelijk tussen twee praktijkvoorbeelden. Wat daaruit blijkt is dat er enkele factoren zijn die bepalend zijn voor de effort die nodig is om een knowledge graph project uit te voeren. Het gaat daarbij onder andere om de huidige kwaliteit van de definities en de beschikbaarheid, de structuur en de geschiktheid van de data die hiervoor gebruikt kan worden. Daarnaast spelen de volwassenheid van de tooling en de algoritmes om de knowledge graph te voeden een belangrijke rol. Ten slotte zijn de kwaliteitseisen die aan de knowledge graph worden gesteld en de volwassenheid van de organisatie in data- en kennismanagement belangrijke factoren die de doorlooptijd van zo’n project sterk kunnen beïnvloeden. En als het project eenmaal is afgerond zal er nog continu energie in moeten worden gestoken om ervoor te zorgen dat de knowledge graph relevant en bruikbaar blijft.

Kunnen we dan wellicht generatieve AI gebruiken om knowledge graphs te bouwen? vraagt Panos zich af. Om deze vraag te beantwoorden kijkt hij naar drie stappen die nodig zijn in het bouwen van een knowledge graph.
1. Het voorzien in feiten en domeinkennis als input voor je knowledge graph: Hier kan de betrouwbaarheid van generatieve AI een issue zijn. Advies is dan ook om generatieve AI alleen te gebruiken voor zaken die je gemakkelijk kunt verifiëren en waarbij de accuraatheid niet cruciaal is. Gebruik het hier dan ook vooral in combinatie met andere kennisbronnen.
2. Het transformeren van requirements in formele kennismodellen: Het gevaar van het gebruik van generatieve AI hier is dat het wel modelleertalen kan leren en reproduceren, maar dat het deze niet echt begrijpt. Het gebruik van generatieve AI kan daardoor toch tot onverwachte resultaten leiden.
3. Het extraheren en classificeren van kennis uit tekst en data: Dit is iets waarvoor generatieve AI wel gebruikt kan worden. Vooral wanneer het model wordt gefinetuned op het domein waarvoor de knowledge graph wordt gemaakt.
Maar voordat we aan de slag gaan met het bouwen van een knowledge graph, zo geeft Panos aan, is het eerst van belang om een goede strategie te definiëren. Het gaat bij zo’n strategie dan niet alleen om het wat en hoe, maar vooral ook om het doel dat we voor ogen hebben. Vanuit dat doel kunnen we immers bepalen welk domein we willen afdekken, welke data, applicaties en kennis we nodig hebben, welke gebruikers we gaan ondersteunen en welk niveau van kwaliteit benodigd is om het doel te bereiken.

Hoe staat het met Data Mesh?
Met al die aandacht voor generatieve AI lijkt het wel alsof we een eerder veelbelovend concept als Data Mesh helemaal vergeten zijn Dit terwijl veel organisaties er nog niet in geslaagd zijn dit succesvol te implementeren. In zijn presentatie op het Summit gaat Ron Tolido in op hoe je het implementeren van een Data Mesh stapje voor stapje succesvol kunt aanvliegen, zonder de “mess” die een big bang aanpak met zich meebrengt.

Ron.png


Er zijn daarbij vier startpunten waar vanuit je kunt starten. Zo kun je starten vanuit een nieuwe business line of domein. Het idee van een Data Mesh is immers dat je in plaats van centraal het eigenaarschap federatief belegt binnen een domein. Een ander startpunt kan zijn dat je start met het implementeren van een data marketplace boven op de al bestaande data. Daarmee krijg je al zicht op de consumptie en gebruik van data en stimuleer je het productdenken dat in een Data Mesh centraal staat. Een derde aanvliegroute is het bieden van selfservice functionaliteiten. Dat stimuleert immers al het decentraal creëren van de dataproducten zonder dat de business zich druk hoeft te maken over de technische complexiteit. De laatste, maar ook meest lastige, aanvliegroute die Ron benoemt is het daadwerkelijk decentraliseren van een deel van de centrale governance. Daarvoor zijn goede policy's rondom data privacy, kwaliteit, beveiliging en interoperabiliteit onmisbaar en heb je teams nodig met mensen uit verschillende domeinen die issues oplossen en er op toezien dat de policy's daadwerkelijk worden geïmplementeerd. Daarnaast helpt het hierbij om processen en tools die deze governance ondersteunen goed in te richten.

Generatieve AI geen tijdelijke hype
Naast alle aandacht voor generatieve AI zijn er op de Summit meer sessies zoals die van Ron Tolido, die geen of weinig aandacht besteden aan dit fenomeen. Zo gaat Mike in zijn eerste presentatie op de Summit in op de ontwikkelingen in data architecturen. Nieuwe data architecturen op open tabelstandaarden maken het mogelijk om verschillende workloads op dezelfde data te draaien. Deze workloads variëren daarbij van traditionele BI tot machine learning, streaming en graph analyse.
In een andere sessie van de Summit gaat Alec Sharp in op de overeenkomsten en relaties tussen conceptueel datamodelleren en procesmodellering. De “dingen” die je definieert in het conceptuele datamodel zijn immers dezelfde “dingen” waar processen op kunnen acteren. Een gezamenlijke taal is iets waar organisaties nu, in een steeds sneller veranderende omgeving, meer dan ooit behoefte aan hebben.

Generatieve AI is dus zeker niet het enige onderwerp van de Summit. Toch lijkt het wel meer te zijn dan een tijdelijke hype. Hoe de toepassing van generatieve AI zich in het datamanagement en analytics werkveld verder gaat ontwikkelen zullen we dan ook zeker zien op de volgende edities van de Datawarehousing en Business Intelligence Summit.

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners