Bij veel bedrijven mislukken Datalabs-initiatieven of leveren ze niet de gehoopte analyseresultaten op. Volgens Data Scientist Longhow Lam stelt Gartner dat zo’n zestig procent van de Data Science- en Analytics-projecten faalt, en dat ruim tachtig procent van de gemaakte modellen niet in productie komt. Dat heeft voor een deel te maken met een tekort aan Data Scientists, maar als veel bedrijven Data Scientists aannemen en een groot aantal projecten toch mislukt dan moet men zich volgens hem afvragen of ze echt deze specialisten nodig hadden. Want bij gebrek aan intern sponsorship en een juiste IT-infrastructuur kunnen Data Scientists niet veel bereiken.
Longhow Lam zit als zelfstandig Data Scientist in een vakgebied dat heel hot is, met een grote vraag bij bedrijven naar experts op het gebied van Data Science. Hij beaamt dat er een tekort is aan Data Scientists, waardoor bedrijven soms maanden zoeken naar geschikte kandidaten om openstaande vacatures te vullen. Naar zijn mening is er de afgelopen jaren echter wel een zekere hype ontstaan. Daarbij nemen bedrijven soms Data Scientists graag aan terwijl er niet echt Data Science werk voor ze is. “Er is dan niet goed nagedacht over wat de Data Scientist moet doen. Er is wel geld om mensen aan te nemen maar er is veel meer nodig om Data Science te laten werken binnen een bedrijf dan alleen iemand op die plek te zetten.”
Om Data Science tot een succes te maken moet er een actieve ondersteuning zijn van het senior management, zelfs van de Raad van Bestuur, soms zijn nieuwe investeringen in een nieuwe IT-infrastructuur nodig en ook de business moet de inzet van Data Science omarmen. “Om Data Science binnen een bedrijf te laten werken is een grotere uitdaging”.
Lam werkt als freelancer na een jarenlange loopbaan bij bedrijven als SAS, RTL, Jibes en ABM Amro. Hij heeft een gedegen wiskundige en statistische achtergrond. Na zijn studie Wiskunde aan de Vrije Universiteit Amsterdam heeft hij ook nog een postdoctoraal Wiskundige beheers- en beleidsmodellen gevolgd aan de TU Delft. Op dit moment is hij net aan een nieuw project begonnen bij MoneYou. Zijn vorige project was bij de Sociale Verzekeringsbank (SVB), een project met text-mining op documenten. De SVB krijgt veel klachten, bezwaren en brieven binnen, maar er is binnen de organisatie betrekkelijk weinig overzicht van de onderwerpen van de klant uitingen. Text-mining wordt ingezet om daarop een antwoord te kunnen geven.
Goede Tijden Slechte Tijden
De titel van zijn lezing op de Big Data Expo luidt ‘Jaap Huisprijzen, GTST, The Bold, IKEA en IENS. Zomaar wat toepassingen van machine learning met Dataiku!’ Tijdens deze presentatie maakt Longhow Lam duidelijk hoe Machine Learning toepasbaar is in het dagelijks leven, zoals het kopen van een huis, bekijken van Goede Tijden Slechte Tijden, winkelen bij IKEA en het bezoeken van restaurants. Lam vertelt dat hij regelmatig eigen ludieke Data Science ‘hobby onderzoekjes’ uitvoert en daarover op zijn eigen blog publiceert. Via deze publicaties en via softwareleverancier Dataiku is een samenwerking ontstaan met het ICT-concern Centric, dat hem vroeg bij hen een interne presentatie te houden over Data Science. Deze voordracht viel in goede aarde bij Centric, dat hem vroeg zijn ervaringen ook op de Big Data Expo naar buiten te brengen.
Longhow Lam publiceert veel over Data Science op zijn eigen blog en is daarbij een ambassadeur voor het vakgebied. Op zijn blog maakt hij ons deelgenoot van een veelheid aan eigen data-experimenten, zoals Artificial Intelligence met Image Recognition, webscraping van beelden die daarna naar een vector worden omgezet, bespiegelingen over Dataiku, Spark, R en Python, de ins en outs van Machine Learning. Met leuke projecten als de Ikea-hackathon, text mining van samenvattingen van televisieserie Goede Tijden Slechte Tijden, analyse van voetbaltransfers maakt hij inzichtelijk wat Machine Learning vermag. Hij vindt het leuk om met dit soort voorbeelden die iedereen kent begrip te krijgen voor Data Science.
Een van zijn eigen projecten betrof de bouw van een scraper in R die scriptmatig op de website van Ikea de voorraad van producten bekijkt. Lam had gezien dat het voorraadbeheer elke anderhalve uur werd ververst en kon zo bijvoorbeeld kijken welke kasten nog verkrijgbaar zijn en hoeveel er verkocht waren, om te voorkomem dat je voor niets naar het filiaal afreist. Nadat hij over deze oplossing op zijn blog publiceerde is hij benaderd door de HR-manager van Ikea voor een gesprek. Dit resulteerde in een uitnodiging om mee te doen aan een Ikea hackathon.
Samen met Jos van Dongen en diens zoon zette Lam tijdens de Ikea hackathon een systeem op dat 9000, via een scraper van de website gehaalde, productfoto’s een neuraal netwerk instuurt dat voor elke aparte afbeelding parameters, vectoren berekent. Op basis van afstanden van de vectoren zijn dan per beeld afstandskenmerken bekend waarmee de Ikea productfoto’s vergeleken worden voor een match met een eigen foto. Deze aanpak resulteerde in een voorstel voor een Ikea-app. Op zijn GitHub pagina stelt hij de gebruikte R-code beschikbaar.
Automatische klantselectie
Longhow Lam ziet diverse uitdagingen liggen op het vakgebied van Data Science. In de eerste plaats de al besproken omarming ervan door bedrijven. Het is volgens hem gemakkelijk om een predictive model (bijvoorbeeld het weglopen van klanten) te maken, maar gebruikers (marketeers) moeten dit model dan wel omarmen, accepteren en kunnen gebruiken. Bij een bedrijf dat aan het begin staat van de Data Science-reis is het voor marketingmedewerkers soms moeilijk te accepteren dat de dagelijkse operaties en de klantbenadering via een Data Science model automatisch gaan verlopen. Zelfs de selectie van klanten gaat op den duur automatisch via een model. “Marketeers zullen dit dus wel moeten willen. Deze slag, deze omarming van Data Science modellen, zie ik als een van de uitdagingen”.
Gevraagd naar het soort bedrijven waarbinnen Data Science gemakkelijk te implementeren is, ziet Lam dat vooral in de e-commerce-sector en bij banken een redelijke acceptatiegraad van Data Science bestaat. Ook bij overheden en bij kleinere bedrijven in het MKB-segment is nog winst te behalen, stelt hij.
Datakwaliteit
Een tweede uitdaging is het aloude probleem van de datakwaliteit. Je kan nog zulke mooie technieken erop loslaten, als de data niet goed is qua kwaliteit geldt ook bij de inzet van Data Science: garbage in, garbage out. Er zijn dan geen goede voorspellende modellen te maken. Ook in de traditionele relationele Systems of record is het lang niet altijd goed geregeld. Volgens Lam heb je ook bij grote banken bestanden waarin geboortedata of velden met geslacht ontbreken. Er zitten soms om wat voor oorzaken dan ook gaten in de bestanden die met SQL te bevragen zijn, of gegevens zijn er nooit geweest of ingevuld. Het probleem van datakwaliteit gaat langer terug dan Data Science, ook traditionele BI lijdt daaronder. Maar volgens Lam kan Data Science er gemakkelijker mee weg komen dan BI, omdat een voorspellend model ondanks de gaten nog wel kan werken omdat het verband er nog is.
Wat betreft uitdaging van de schaarste aan talent voorziet hij dat de bedrijven in de toekomst zullen overgaan naar een situatie met een soort service- of leasecontract. Daarin levert een Data Scientist die tijdelijk in dienst is een model op, dat niet veel onderhoud meer nodig heeft, zoals bijvoorbeeld gebeurt met onderhoudscontracten op de cv-ketelmarkt.
De Data Scientist als MacGyver
Een Data Scientist moet over een aantal competenties beschikken om succesvol te zijn. Lam noemt als voorwaarde dat een kwantitatieve opleiding wel benodigd is, wiskunde of natuurkunde bijvoorbeeld. Promoveren ziet hij niet als noodzakelijke vereiste. Verder zijn hacking- en programmeervaardigheden belangrijk, want je moet niet bang zijn om een programma of script te schrijven. Ook belangrijk is om te kunnen ‘sparren’ met de business, overleggen en hun probleem begrijpen en vertalen. Je hebt al deze drie skills nodig, meent hij, je kan niet alleen in een van de drie excelleren.
Lam haalt de dertig jaar oude televisieserie aan over de vindingrijke spion MacGyver, in tegenstelling tot een theoretisch natuurkundige als Einstein. De aanpak van een Data Scientist vergelijkt hij met die van MacGyver, die problemen te lijf ging met allerlei praktische oplossingen die waren gebaseerd op natuurkundige principes. “Je hebt kennis van technieken en kwantitatieve methoden nodig, maar je hoeft daar niet professor in te zijn, je moet het begrijpen en kunnen toepassen”.
Longhow Lam houdt zijn keynote over toepassingen van machine learning met Dataiku op donderdag 20 september om 13.30 uur tijdens de Big Data Expo in de Jaarbeurs Utrecht.
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
Alleen als In-house beschikbaarWorkshop met BPM-specialist Christian Gijsels over business analyse, modelleren en simuleren met de nieuwste release van Sparx Systems' Enterprise Architect, versie 16.Intensieve cursus waarin de belangrijkste basisfunc...
Deel dit bericht