Lemonade is een van de heetste beursintroducties van dit jaar en een belangrijke reden hiervoor is de zware investeringen van het bedrijf in AI (Artificial Intelligence). Het bedrijf heeft deze technologie gebruikt om bots te ontwikkelen om de aankoop van polissen en het beheer van claims af te handelen.
Hoe maakt een bedrijf als dit dan AI-modellen? Wat is het proces? Nou, zoals geen verrassing, het is complex en vatbaar voor mislukking.
maar aan de andere kant, er zijn een aantal belangrijke principes om in gedachten te houden. Dus laten we eens kijken:
selectie: er zijn honderden algoritmen om uit te kiezen. In sommige gevallen is de beste aanpak het gebruik van meerdere (dit staat bekend als ensemble modelling).
” het selecteren van het juiste model begint met het verkrijgen van een grondig begrip van wat de organisatie wenst te bereiken,” zei Shadi Sifain, de senior manager van data science en predictive analytics bij Paychex. “Het selecteren van het juiste model impliceert vaak ook het balanceren van een aantal vereisten, waaronder modelprestaties, nauwkeurigheid, interpreteerbaarheid en rekenvermogen onder andere factoren,”
Het is belangrijk om te beseffen dat je de juiste soort gegevens nodig hebt voor bepaalde modellen. Dit is een van de grootste uitdagingen in het AI-ontwikkelingsproces. “Gemiddeld duurt het proces van gegevensvoorbereiding 2X of in sommige gevallen 3X langer dan alleen het ontwerp van het algoritme voor machine learning”, zegt Valeria Sadovykh, de toonaangevende leverancier van technologie bij PwC Labs.
dus in de vroege fasen van een project, moet u een goed beeld krijgen van de gegevens. “Voer een verkennende analyse uit,” zei Dan Simion, VP van AI & Analytics bij Capgemini Noord-Amerika. “Visualiseer de gegevens in 2-dimensies en 3-dimensies en voer vervolgens eenvoudige, beschrijvende statistieken uit om de gegevens effectiever te begrijpen. Controleer vervolgens op anomalieën en ontbrekende gegevens. Reinig vervolgens de gegevens om een beter beeld van de steekproefgrootte te krijgen.”
maar er is geen perfect model, omdat er altijd trade-offs zullen zijn. “er is een oude stelling in de machine learning en pattern recognition community genaamd de NO Free Lunch Theorem, die stelt dat er geen enkel model is dat het beste is voor alle taken,” zei Dr.Jason Corso, die Professor is in elektrotechniek en informatica aan de Universiteit van Michigan en de medeoprichter en CEO van Voxel51. “Dus, het begrijpen van de relaties tussen de veronderstellingen die een model maakt en de veronderstellingen die een taak maakt is de sleutel.”
Training: als je eenmaal een algoritme hebt – of een set daarvan-wil je testen uitvoeren tegen de dataset. De beste praktijk is om de dataset in ten minste twee delen op te splitsen. Ongeveer 70% tot 80% is voor het testen en afstemmen van het model. De resterende zal dan worden gebruikt voor validatie. Door dit proces, zal er een blik op de nauwkeurigheid tarieven.
het goede nieuws is dat er veel AI-platforms zijn die kunnen helpen het proces te stroomlijnen. Er zijn open source aanbod, zoals TensorFlow, PyTorch, KNIME, Anaconda en Keras, evenals propriëtaire toepassingen zoals Alteryx, Databricks, DataRobot, MathWorks en Sas. En natuurlijk zijn er rijke AI-systemen van Amazon, Microsoft en Google.
” De sleutel is om te zoeken naar open source tools die het mogelijk maken voor eenvoudige en snelle experimenten, ” zei Monica Livingston, die de directeur van AI Sales bij Intel. “Als u liever oplossingen van derden aan te schaffen, zijn er veel ISV’ s bieden AI-gebaseerde oplossingen voor taken zoals beeldherkenning, chat bots, defect detectie en ga zo maar door.”
Feature Engineering: Dit is het proces van het vinden van de variabelen die de beste voorspellers zijn voor een model. Hier is de expertise van een data scientist essentieel. Maar er is ook vaak een behoefte om domeinexperts te laten helpen.
” om feature engineering uit te voeren, moet de beoefenaar die het model bouwt een goed begrip hebben van het probleem—zoals het hebben van een vooropgezette notie van mogelijke effectieve voorspellers zelfs voordat hij ze ontdekt door de gegevens,” zei Jason Cottrell, die de CEO is van Myplanet. “Bijvoorbeeld, in het geval van het voorspellen van wanbetalingen voor lening aanvragers, een effectieve voorspeller zou kunnen zijn maandelijkse inkomstenstroom van de aanvrager.”
maar het vinden van de juiste functies kan in sommige situaties bijna onmogelijk zijn. Dit zou het geval kunnen zijn met computer vision, zoals bij gebruik met autonome voertuigen. Toch kan het gebruik van geavanceerde deep learning een oplossing zijn. “tegenwoordig worden neurale netwerken gebruikt om functies te leren, omdat ze beter in het begrijpen van statistieken zijn dan mensen,” zei Eric Yeh, computerwetenschapper bij het Artificial Intelligence Center van SRI International. “Ze zijn echter niet per se een wondermiddel en kunnen functies ontwikkelen die niet zo goed bedoeld waren. Het beroemde voorbeeld is de image classifier die werd ontwikkeld om tanks en jeeps te detecteren. In plaats daarvan leerde het om dag en nacht te detecteren, omdat alle jeepfoto ’s overdag werden genomen en alle tankfoto’ s ‘ s nachts in het museum werden genomen.”
Tom (@ttaulli) is een adviseur voor startups en de auteur van Artificial Intelligence Basics: A Non-Technical Introduction en het Robotic Process Automation Handbook: A Guide to Implementing RPA Systems. Hij heeft ook verschillende online cursussen ontwikkeld, zoals voor de programmeertaal Python.
Volg mij op Twitter of LinkedIn. Bekijk mijn website of een aantal van mijn andere werk hier.