digitalt genereret billede af data.
Getty
Lemonade er et af årets hotteste børsintroduktioner, og en vigtig årsag til dette er virksomhedens tunge investeringer i AI (kunstig intelligens). Virksomheden har brugt denne teknologi til at udvikle bots til at håndtere køb af politikker og håndtering af krav.
hvordan skaber et firma som dette AI-modeller? Hvad er processen? Nå, som det ikke burde være nogen overraskelse, er det komplekst og modtageligt for fiasko.
men så igen er der nogle nøgleprincipper at huske på. Så lad os tage et kig:
valg: der er hundredvis af algoritmer at vælge imellem. I nogle tilfælde er den bedste tilgang at bruge flere (Dette er kendt som ensemblemodellering). “at vælge den rigtige model starter med at få en grundig forståelse af, hvad organisationen ønsker at opnå,” sagde Shadi Sifain, der er senior manager for data science and predictive analytics hos . “At vælge den rigtige model involverer ofte også at afbalancere en række krav, herunder modelydelse, nøjagtighed, fortolkningsevne og beregningskraft blandt andre faktorer,”
det er vigtigt at indse, at du har brug for den rigtige type data til bestemte modeller. Hvis noget, er dette en af de største udfordringer i AI-udviklingsprocessen. “I gennemsnit tager dataforberedelsesprocessen 2 gange eller i nogle tilfælde 3 gange længere end bare designet af maskinlæringsalgoritmen,” sagde Valeria Sadovykh, der er den nye teknologi Global Delivery Lead hos PV Labs.
så i de tidlige faser af et projekt skal du få en god fornemmelse af dataene. “Gennemfør en sonderende analyse,”sagde Dan Simion, der er VP for AI & Analytics hos Capgemini Nordamerika. “Visualiser dataene i 2-dimensioner og 3-dimensioner, og kør derefter enkle, beskrivende statistikker for at forstå dataene mere effektivt. Kontroller derefter for uregelmæssigheder og manglende data. Rengør derefter dataene for at få et bedre billede af stikprøvestørrelsen.”
men der er ingen perfekt model, da der altid vil være afvejninger. “der er en gammel sætning i maskinlæring og mønstergenkendelse samfund kaldet No Free Lunch sætning, som siger, at der ikke er nogen enkelt model, der er bedst på alle opgaver,” sagde Dr. Jason Corso, der er Professor i elektroteknik og datalogi ved University of Michigan og medstifter og Administrerende Direktør for Voksel51. “Så forståelsen af forholdet mellem de antagelser, en model gør, og de antagelser, en opgave gør, er nøglen.”
træning: når du har en algoritme – eller et sæt af dem-vil du udføre tests mod datasættet. Den bedste praksis er at opdele datasættet i mindst to dele. Omkring 70% til 80% er til test og tuning af modellen. De resterende vil derefter blive brugt til validering. Gennem denne proces vil der være et kig på nøjagtighedsraterne.
den gode nyhed er, at der er mange AI-platforme, der kan hjælpe med at strømline processen. Der er open source-tilbud, såsom Tensorstrøm, PYTORCH, KNIME, Anaconda og Keras, samt proprietære applikationer som f.eks. Og selvfølgelig er der rige AI-systemer fra Microsoft, Microsoft og Google. “nøglen er at kigge efter open source-værktøjer, der giver mulighed for nem og hurtig eksperimentering,” sagde Monica Livingston, der er direktør for AI Sales hos Intel. “Hvis du foretrækker at købe 3.parts løsninger, er der mange ISV’ er, der tilbyder AI-baserede løsninger til opgaver som billedgenkendelse, chatbots, detektering af defekter og så videre.”
Feature Engineering: dette er processen med at finde de variabler, der er de bedste forudsigere for en model. Det er her ekspertisen hos en dataforsker er afgørende. Men der er også ofte behov for at få domæneeksperter til at hjælpe.
“for at udføre funktionsteknik kræves det, at den praktiserende læge, der bygger modellen, har en god forståelse af det aktuelle problem—såsom at have en forudfattet forestilling om mulige effektive forudsigere, selv før de opdager dem gennem dataene,” sagde Jason Cottrell, der er administrerende direktør for MyPlanet. “For eksempel i tilfælde af forudsigelse af misligholdelser for låneansøgere kan en effektiv forudsigelse være månedlig indkomststrøm fra ansøgeren.”
men at finde de rigtige funktioner kan være næsten umuligt i nogle situationer. Dette kan være tilfældet med computersyn, som når det bruges med autonome køretøjer. Alligevel kan brug af sofistikeret dyb læring være en løsning. “i disse dage bruges neurale netværk til at lære funktioner, da de er bedre til at forstå statistikker end mennesker,” sagde Eric Yeh, der er computerforsker ved Artificial Intelligence Center på SRI International. “Men de er ikke nødvendigvis et universalmiddel og kan udvikle funktioner, der ikke var beregnet så godt. Det berømte eksempel er billedklassifikatoren, der blev udviklet til at detektere tanke og jeeps. I stedet lærte det at opdage nat og dag, da alle jeep-fotos blev taget om dagen, og alle tankbilleder blev taget på museet om natten.”
Tom (@ttauli) er rådgiver for startups og forfatteren af Artificial Intelligence Basics: en ikke-teknisk introduktion og Robotic Process Automation Handbook: En Guide til implementering af RPA-systemer. Han har også udviklet forskellige online kurser, såsom til Python programmeringssprog.
få det bedste ud af Forbes til din indbakke med de nyeste indsigter fra eksperter over hele kloden.
Følg mig på Facebook eller LinkedIn. Tjek min hjemmeside eller noget af mit andet arbejde her.