limonada é uma das IPOs mais quentes deste ano e uma das principais razões para isso é o investimento pesado da empresa em AI (Inteligência Artificial). A empresa tem usado esta tecnologia para desenvolver bots para lidar com a compra de políticas e a gestão de reclamações. então como é que uma empresa como esta cria modelos de IA? Qual é o processo? Bem, como não deve ser nenhuma surpresa, é complexo e suscetível ao fracasso.
mas, mais uma vez, existem alguns princípios fundamentais a ter em mente. Então vamos dar uma olhada:
seleção: há centenas de algoritmos para escolher. Em alguns casos, a melhor abordagem é usar vários (isto é conhecido como modelização em conjunto).
“selecionar o modelo certo começa com a obtenção de uma compreensão completa do que a organização deseja alcançar”, disse Shadi Sifain, que é o gerente sênior de ciência dos dados e análise preditiva em Paychex. “Selecionar o modelo certo muitas vezes também envolve equilibrar uma série de requisitos, incluindo o desempenho do modelo, precisão, interpretação e poder computacional entre outros fatores,”
é importante perceber que você precisa do tipo certo de dados para certos modelos. Este é um dos maiores desafios do processo de desenvolvimento da IA. “Em média, o processo de preparação de dados leva 2X ou, em alguns casos, 3X mais tempo que apenas o projeto do algoritmo de aprendizagem da máquina”, disse Valeria Sadovykh, que é a tecnologia emergente entrega Global líder nos laboratórios PwC.
assim, nas fases iniciais de um projeto, você precisa ter um bom senso dos dados. “Conduct an exploratory analysis”, said Dan Simion, who is the VP of AI & Analytics at Capgemini North America. “Visualize os dados em 2 dimensões e 3 dimensões, em seguida, execute estatísticas simples e descritivas para entender os dados de forma mais eficaz. A seguir, procurem anomalias e dados em falta. Em seguida, limpar os dados para obter uma melhor imagem do tamanho da amostra.”
mas não há um modelo perfeito, como sempre haverá trade-offs.
“Há um velho teorema em aprendizado de máquina e reconhecimento de padrões da comunidade chamado no Almoço Grátis Teorema, o qual afirma que não existe um modelo único que é melhor em todas as tarefas”, disse o Dr. Jason Corso, que é Professor da faculdade de Engenharia Elétrica e Ciência da computação na Universidade de Michigan e o co-fundador e CEO da Voxel51. “Então, entender as relações entre as suposições que um modelo faz e as suposições que uma tarefa faz é fundamental.”
Formação: uma vez que você tem um algoritmo – ou um conjunto deles-você quer realizar testes contra o conjunto de dados. A melhor prática é dividir o conjunto de dados em pelo menos duas partes. Cerca de 70% a 80% é para testar e ajustar o modelo. O restante será então utilizado para validação. Através deste processo, haverá um olhar para as taxas de precisão.
A boa notícia é que existem muitas plataformas de IA que podem ajudar a simplificar o processo. Há ofertas de código aberto, tais como TensorFlow, PyTorch, KNIME, Anaconda e Keras, bem como de aplicações de software proprietário, como Alteryx, Databricks, DataRobot, MathWorks e SAS. E, claro, existem ricos sistemas de IA da Amazon, Microsoft e Google.
“A chave é procurar ferramentas de código aberto que permitam experiências fáceis e rápidas”, disse Monica Livingston, que é a Diretora de vendas de IA na Intel. “Se você preferir comprar soluções de terceiros, existem muitos ISVs oferecendo soluções baseadas em IA para Tarefas como reconhecimento de imagens, bots de chat, detecção de defeitos e assim por diante.”
Engenharia de recursos: Este é o processo de encontrar as variáveis que são os melhores predictores para um modelo. É aqui que a experiência de um cientista de dados é essencial. Mas também há muitas vezes a necessidade de ter especialistas de domínio ajudar.
“para realizar engenharia de recursos, o praticante que constrói o modelo é obrigado a ter uma boa compreensão do problema em mãos—como ter uma noção preconcebida de possíveis predictores eficazes mesmo antes de descobri-los através dos dados”, disse Jason Cottrell, que é o CEO da Myplanet. “Por exemplo, no caso de prever incumprimentos para candidatos a empréstimos, um predictor eficaz pode ser Fluxo de renda mensal do requerente.”
mas encontrar as características certas pode ser quase impossível em algumas situações. Pode ser o caso da visão computacional, como quando usada com veículos autônomos. No entanto, o uso de sofisticados conhecimentos profundos pode ser uma solução.
“atualmente, as redes neurais são usadas para aprender recursos, uma vez que eles são melhores em entender estatísticas do que os humanos”, disse Eric Yeh, que é um cientista da computação no centro de Inteligência Artificial no SRI International. “No entanto, eles não são necessariamente uma panaceia e podem desenvolver características que não foram planejadas também. O famoso exemplo é o classificador de imagem que foi desenvolvido para detectar tanques e jipes. Em vez disso, aprendeu a detectar noite e dia, uma vez que todas as fotos de jeep foram tiradas durante o dia e todas as fotos de tanque foram tiradas no Museu à noite.”
Tom (@ttaulli) is an advisor to startups and the author of Artificial Intelligence Basics: A Non-Technical Introduction and The Robotic Process Automation Handbook: A Guide to Implementing RPA Systems. Ele também desenvolveu vários cursos online, como para a linguagem de programação Python.