Como gravar tarefas domésticas pode treinar robôs "mordomos" no futuro

Empresas contratam trabalhadores para filmar atividades domésticas e gerar dados que ajudam a treinar robôs com inteligência artificial

Stephanie Yang
Compartilhar matéria

O sonho de implantar robôs humanoides em cada casa criou um novo tipo de emprego. Os únicos requisitos são uma faixa de cabeça, um smartphone e uma lista de tarefas.

Com a evolução da inteligência artificial, os robôs humanoides tornaram-se a mais recente fronteira na corrida para dominar a tecnologia avançada. Os fabricantes de robôs estão lançando uma sucessão de novos modelos que podem andar, dançar e lutar com agilidade crescente.

Mas o santo graal da indústria em crescimento – um robô de uso geral que possa trabalhar em lojas, escritórios e residências – precisa de uma vasta quantidade de dados para aprender a substituir humanos com segurança e eficácia. Cada vez mais, esses dados estão sendo criados por pessoas que se filmam realizando tarefas domésticas mundanas.

Isso criou um apetite voraz por filmagens em primeira pessoa que podem ser usadas para treinar robôs, também conhecidas como "dados egocêntricos" ou "dados humanos". Nos últimos meses, startups entraram em cena para atender essa demanda, coletando e anotando vídeos de milhares de trabalhadores contratados em todo o mundo.

"Manufatura, armazéns de fábricas, varejo, casas de repouso, hospitais – você vai precisar desse tipo de dados em basicamente todos os ambientes, e isso porque os movimentos são todos diferentes", disse Arian Sadeghi, vice-presidente de dados de robótica da Micro1, que começou a recrutar seu próprio exército de videógrafos remotos no ano passado.

Cada pessoa recebe um equipamento de cabeça para fixar uma câmera, instruções de filmagem e uma lista de tarefas como cozinhar, limpar, jardinagem e cuidados com animais de estimação. Espera-se que os trabalhadores alternem entre as tarefas e enviem pelo menos 10 horas de vídeo por semana.

Embora as filmagens atualmente girem em torno de tarefas domésticas, Sadeghi disse que a empresa incentiva os contratados a experimentarem o que filmam, caso isso possa eventualmente ajudar os robôs a se adaptarem mais rapidamente a novos ambientes e responsabilidades.

"A coisa que dizemos a eles é: "Se você acha que quer que um robô faça isso por você, vá em frente e grave"", disse Sadeghi.

"Bilhões de horas"

Embora a Micro1 esteja sediada em Palo Alto, Califórnia, ela tem cerca de 4.000 "generalistas de robótica" em diferentes residências em 71 países, que enviam à empresa mais de 160.000 horas de vídeo por mês. Sadeghi disse que isso não é nem de longe o suficiente.

"Você provavelmente precisa de bilhões de horas", ele disse. "Ainda nem chegamos às interações humanas. Isso são apenas tarefas domésticas simples."

Ele disse que a crescente demanda por dados em robótica reflete a trajetória inicial do ChatGPT e outros chatbots de IA. Treinado em centenas de bilhões de palavras coletadas da internet, o ChatGPT usa o que aprendeu sobre padrões de texto para gerar as respostas mais prováveis às solicitações dos usuários.

Após o texto, os modelos de IA evoluíram para produzir imagens e vídeos personalizados sob demanda, contando com conteúdo facilmente disponível online. Mas os desenvolvedores de robôs precisam de um conjunto muito mais específico de dados de treinamento e não dispõem do mesmo tipo de biblioteca instantânea que a internet forneceu anteriormente.

Isso se tornou uma oportunidade multibilionária para startups como a Micro1, que também anotam os vídeos para que os robôs possam diferenciar objetos, distâncias e movimentos físicos. Empresas de pesquisa de mercado estimam que o setor de coleta e rotulagem de dados expandirá em média cerca de 30% anualmente, liderado pelo crescimento na Ásia, para atingir pelo menos US$ 10 bilhões até 2030.

Ravi Rajalingam, fundador da empresa de anotação de dados Objectways, forneceu dados de áudio e visuais para treinar assistentes virtuais com IA e carros autônomos, antes de mudar seu foco para a robótica no ano passado. Desde que começou a contratar pessoas para coletar dados humanos, ele descobriu que apenas cerca de metade das filmagens enviadas é utilizável.

Ainda assim, com 90% de seus clientes baseados nos EUA, e com a suposição deles de que os consumidores americanos têm o poder aquisitivo para adotar robôs humanoides precocemente, alguns estão dispostos a pagar mais por dados de residências americanas, mesmo que o salário por hora possa ser até três vezes maior que o de um trabalhador no Vietnã ou na Índia.

"A cozinha da Índia é muito diferente da cozinha dos EUA. Uma vassoura na Índia é muito diferente de uma vassoura nos EUA. Então a variedade é importante, mas depende de onde você vai colocar seus robôs primeiro", disse Rajalingam. "Essa é a razão pela qual estamos coletando dados em todo o mundo."

Como treinar seu robô

Por décadas, os robôs têm sido treinados principalmente para realizar tarefas por humanos usando controles remotos. Mas isso requer muito hardware caro.

Mais recentemente, uma opção mais barata tem sido usar software para simular cenários virtuais, embora geralmente seja menos eficaz para interações com objetos físicos, como pegar um copo.

"Com dados, é sempre uma questão de equilíbrio entre qualidade e quantidade", disse Alicia Veneziani, vice-presidente de expansão de mercado da Sharpa, uma startup de androides com sede em Singapura que se especializa em mãos robóticas.

A China, que está investindo recursos estatais em indústrias de alta tecnologia, anunciou planos para pelo menos 60 centros de treinamento de robôs em todo o país. A maioria dos robôs humanoides produzidos em massa na China até agora foi adquirida para treinamento e pesquisa, disse Marco Wang, um analista baseado em Xangai da Interact Analysis, uma empresa de pesquisa em tecnologia.

Mas até o final do ano passado, a indústria começou a adotar o uso de dados humanos como uma solução intermediária, já que os únicos custos são um dispositivo de gravação como um GoPro, óculos Meta ou smartphone, e salários por hora entre $5 e $20, dependendo da região.

"A ideia aqui é: Ok, eu não quero o robô fazendo a tarefa. Eu quero as pessoas fazendo a tarefa", ele disse. "Dessa forma, você não precisa pagar pelos robôs, você só precisa pagar pelo equipamento e pelas pessoas."

Wang disse que viu modelos de negócios no Japão e na Coreia do Sul semelhantes aos centros de coleta de dados na China, mas com bases no Sudeste Asiático para capitalizar mão de obra mais barata. A Tesla tem treinado seu robô humanoide Optimus em suas próprias instalações em Fremont, Califórnia, e planeja expandir para Austin, Texas. Wang disse que os EUA e a Europa tendem a favorecer o treinamento por simulação defendido pela Nvidia, que projeta os chips de computador mais avançados do mundo.

No entanto, em um relatório de fevereiro, a Nvidia disse que incorporar mais de 20.000 horas de vídeos em primeira pessoa no treinamento de robôs melhorou a taxa de sucesso de tarefas como enrolar camisetas, classificar cartas de baralho, desparafusar tampas de garrafas e usar uma seringa, em mais de 50%.

"Se você depender de apenas uma forma de coleta de dados, provavelmente não é a melhor abordagem", disse Wang, que espera que as empresas combinem cada vez mais estratégias. "No futuro, será uma mistura de diferentes abordagens."

A última milha da automação

O ponto de virada para robôs autônomos ocorreu há três anos, quando os grandes modelos de linguagem que possibilitaram o ChatGPT deram origem a um novo algoritmo que traduz sinais visuais em ação física, disse Puneet Jindal, cofundador da empresa de anotação de dados Labellerr AI. Robôs que antes eram programados para tarefas repetitivas puderam começar a perceber e navegar pelo mundo ao seu redor.

Sua empresa começou a coletar seus próprios vídeos em primeira pessoa este ano, de trabalhadores em instalações de manufatura na Índia. Pelos próximos três anos, Jindal disse, priorizar dados humanos é uma "decisão óbvia". Mas esse boom pode não durar. Em breve, esse conteúdo poderia melhorar o treinamento de simulação, ou se a IA conseguir converter vídeos do YouTube encontrados online em primeira pessoa, isso poderia se tornar um substituto, ele disse.

"Até os laboratórios de robótica estão sentindo que não sabem quais dados serão necessários daqui a 12 meses", ele disse.

Parte da razão pela qual robôs de uso geral precisam de tanto treinamento é devido à extrema imprevisibilidade em ambientes domésticos, já que móveis, eletrodomésticos e humanos se movem constantemente, disse Rutav Shah, pesquisador de robótica na Universidade do Texas em Austin.

"O que realmente está faltando é uma intuição semelhante à humana sobre forças, fricção e incerteza que as pessoas adquirem ao longo de suas vidas", disse Shah. "Tornar os robôs geralmente úteis para tarefas domésticas cotidianas como cozinhar, limpar, isso vai ser a última milha da automação."

Até agora, robôs humanoides foram principalmente implantados em ambientes controlados como fábricas, onde são capazes de completar suas tarefas 99,9% do tempo, disse Alexander Verl, presidente de pesquisa da Federação Internacional de Robótica. Mesmo em dobrar camisetas, a taxa de sucesso atual ainda é muito baixa para ser comercialmente viável, ele disse.

"A probabilidade de que tenha sucesso geralmente está em torno de 70 ou 80%. Vindo da manufatura, isso realmente não é algo que nossos parceiros da indústria queiram usar", disse Verl.

Rajalingam da Objectways também enfatizou os riscos de segurança: se um robô estiver limpando um quarto de brinquedos, mas não conseguir distinguir entre uma boneca e um bebê humano, os resultados poderiam ser desastrosos.

"Se o robô pegar meu bebê e colocá-lo em uma lixeira, aí vem o processo de um milhão de dólares", disse ele.

Testar robôs com bebês ainda está muito distante, disse Rajalingam. No entanto, ele acrescentou, eles já começaram com cães.

Internacional