Além do hype: IA gerativa é revolucionária e perigosa
Fetch error
Hmmm there seems to be a problem fetching this series right now. Last successful fetch was on October 25, 2024 18:38 ()
What now? This series will be checked again in the next hour. If you believe it should be working, please verify the publisher's feed link below is valid and includes actual episode links. You can contact support to request the feed be immediately fetched.
Manage episode 389477720 series 2830860
Esse episódio começa com duas histórias separadas por quase 3 mil anos que se uniram por uma tecnologia. As duas histórias aconteceram em ambientes de que você já ouviu falar e, provavelmente, frequentou.
Atualização (18/12): Ao contrário do que foi publicado originalmente, o vulcão que atingiu Herculano e Pompeia foi o Vesúvio, não o Etna. (Como disse o Guilherme, esta errata prova que nem ele, nem eu, ficamos pensando no Império Romano.
A primeira é em Pompéia — não o bairro classe média cheio de ladeiras em São Paulo, mas a cidade no sul da Itália. Para falar a bem da verdade, não é exatamente Pompéia, mas uma cidadezinha do seu lado, uma espécie de São Caetano de Pompéia: Herculano. Em 790 a.C., uma erupção do vulcão Vesúvio produziu energia térmica 100 mil vezes maior que a da bomba de Hiroshima ou Nagasaki. A explosão do vulcão produziu uma coluna de gases e pedra liquefeita com 33 quilômetros de altura. Calcula-se que, a cada segundo da erupção, o vulcão despejava 1,5 milhão de toneladas de gases e lava 1. Como você bem sabe, a erupção foi forte o suficiente para enterrar debaixo de 20 metros de fuligem não apenas Pompéia, mas também Herculano.
Milhares de anos depois, quando a humanidade começou a escavar a região no século XVIII, um grupo de arqueólogos descobriu em Herculano uma vila luxuosa que pode ter pertencido ao sogro de Júlio César 2. Nos escombros da vila, os arqueólogos descobriram quase dois mil pergaminhos, algo que a Luciana Gimenez chamaria de “scrolls”. Se você joga videogame, principalmente RPG, sabe exatamente do que estou falando: séculos antes da invenção da prensa por Gutemberg, por volta de 1450, o conhecimento em Roma era guardado em tiras de papel que, após finalizados, eram enrolados. Para ler, você precisava desenrolá-los. Sem surpresa, os pergaminhos na casa do sogro do Júlio César em Herculano, chamada desde então apropriadamente de Villa of the Papyri, foram queimados pelas toneladas de material incandescente. Viraram todos carvãozinhos enrolados. As fotos dos pergaminhos torrados lembram um jornal queimado, um pedaço de Bombril ou o cocô de um cachorro grande. Esta é a primeira história.
A segunda história se passa em um ambiente que você já frequentou: uma festa. Em agosto de 2023, Luke Farritor, estudante de ciência da computação na Universidade de Nebraska–Lincoln, em Lincoln, no estado norte-americano do Nebraska, estava em uma festa na casa de amigos quando seu celular apitou com uma notificação. Um concurso em que estava participando anunciou que tinha divulgado novos trechos de algo de que já vamos falar.
Já fazia semanas que Farritor estava trabalhando naquele desafio. Pelo celular, o estudante logou no computador em sua casa e rodou remotamente o algoritmo no qual vinha trabalhando para processar os novos dados. Uma hora mais tarde, enquanto voltava andando para sua própria casa, Luke checou os resultados e viu cinco letras na tela. Abre aspas para entrevista dele à prestigiosa revista Nature: “Eu estava pulando para cima e para baixo. Meu Deus, isso realmente vai funcionar”. Isso, no caso, era o algoritmo que usava inteligência artificial para processar imagens em busca de padrões que identificassem letras. É aí que as duas histórias se conectam: que imagens eram essas? Dos mesmos pergaminhos carbonizados encontrados na vila luxuosa do sogro de Júlio César em Herculano.
Semanas depois da festa, Luke Farritor foi proclamado o vencedor de um dos desafios do Vesuvius Challenge, uma competição lançada em março de 2023 por uma parceria entre um executivo do Vale do Silício fissurado no Império Romano e um pesquisador que há décadas estuda como desvendar textos antigos danificados. O primeiro é Dan Friedman, CEO do GitHub. O mais importante da história é o segundo: Brent Seales, professor de ciência da computação na Universidade do Kentucky. Desde 2002, Seales trabalha em projetos para desenvolver métodos computacionais que consigam ler livros e papiros antigos em péssimo estado.
Em 2002, Seales e sua equipe na British London, em Londres, desenvolveram um método para ler pergaminhos danificados sem precisar desenrolá-los. Abre aspas para a reportagem da revista Time sobre o Vesuvius Challenge:
Primeiro, você digitaliza em 3D o pergaminho usando um tomógrafo, a mesma tecnologia usada em humanos para uma tomografia. Depois, você analisa a digitalização para encontrar as camadas do pergaminho e virtualmente as torna planas. Por fim, você busca por sinais de tinta nas camadas planificadas.
Com o método, a equipe de Seales foi capaz de identificar em um livro antigo trechos de Eclesiástico, um dos livros deuterocanônicos da Bíblia, escrito em hebreu. Só em 2009, sete anos depois de criar a metodologia, Seales e sua equipe digitalizaram os primeiros papiros de Herculano. Mas ainda era 2009: a resolução do tomógrafo não era boa o suficiente e a inteligência artificial ainda estava na sua idade da pedra lascada. Dez anos depois, Seales digitalizou novamente os pergaminhos em um tomógrafo de melhor qualidade. Para extrair resultados satisfatórios, faltavam pesquisadores especializados em visão computacional, o ramo da inteligência artificial que processa imagens.. Em 2022, Friedman ofereceu um milhão de dólares entre grana do próprio bolso e captado em um financiamento coletivo e ambos, junto com o investidor Daniel Gross, instituíram o Vesuvius Challenge. O desafio é estruturado em tarefas específicas com prêmios específicos.
O maior prêmio vai pagar US$ 700 mil para quem conseguir ler “pelo menos quatro passagens separadas de texto plausível e contínuo dos pergaminhos, cada uma com, pelo menos, 140 caracteres”. O desafio ainda está aberto, caso te interesse. Luke Farritor, o estudante de 21 anos, ganhou o desafio “Primeiras letras”, cujo nome parece mais o título de uma música do Capital Inicial, por conseguir ler mais de 10 letras em uma área de 4 cm2 de pergaminho.
As letras do grego antigo que Farritor viu no seu telefone voltando da festa eram pi, omicron e rho. A partir destas e outras letras encontradas pelo seu algoritmo, Luke o treinou de novo e foi capaz de ler o termo πορφύραc (se pronuncia “porfyras”, segundo o Google Translate), grego para “roxo” ou “púrpura”. Segundo a Nature: “A palavra ‘roxo’ ainda não tinha sido lida nos pergaminhos abertos de Herculano.Tintura roxa era muito procurada na Roma Antiga e era feita das glândulas de lesmas do mar, o que significa que a palavra poderia se referir à cor, a vestimentas, à classe de pessoas que poderiam pagar pela tinta ou até a moluscos.” Tecnicamente, explica a Nature, “Farritor usou minúsculas diferenças na textura da superfície para treinar sua rede neural a destacar a tinta”. Dias depois do norte-americano, Youssef Nader, um PhD em bio-robótica de 26 anos pela Universidade Livre de Berlim, conseguiu ler as mesmas letras com uma abordagem diferente e conquistou a segunda colocação no desafio. Farritor ganhou US$ 40 mil e Nader, US$ 10 mil.
Para entender o tamanho da façanha, é necessário entender como a humanidade construiu sua história a partir de fragmentos recuperados de conhecimento antigo. A maior parte dos textos clássicos conhecidos hoje são resultado de cópias repetidas feitas por escribas durante séculos, explica a Nature. Já os papiros de Herculano contêm trabalhos que não estavam disponíveis em nenhuma outra fonte. Existe uma chance considerável de que a humanidade encontre textos inéditos que ajudem a explicar o funcionamento da sociedade romana. É o tipo de aplicação que “pode revolucionar nosso conhecimento de história e literatura antigas”, segundo a historiadora de Grécia e Roma na Ca’ Foscari University of Venice, Thea Sommerschield.
É um discurso repetido à exaustão pelos especialistas: para a CNN, o pesquisador em papirologia da University College London, Michael McOsker, afirma estar “paralizado pelo número de opções” que a evolução da tecnologia trará ao campo. Ainda falta ler papiros inteiros, mas pesquisadores ouvidos tanto pela Nature como pela Time disseram que parece uma questão de tempo3. Se isso se confirmar ou se a tecnologia avançar o suficiente para conseguir ler frases inteiras, áreas do conhecimento humano, como arqueologia, papirologia, literatura e filosofia, terão acesso a textos inéditos de um dos períodos mais importantes da história da humanidade. Mas não só a ele.
Um grupo da Universidade do Michigan também está trabalhando com Seales para identificar nos pergaminhos de Herculano trechos referentes à vida de Alexandre, o Grande. Outro grupo, das universidades de Tel Aviv e Ariel, em Israel, estão aplicando seus próprios algoritmos de inteligência artificial para traduzir fragmentos de escrita cuneiforme em pedaços de pedra do arcádio para o inglês. Outra equipe, composta por pesquisadores de Martin Luther University Halle-Wittenberg, Johannes Gutenberg University Mainz e Mainz University of Applied Sciences, também está aplicando inteligência artificial para ler escrita cuneiforme. Ambos os projetos, cujos resultados até aqui são bastante animadores, jogarão luz sobre a antiga Mesopotâmia.
No Tecnocracia #66, sobre o metaverso natimorto da Meta, eu apresentei um framework que uso para tentar adivinhar se uma tecnologia hypada vai sobreviver ou implodir. São as “três ‘dades’”: ancestralidade, utilidade e realidade. De tanto ver ondas sendo levantadas por profissionais financeiramente interessados que juravam ser a “next big thing”, para quebrarem semanas depois com um impacto que variava entre o insignificante e o pequeno, passei a encarar qualquer hype tecnológico com 19 dedos atrás. Quando uma tecnologia se transforma em hype, tente analisá-la por três prismas. O principal é a utilidade: a introdução desta tecnologia vai tornar sua vida mais fácil? A segunda é a ancestralidade: essa tecnologia já tentou emplacar e, se sim, qual foi o grau de sucesso? E o terceiro é a realidade: ela já existe em algum grau ou só estão tentando reempacotar algo comum com um elã de histeria?
Para as três “dades”, a inteligência artificial passa com estrelinha dourada. Começando do fim, juntando os pontos 2 e 3: já existem aplicações de inteligência artificial mediando sua vida, mas a introdução dos grandes modelos de linguagem (LLMs na sigla em inglês; falaremos disso mais tarde) colocou o setor — e as aplicações decorrentes — em outro patamar e, mais recentemente, inaugurou a era da IA Generativa. Essa melhoria técnica tem impactos inegáveis na forma como a humanidade vive. Conseguir decifrar textos que ficaram inacessíveis por milênios é útil. Mas não é só na arqueologia e na papirologia que a IA já está impactando sua vida. Olhe ao seu redor: tudo pode ser convertido em dados. A chegada de LLMs tem o potencial de movimentar as placas tectônicas de praticamente todos os setores da economia. É difícil pensar em alguma atividade humana que não será, direta ou indiretamente, impactada pela inteligência artificial — e eu só deixei isso em aberto pelo benefício da dúvida, já que eu não consegui pensar em nenhuma. Se você pensar, por favor, me avise.
Eu posso imaginar o que alguns de vocês estão pensando: “Peraí, este é o Tecnocracia mesmo? Cadê o ceticismo do Guilherme?” Bonito e bonita, eu entendo 100% se essa frase se manifestar nas dobras cinzas do seu cérebro. Se você é ouvinte assíduo(a), talvez eu tenha até ajudado a infundi-la. O timing não é bom mesmo para dizer que uma tecnologia X tem esse potencial sísmico: a gente está há quantas ondas ouvindo que “agora vai, isso aqui vai mudar tudo”? Teve criptomoedas, que só aparece no noticiário agora quando uma nova quadrilha de golpes é desbaratinada. Teve Web3, metaverso, NFT e blockchain, que nem aparecem mais no noticiário. Dessa vez, porém, tudo indica que é real, principalmente porque a AI já chegou à sua vida. Claro, tem muito problema — vamos falar disso também.
No último episódio da quinta temporada do Tecnocracia, a gente vai falar sobre inteligência artificial, o tema mais importante na tecnologia em 2023.
O Tecnocracia é um podcast sem frequência fixa que mistura reuniões de negócios, papers, código, histórias de ciência e um humor de gosto duvidoso e infame para tentar explicar se aquele hype todo é espuma ou verdade. Eu sou o Guilherme Felitti e o Tecnocracia está na campanha de financiamento coletivo do Manual do Usuário. Se você quiser ajudar o podcast, os planos começam em R$ 9/mês.
Tem muita coisa a se falar, tanto da parte técnica como da econômica, mas é fundamental começarmos com um aviso: eu tenho uma empresa de dados chamada Novelo Data. A gente está trabalhando com IA desde, pelo menos, 2021. No fim de 2022, eu e meu sócio, o Flávio, entendemos que a chegada dos LLMs tinha potencial de atingir todos os setores da economia. Por isso, a gente pegou o que já estava fazendo com IA e passou 2023 adaptando e estudando LLMs. Muito do que eu vou falar aqui vem das dezenas de conversas e reuniões que fizemos entre nós, com clientes, fornecedores de tecnologia, pesquisadores e gente do mercado que está produzindo inteligência artificial no Brasil em 2023. Os últimos meses foram uma pauleira, já que o ritmo de novidades relacionadas a LLMs é rápido até para um setor que vive de novidades, caso do da tecnologia. O que eu estou falando aqui não é só teoria — tem muita prática.
Por que, em 2023, parece que o mercado só falou de inteligência artificial? E como o ritmo de novidades acelerou tanto?
Comecemos do começo, como diria o filósofo: em 30 de novembro de 2022, o lançamento de um chatbot que dava respostas automáticas com desenvoltura similar à humana na maioria das questões, desencadeou um episódio raro do mercado de tecnologia. O ChatGPT colocou a OpenAI, antes uma empresa que só conhecia quem acompanhava e/ou estudava inteligência artificial de perto, em um nome que até seus tios sabem citar. A raridade está no fato de que uma empresa fora do circuito tradicional da Big Tech assumiu as rédeas da área mais quente do mercado e obrigou todas as outras a correrem atrás, algo que, um ano depois, continua a ser verdade. São poucos os episódios do tipo na última década: dá para pensar no Snapchat e na Steam, mas eram épocas em que 1) o setor ainda estava numa crescente, longe da altura estratosférica em que está agora; e 2) a dominação de Amazon, Meta, Google, Apple e Microsoft não estava tão solidificada como agora. O que torna esse pega-pega ainda mais doloroso para um dos membros da Big Tech é que a tecnologia por trás da ascensão da OpenAI foi criada dentro do Google — e o Google não exatamente deu de ombros, mas deixou um grupo externo se apossar e dominar a atenção do mercado. Ironicamente, essa tecnologia está relacionada à atenção.
Em 2017, um grupo de oito pesquisadores dentro da DeepMind, uma startup de IA que o Google havia comprado alguns anos atrás, publicou um artigo acadêmico intitulado “Attention is all you Need” (“Atenção é tudo de que você precisa”). Ele propunha uma nova arquitetura de deep learning para conseguir encontrar padrões dentro de um grande corpus de texto. O título se refere a um mecanismo que confere pesos distintos para cada palavra dada ao modelo, algo que os pesquisadores chamaram de “atenção”. Em vez de olhar as palavras separadas, o algoritmo lê e entende o contexto da frase, atribuindo notas aos termos contidos nela. Para ganhar a nota, cada palavra é processada e se transforma em um vetor numérico4. De maneira bastante simples, é assim que a tecnologia, chamada de Transformer, funciona. O Financial Times tem um infográfico interativo que explica muito bem o Transformer. O sistema de pesos dados aos vetores e o processamento em paralelo de bancos com bilhões de vetores permitiu a criação de sistemas capazes de entender melhor e, portanto, gerar respostas melhores do que as tecnologias disponíveis até então.
Não é que o Google ignorou o paper: os Transformers foram fundamentais para a criação em 2018 do BERT, uma família de modelos de linguagem treinados a partir da tecnologia. Assim que o BERT chegou à internet, tornou-se o modelo padrão para aplicações de processamento de linguagem natural (NLP, na sigla em inglês), uma área da inteligência artificial dedicada a métodos e modelos de análise automática de textos. Durante anos, o BERT e suas versões foram seminais entre os modelos de linguagem.
Um passo para trás para entender que diabos são modelos de linguagem: quase toda aplicação de inteligência artificial precisa de um banco de dados enorme de conteúdo para processar e aprender os padrões integrados naqueles dados. Em uma frase simples, modelo de linguagem é um modelo probabilístico de linguagem natural. O que é um modelo probabilístico de língua? Este é um conceito amplo, mas, no contexto dos modelos atuais, é um sistema que calcula, a partir de uma palavra ou conjunto de palavras, quais são as outras palavras com maior probabilidade de aparecer depois. Abre aspas para o livro *Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition”, dos professores Daniel Jurafsky, de Stanford, e James H. Martin, da Universidade de Colorado em Boulder:
Probabilidades são essenciais em qualquer tarefa na qual tenhamos que identificar palavras em inputs ruidosos e ambíguos, como reconhecimento de fala. Para um reconhecedor de fala entender que você falou
I will be back soonish
e nãoI will be bassoon dish
, ajuda saber queback soonish
é uma sequência muito mais provável quebassoon dish
.
O livro está disponível online e de graça.
E, usando o exemplo em inglês do Jurafsky e do Martin, de onde o modelo aprende que back soonish
é mais provável que bassoon dish
? De conteúdo que a humanidade já escreveu, principalmente online. O primeiro passo para você criar um modelo de linguagem é pré treiná-lo com o que chamamos de corpus: você alimenta o modelo com a maior quantidade de texto possível para ele mesmo encontrar essas relações e dar os pesos para entender quais frases são mais prováveis que outras e quais palavras são mais prováveis depois da palavra que ele acabou de dizer e por aí vai. É por isso que um trabalho fundamental na criação de modelos de linguagem é ter acesso à maior quantidade possível de conteúdo já criado. Então tome Wikipédia, livros digitalizados, redes sociais, roteiros, fóruns, jornais online…. Quem escreveu esses textos ganhou alguma coisa para treinar o LLM? Nada, o que levou um grupo relevante de escritores a se juntar em uma ação de classe contra a OpenAI por infração de direitos do autor.
De onde pegar mais conteúdo? Guarda essa dúvida que já falaremos dela.
Quanto mais palavras o modelo tiver à sua disposição na sua fase de treino, mais relações semanticamente significativas ele constrói na sua matriz de neurônios (ou pesos) e (em tese) mais correta a resposta tende a ser. Lembra do BERT, criado pelo Google? Sua maior versão foi treinada com 340 milhões de parâmetros. Parâmetro é o termo usado pelo setor para definir os “neurônios artificiais” que vão percorrer o corpus atrás de padrões. Quanto mais, melhor. 340 milhões parece muito, né? Até que, na metade de 2020, a OpenAI começou a distribuir convites para seu modelo de linguagem chamado GPT-3, treinado em 175 bilhões de parâmetros, mais de 500 vezes maior. É daí que nasce o nome “grande modelo de linguagem”, ou LLM na sigla em inglês. São modelos de linguagem enormes, feitos com centenas de vezes mais parâmetros que os anteriores. Esse aumento substancial produz respostas ainda melhores que as do BERT, por exemplo. Para se ter uma ideia: LLMs sem treino específico costumam dar respostas melhores que modelos anteriores que passaram por ajustes finos com os seus dados. É um tanto humilhante, mas é a toada da tecnologia.
Para quais aplicações as respostas mais precisas são úteis? Qualquer uma que envolva comunicação, entre seres humanos ou humano-máquina. Transcrição de áudio para texto (“speech2text”), de texto para áudio (“text2speech”), vídeo para texto (“video2text”) e, principalmente, texto para texto — aí entram traduções, conversão de prosa em código6 e análise de dados para classificar ou resumir, por exemplo. Pense se sua profissão tem alguma aplicação do tipo. Eu aposto um Chicabon, ótimo para este calor: se não tiver direta, tem indiretamente. Seu trabalho tem SAC? As pessoas se comunicam internamente? Tem conteúdo audiovisual? Então o potencial de ter algo de IA é enorme.
Voltemos à nossa linha do tempo. Dois anos depois de anunciar o GPT-3, lá no fim de 2022, a OpenAI anunciou uma implementação do seu modelo para conversar com o usuário: você dava um input em texto e ele te respondia em texto numa janela de chat. Era o ChatGPT, um novo chatbot. O resto da história você deve conhecer. O ChatGPT virou assunto da mesa de almoço de domingo da família e extravasou a bolha de tecnologia. No primeiro trimestre, já estava claro qual seria o grande assunto de 2023.
Em dois meses, o serviço registrou 100 milhões de usuários ativos, segundo estudo da UBS. Se os dados estão corretos, é o serviço que mais rápido chegou aos 100 milhões de usuários da história. Mais impressionante é que, um ano depois, os 100 milhões de ativos se mantiveram. O LinkedIn e a Udemy transbordaram de posts e cursos ensinando a avançar sua carreira e como dominar o ChatGPT. “Engenharia de prompt” virou a profissão do futuro e passou a circular vagas pagando os tubos para quem sabia fazer um bom prompt.
O valor de mercado da Open AI, agora no centro do mercado de tecnologia, saltou de US$ 29 bilhões no começo para cerca de US$ 80 bilhões no fim de 2023. Pega de calça curta, a Big Tech correu para tentar se posicionar e oferecer algo que funcionasse tão bem. Quem melhor se posicionou foi a Microsoft, que investiu mais de US$ 13 bilhões e arrematou uma participação minoritária (especula-se que seja 49%, sem assento no conselho administrativo) da OpenAI, o que lhe garante acesso antecipado e prioritário aos modelos da startup.
Na continuação de um papo que já tivemos aqui no Tecnocracia, provedores de nuvem deixaram de fornecer só a infraestrutura e estão há anos avançando em serviços mais sofisticados que rodam sobre esta infra.
- Para tentar ganhar espaço na disputa de nuvem, o Azure, da Microsoft, ganhou acesso privilegiado ao GPT.
- Quem fez algo parecido, menos a exclusividade, foi a Amazon. A AWS ganhou um novo serviço, o BedRock, que facilita o deploy de LLMs na sua infra-estrutura. Não à toa, a AWS está oferecendo sua própria família de LLMs, a Titan, para embeddings.
- A Meta enterrou o metaverso e, frente às opções, entendeu que ter um modelo próprio fechado, tal qual o GPT, não lhe daria a maior vantagem. A saída foi abrir o código do modelo Llama 2. A Meta não estava errada — a comunidade abraçou o Llama 2 e começou a cuspir implementações fine-tunadas (oi, Lu) para diferentes tarefas7. Onde você acha essas versões? No Hugging Face, espécie de GitHub para modelos. É ali que novos modelos, como Mistral, Zephyr, Falcon e Marcoroni, estão disponíveis, assim como versões quantizadas ou distilled do Llama 8.
Ao se tornar parada obrigatória no fenômeno da IA generativa, o Hugging Face dobrou seu valor de mercado em um ano ao receber aporte de quase todos os players relevantes do mercado, de Amazon a NVidia, de IBM a Google. A Nvidia triplicou seu valor de mercado neste ano como a única fornecedora de fato de algo fundamental para pré treinar e refinar modelos de linguagem: GPUs. Você pode treinar seu modelo usando só a CPU; GPUs completam o trabalho em bem menos tempo. Na Serra Pelada da IA generativa, a Nvidia é a grande vendedora de pás.
E o Google? Este é o caso mais esquisito: criador dos Transformers e líder do setor até então com o BERT, o Google tinha tudo nas mãos para criar LLMs e sair na frente. Afinal, para treinar LLMs você precisa de muito conteúdo e poder de processamento quase infinito. O que o Google está fazendo há 25 anos? Organizando as informações da humanidade. Se tem alguém que tem a internet em seus servidores, é o Google. E, ainda assim, a empresa não apenas saiu atrás como tem demonstrado dificuldade em se equiparar. O Bard, anunciado três meses depois do ChatGPT, ainda usava o modelo LaMDA, criado em 2021 com 137 bilhões de parâmetros. O serviço não só não funcionava tão bem quanto o ChatGPT (mesmo após ser atualizado para os modelos PaLM e PaLM 2), como a OpenAI acabou com a festa lançando o GPT-4, a versão mais avançada do seu modelo, no mesmo mês9. Nove meses depois, em dezembro de 2023, o anúncio do Gemini, o tão esperado modelo rival do GPT-4, mostrou bastante potencial, mas acabou ofuscado pela revelação de que o Google manipulou a apresentação. O problema é que a versão do Gemini que rivalizaria com o GPT-4, o Ultra, só chega ao Bard no início de 2024, quase um ano depois do rival.
Ufa. É aí que estamos na parte do mercado. E na parte técnica?
Ato contínuo da popularidade do ChatGPT, milhões de executivos pelo mundo começaram a maquinar como fazer um ChatGPT próprio para dados privativos, fechados atrás de uma camada de firewalls. Não só eles — durante todo 2023, o principal movimento de empreendedores ao redor de LLMs passou a ser o “ChatGPT da sua empresa”, um chatbot para seus clientes tirarem dúvidas sobre contratos, planos, problemas e afins. Lembra do “Uber para X” há dez anos? Segue mais ou menos a mesma linha. Todos os modelos citados aqui foram treinados com informações públicas, mas a folha de salário, a receita mensal ou os registros de fornecedores — eu espero — não estavam disponíveis online.
É o que o setor passou a chamar de Retrieval Augmented Generation (RAG): você introduz novos dados — os da sua empresa — para a “inteligência” do modelo (criada a partir de informações públicas) analisar. A partir desta necessidade de integrar LLMs na economia, criou-se um novo ecossistema. Por que integrar LLM na sua empresa não é simples como importar o SDK/módulo básico da OpenAI. Vamos voltar à explicação técnica de como LLMs são feitos: é preciso transformar os textos, imagens e vídeos em vetores.
Quer ver como isso funciona na prática? O site WebVectors transforma qualquer palavra em um vetor. “Dog”, por exemplo, é um vetor com 300 números que variam entre 0.149203 e -0.174913. Estes vetores são o que o setor chama de “embeddings”. Cada modelo tem um jeito de criar embeddings — hoje, os melhores embeddings são os da OpenAI. Antes de virar vetores, cada frase é quebrada em tokens, as unidades básicas do texto — cada modelo tem sua própria fórmula para quebrar frases em tokens, mas uma regra geral é que 70 palavras rendem aproximadamente 100 tokens. São eles que serão transformados em vetores. Um livro, um discurso ou uma imagem podem ser “traduzidas” em milhões de vetores numéricos para que os computadores os entendam.
Onde eu vou guardar esses milhões de números? Em um banco de dados, mas não um normal. Os LLMs permitiram a ascensão de um tipo especial, o banco de dados vetorial. Nele, fica mais fácil calcular a distância entre os vetores guardados. Assim, os resultados são sempre os mais similares, o que ajuda a completar as palavras conforme a pergunta feita.
Abre aspas para um texto excelente de Timothy Lee e Sean Trott intitulado “Large language models, explained with a minimum of math and jargon”, no Substack10:
Cada vetor representa um ponto em um imaginário “espaço de palavras”, e palavras com significados mais similares estão mais próximas. Por exemplo, as palavras mais próximas de gato em um espaço vetorial incluem cachorro, gatinho e pet. Uma vantagem em representar palavras como vetores de números reais (em vez de uma string de letras, como G-A-T-O) é que números permitem operações que letras não.
Em 2023, DBs vetoriais como Weaviate, Chroma, Pinecone, Vespa, LanceDB, Milvus e até adaptações de bancos já estabelecidos, como o PGVector, do Postgres, e o Atlas Vector Search, do MongoDB, apareceram nas conversas. Mas como eu vou coordenar tudo isso, sabendo também que todos os grandes modelos oferecem APIs — abertas ou fechadas — para aplicar a inteligência nos seus dados? É para isso que bibliotecas focadas em “amarrar” todos os processos do começo ao fim — tokenização, embeddings, escolha do modelo, armazenamento no banco de dados vetorial, diferentes tipos de retrieval daqueles dados e decodificar os embeddings gerados em palavras — ganharam muito espaço, principalmente o LangChain e o LlamaIndex. E isso é só o começo. Com os modelos mais novos aumentando o tamanho da janela de contexto (a quantidade de caracteres para você fazer a pergunta), quando vale a pena mandá-los para um banco de dados vetorial e usar um retrieval e quando é melhor ir direto no prompt? Boa pergunta, depende do seu objetivo e dos resultados.
A onda de hype do ChatGPT, no começo de 2023, começou a quebrar quando ficaram evidentes um dos principais problemas do serviço: “alucinação” deixou só de ser um álbum do Belchior e virou palavra frequente em todas as rodinhas de tech. Quando não têm certeza da resposta, todos os LLMs mentem com a confiança do homem branco médio. Os milhares de casos em que ChatGPT e afins tiraram informação do rabo deixaram claro que o sistema precisava melhorar. Diminuir o volume de alucinações ao mínimo possível e instaurar salvaguardas para impedir que o sistema faça algo não previsto são duas das principais dores do mercado. Para monitorar ambos, inclusive, pipocaram dezenas de startups e serviços especializados — LangFuse, LLM.Report, LangSmith, PrompLayer… Irmãos deles são as dezenas de startups para devops de LLMs — PortKey, Kubiya, Fiddler, ZenML…11 Olhe ao redor — qualquer face de LLMs vai ter uma multidão se acotovelando.
O mercado de “ChatGPT para sua empresa” é um apanhado de barracas de praia tentando loucamente atrair a atenção do máximo de clientes enquanto a maré — tal qual nosso mundo real — sobe a uma velocidade impressionante. Já tivemos um exemplo disso no evento da OpenAI de 6 de novembro, dias antes da encenar a sua versão d’O Poderoso Chefão12. Ali, a empresa mostrou que está aumentando a abstração dos seus serviços para tornar cada vez mais fácil criar agentes que usam o GPT-4. Em vez de se preocupar com bancos de dados vetoriais, embeddings e o escambau, os GPTs permitem a criação de aplicações simples com poucos cliques do mouse. Nessa brincadeira, a água da praia já levou algumas das barracas mais próximas do mar. Tudo indica que não apenas a OpenAI, mas todas as grandes criadoras de modelos usarão esse ecossistema em rápida expansão para apontar seus modelos nos próximos meses. Parece claro que a água vai subir ainda mais rápido e, se sua startup for só um wrapper 13 da API da OpenAI, não adianta montar a barraca na estrada porque a onda vai te arrastar do mesmo jeito.
Humanos jovens e baratos por trás dos robôs
Acompanhar um moving target (Lu tão presente hoje) é tarefa ingrata, ainda mais na velocidade insana em que está o mercado de LLMs desde janeiro. Eu estou mergulhado nessa merda desde janeiro e sempre fico com a impressão de que não estou dando conta, que estou ultrapassado. Não sou eu — é todo mundo. Se você acha que já viu tudo de novo, você não está procurando o suficiente. Tenho plena noção de que este episódio vai ficar velho assim que você começar a me ouvir — pelo menos a parte em que falo de Gemini e afins. C’est la vie. Se a gente esperar estabilizar para falar, periga falarmos tarde demais.
Tanta velocidade passa por cima de algumas etapas fundamentais para o desenvolvimento ético de tecnologias. É a premissa deste podcast. Uma das premissas da tecnologia é gente muito nova mudando o mundo com tecnologia. Em IA não é diferente, com um pequeno twist: essa galera mais nova está sendo explorada para treinar, com salários baixíssimos, os modelos de linguagem que usamos diariamente.
Lembra daquela história de usar um dataset anotado para melhorar seu LLM? É um trabalho demorado e cansativo. Para economizar, muitas das empresas responsáveis pelos modelos estão contratando terceirizados do outro lado do planeta, alguns menores de idade, para criar rótulos. “Estes trabalhadores são predominantemente baseados no Leste da África, Venezuela, Paquistão, Índia e Filipinas — existem até mesmo trabalhadores em campos de refugiados que anotam, validam e geram dados. Eles são pagos por tarefas, com remuneração que vai de um centavo a alguns dólares”, segundo reportagem da Wired publicada em novembro. Os trabalhos envolvem enviar informações pessoais (“Mostre-nos seu bebê/criança! Ajude a treinar uma IA tirando 5 fotos do seu bebê/criança” por € 2) ou moderar conteúdo (identificar palavrões em textos ou descrições de crimes, como estupros, imagens sexualizadas de menores e discurso de ódio). Se seu dia está agradável demais e você quiser, por algum motivo, torná-lo mais cinza, leia o artigo.
Às vezes, não precisa ser criança — só precisa ser barato. No começo de dezembro, reportagem da Bloomberg mostrou que a Presto Automation, supostamente uma empresa de automação para restaurantes, estava sendo investigada pela SEC (a CVM dos EUA) por usar terceirizados na Filipinas para completar manualmente 70% dos pedidos. No fim das contas, grande parte do sistema de inteligência não era artificial, era só mais barata — tira dos funcionários nos EUA e manda para trabalhadores precarizados do outro lado do planeta por uma fração do custo. Aspas para o The Verge comentando a notícia:
Existe um padrão de “soluções” de IA que na verdade acabam sendo terceirizados trabalhando em países com custos trabalhistas menores — e frequentemente as empresas de AI lutam para esconder este fato. Um app de compras online chamado Nate, popular com influenciadores e criadores de conteúdo, disse que usava IA para completar automaticamente os detalhes de checkout dos clientes, mas foi revelado que a companhia contratou trabalhadores nas Filipinas para completar manualmente os pedidos na maioria dos casos.
O The Verge também publicou um artigo muito interessante sobre todo o trabalho humano — muito por migalhas — por trás de LLMs.
A precarização do trabalho que estamos vendo há uma década com Uber e iFood está na IA generativa também. Na revista Noema, as pesquisadoras Adrienne Williams, Milagros Miceli e Timnit Gebru, do Distributed AI Research (DAIR) Institute, defendem que, junto à retirada do enviesamento e a transparência dos parâmetros e conteúdos de treinamento, o debate para uma IA ética passa também pelo “encerramento da exploração do trabalho”. Se o nome da Timnit Gebru lhe soa familiar, não é aleatório: ela era a chefe de Ética para Inteligência Artificial da Google e foi demitida semanas após publicar um artigo alertando do perigo do uso indiscriminado de LLMs. Timnit fundou o DAIR para manter o assunto em pauta — e, felizmente, está conseguindo.
No debate sobre os impactos da IA na sociedade, o viés do modelo e a falta de transparência tomaram a frente. Ninguém sabe exatamente como modelos fechados foram feitos, o que significa que as respostas jamais devem ser tomadas como sacro-santas. Replicar os vieses integrados aos dados de treinamento também pode ter resultados perigosos: nós já falamos no Tecnocracia;nbsp;#19 sobre como dados de treinamento majoritariamente brancos tendem a resultar em respostas que prejudicam negros e pardos. Não é uma preocupação recente — pelo menos desde 2008 pesquisadores debruçados(as) sobre o tema alertam dos perigos. A questão é que, com o salto dos LLMs, pode-se cair na armadilha de aceitar tudo que os modelos cospem como verdade universal. Não é só cagada — é perigoso.
Há quem defenda que o conteúdo criado pelos próprios LLMs ajudará a corrigir este problema de vieses, exploração de trabalho na anotação e desequilíbrio nos dados de treino. O grande problema dessa visão é que o reprocessamento de lixo ainda é lixo. Tentar tapar buracos no treinamento dos sistema com conteúdo feito pelo mesmo sistema desequilibrado é manter essas lacunas, em outros formatos e com consequências ainda mais imprevistas. Abre aspas para o Financial Times de novo no artigo “The sceptical case on generative AI”:
Ao adicionar mais informação imperfeita e desinformação deliberada para nossa base de conhecimento, sistemas de AI generativa estão produzindo uma ainda maior “merdificação”14 da internet, para usar o sugestivo termo cunhado por Cory Doctorow. Isto significa que dados de treinamento cuspirão mais nonsense em vez de menos.
Não queimo mais a casa para me livrar do rato
O que esses problemas dos LLMs nos dizem? Tal qual Black Alien na década de 1990, vale a pena queimar a casa para se livrar do rato? Nem que quisesse. LLMs já se mostraram úteis o suficiente para não desapareceram. Vamos cogitar o seguinte cenário: se este ritmo enlouquecido de novidades parar de um dia para outro (e nada indica que isto vai acontecer), ainda assim a tecnologia que já está na rua seria muito útil para incontáveis setores da economia. Voltemos à história do início: o quão útil é ler pergaminhos torrados e abrir uma porta para o conhecimento que ficou inacessível à humanidade por milhares de anos? E isso é um exemplo de uma área. A humanidade não vai abrir mão desse novo super poder.
Sabendo disso, o que precisamos é de regulação. As empresas de IA sabem disso e já propuseram sua própria regulação. Se você ouve o Tecnocracia há um tempo, já sabe: quando alguém que deve ser regulado apresenta uma proposta de como sê-lo, você lê e joga o papel no reciclável.
A razão primordial para uma regulação não conduzida pelas empresas do setor é que LLMs, em si, não têm moral — eles reproduzem a moral humana encontrada nos dados do seu treinamento. Há um debate sobre a proximidade de uma IA com profunda consciência capaz de criar sua própria moral, mas, nessa disputa, eu tendo a concordar com o Yann Lecun, vice-presidente e chefe de IA da Meta. Segundo ele, não estamos nem perto disso. Existe a chance de que a chamada “Inteligência artificial geral” (AGI, na sigla em inglês) se transforme nos carros voadores depois da popularização dos carros no pós-II Guerra Mundial: cercada de expectativa, mas jamais realidade.
Por um bom tempo, LLMs deverão ser “papagaios estocásticos”, repetindo o que os humanos já escreveram com leves variações a cada iteração. Quem cunhou a expressão “papagaios estocásticos” foram as pesquisadoras Emily Bender, Timnit Gebru (olha ela de novo) e colegas em artigo publicado em março de 2021: LLMs geram textos convincentes, mas não entendem seu significado. Se tem preconceitos, eles vão reproduzi-lo. Perigoso demais deixar só na mão da Big Tech esse “treinamento” de moral. Porque IA não é um papo teórico de “quando chegar”. Já chegou. Ela já orquestra incontáveis serviços que você usa e está tão poderosa quanto acessível para um contingente cada vez maior de pessoas. Para mostrar o quão frequente na nossa vida já está, eu treinei uma inteligência artificial com minha voz. Treze trechos aleatórios deste episódio nunca saíram da minha boca — foi o robô quem falou. Descubra quais.
O que precisamos é entender como aproveitar os benefícios resolvendo ou diminuindo para o mínimo possível os problemas.
Como em todo fim de temporada do Tecnocracia, fica o recado: descanse.
A gente volta no ano que vem.
- Eu sabia em linhas gerais sobre a erupção do Vesúvio, mas quando fui me aprofundar para escrever este roteiro passei horas no “rabbit hole”. Taí um “rabbit hole” que vale. E, não, eu não penso no Império Romano mais que duas vezes no ano. ↩
- Na Roma Antiga, a vila não era uma sucessão de casinhas simples, como a do Chaves, mas um imóvel luxuoso no interior. ↩
- Sempre é bom lembrar que, em tecnologia, nem toda questão que parece ser de tempo é de tempo. ↩
- Pense no vetor como uma lista cheia de números quebrados. ↩
- Eu sou um feliz assinante do GitHub Copilot e sempre recomendo para outro(as) programadores(as). ↩
- Em IA, “fine-tuning” é quando você pega um modelo padrão e “usa um dataset de exemplos anotados para atualizar os pesos do LLM e tornar sua habilidade para tarefas específicas melhor”. ↩
- LLMs “quantizados” ou “distilled” usam técnicas que os tornam mais leves e rápidos mantendo razoavelmente a mesma capacidade argumentativa. ↩
- A OpenAI faz segredo no número de parâmetros do GPT-4, mas parece haver um consenso entre especialistas que é para lá de 1 trilhão. ↩
- Urgh! ↩
- Tô me sentindo numa versão mais idiota de Paratodos, do Chico Buarque. ↩
- Com o talento de um teatrinho da terceira série. ↩
- Em programação, “wrapper” é uma espécie de “casca” de um sistema que o torna mais fácil de acessar. ↩
- Tradução livre de “enshittification”, do original em inglês. ↩
34 एपिसोडस