Inteligência artificial precisa de 6 semanas para descobrir o mesmo que humanos levaram 134 anos
Em 1889, o médico francês François-Gilbert Viault desceu de uma montanha nos Andes, tirou sangue do próprio braço e o examinou em um microscópio. Os glóbulos vermelhos do médico, responsáveis por transportar oxigênio pelo corpo, tinham aumentado 42%. Ele havia descoberto um poder misterioso inerente ao corpo humano: quando este precisa de mais células cruciais para a vida, pode produzi-las sob demanda.
No começo dos anos 1900, cientistas chegaram à conclusão de que a causa dessa expansão de glóbulos vermelhos era um hormônio produzido principalmente pelos rins. Chamaram-no de eritropoietina, que em grego quer dizer “fabricante de vermelho”.
Sete décadas depois, pesquisadores encontraram a eritropoietina real, depois de filtrar 2.536 litros de urina. Cerca de 50 anos depois, biólogos em Israel encontraram uma célula renal rara que produz o hormônio quando o nível de oxigênio decai muito. Foi chamada de célula Norn, em homenagem às divindades nórdicas que, acreditava-se, controlavam o destino da humanidade.
Humanos levaram 134 anos para descobrir a célula Norn. Recentemente, computadores da Califórnia (Estados Unidos) a descobriram em apenas seis semanas.
A descoberta se deu quando cientistas da Universidade Stanford programaram computadores para que aprendessem biologia por conta própria. As máquinas executavam um programa de IA (inteligência artificial) semelhante ao ChatGPT.
Os pesquisadores de Stanford treinaram computadores com dados brutos sobre milhões de células reais e sua composição química e genética. Entretanto, não “ensinaram” às máquinas o significado dessas medições.
Os computadores processaram os dados, criando um modelo de todas as células com base na semelhança entre elas. Quando terminaram, tinham aprendido muito. Eram capazes de classificar uma célula como pertencente a um dos mais de mil tipos existentes. Uma delas era a Norn.
O software de Stanford é um dos novos programas baseados em IA, conhecidos como “modelos de fundação”, que estão voltados para aprender fundamentos da biologia. Mas os modelos vão mais além do que, simplesmente, organizar a informação que os biólogos recolheram; estão descobrindo como os genes funcionam e como as células se desenvolvem.
Conforme os modelos evoluem, acumulando mais dados laboratoriais e maior capacidade computacional, cientistas preveem que serão feitas descobertas de maior profundidade, como segredos sobre o câncer e outras doenças.
CÉLULAS CARDÍACAS
Há muito tempo, os biólogos procuram entender como as células usam os genes para fazer tantas coisas de que precisamos para permanecermos vivos.
Mais ou menos uma década atrás, cientistas iniciaram experimentos em escala industrial para extrair pedaços genéticos de células individuais. Registraram o que encontraram em catálogos, chamados “atlas de células”, com bilhões de dados.
Christina Theodoris, residente médica do Hospital Infantil de Boston, estava lendo sobre um novo tipo de modelo de IA criado por engenheiros do Google, em 2017, para tradução de idiomas. Os desenvolvedores forneceram ao modelo milhões de frases em inglês, bem como sua tradução para o alemão e o francês. O modelo desenvolveu a capacidade de traduzir frases nunca antes vistas por ele.
Theodoris se perguntou se um modelo semelhante poderia aprender sozinho a dar sentido a dados extraídos de um atlas de células. Em 2021, lutou para achar um laboratório que permitisse construir um modelo.
Shirley Liu, bióloga computacional do Instituto do Câncer Dana-Farber, em Boston, deu uma chance. Theodoris, então, extraiu dados de 106 estudos humanos publicados que armazenavam informações sobre 30 milhões de células, e inseriu tudo em um programa chamado GeneFormer.
O modelo obteve compreensão profunda de como nossos genes se comportam em diferentes células. Previu que a desativação de um gene chamado TEAD4, em certas células cardíacas, desequilibraria gravemente o coração. Quando sua equipe fez testes em células reais, chamadas cardiomiócitos, o ritmo das células do coração ficou mais fraco.
A equipe de Stanford entrou no negócio do modelo de fundação depois de colaborar na construção de um dos maiores bancos de dados de células, conhecido como CellXGene. Desde agosto passado, os pesquisadores treinaram seus computadores na compreensão de 33 milhões de células existentes no banco de dados, concentrando-se em um tipo de informação genética chamada RNA mensageiro. Também alimentaram o modelo com estruturas 3D de proteínas, que são geradas pelos genes.
A partir desses dados, o modelo —conhecido como Universal Cell Embedding, ou UCE— calculou a similaridade entre as células, agrupando-as em mais de mil conjuntos de acordo com a forma como usavam seus genes. Os aglomerados correspondiam a tipos de células descobertas por gerações de biólogos.
O modelo também foi capaz de transferir seu conhecimento para novas espécies. Se fosse apresentada ao perfil genético das células de um animal que nunca tivesse visto antes —um rato-toupeira-pelado, por exemplo—, a UCE poderia identificar muitos de seus tipos de células.
Depois que a UCE descobriu as células Norn, Jure Leskovec, cientista da computação em Stanford, que treinou os computadores, e seus colegas voltaram ao banco de dados CellXGene para saber de onde elas tinham vindo. Embora muitas tenham sido retiradas dos rins, algumas vieram dos pulmões ou de outros órgãos. Era possível, especularam os pesquisadores, que as células Norn, até então desconhecidas, estivessem espalhadas pelo corpo inteiro.
Em outras palavras, a UCE pode ter descoberto um novo tipo de célula.
Assim como o ChatGPT, os modelos biológicos erram. Kasia Kedzierska, bióloga computacional da Universidade de Oxford pediu ao GeneFormer e a outro modelo de fundação, o scGPT, uma bateria de testes. Apresentaram aos modelos um material do atlas de células que não tinha sido pesquisado antes e pediram que cumprissem tarefas. Os modelos tiveram um desempenho ruim em algumas tarefas, se comparados a programas de computador mais simples.
Segundo Leskovec, os modelos estão melhorando, mas, em comparação com o treinamento que o ChatGPT recebe de toda a internet, os atlas oferecem uma quantidade modesta de informações.
Stephen Quake, biofísico de Stanford que ajudou a desenvolver a UCE, suspeita que os modelos de fundação vão aprender não apenas sobre os tipos de células que, atualmente, residem em nosso corpo, mas também sobre os tipos de células que poderiam existir. Ele sonha poder usar modelos de fundação para fazer um mapa que mostre o reino do possível, além do qual a vida não pode existir.
Ter um mapa do que é possível e impossível para sustentar a vida também pode significar que os cientistas realmente serão capazes de criar células que ainda não existem na natureza.
I recently noticed that you’ve taken the time to visit my website, and I wanted to express my heartfelt gratitude for your interest. Your support means a lot to me, and I’m truly grateful for your visit.