A Inteligência Artifical e a Elaboração Teórica

Já é reconhecido que a Inteligência Artificial já faz parte e cada vez mais fará parte de tudo que se refere às atividades e interações humanas e das relações destas interações com todo o universo que nos cerca. Os exemplos disso são inúmeros, mas um desafio sempre instigante e sobre o qual já escrevemos aqui em oportunidades anteriores são os chamados dados não estruturados. Esse tipo de dados não tem uma estrutura bem definida, não tem um padrão pré-estabelecido. São, por exemplo, posts em mídias socias, vídeos, imagens, tweets, geolocalização, documentos e textos de uma forma ampla e geral, dentre uma infinidade de outras categorias. Na verdade, a maior parte da gigantesca quantidade de dados que se gera hoje no mundo a cada segundo são não estruturados.

A A.I já faz parte e cada vez mais fará parte de tudo que se refere às atividades e interações humanas e das relações destas interações com todo o universo que nos cerca

A A.I já faz parte e cada vez mais fará parte de tudo que se refere às atividades e interações humanas e das relações destas interações com todo o universo que nos cerca (Pixabay)

Já é reconhecido que a Inteligência Artificial já faz parte e cada vez mais fará parte de tudo que se refere às atividades e interações humanas e das relações destas interações com todo o universo que nos cerca. Os exemplos disso são inúmeros, mas um desafio sempre instigante e sobre o qual já escrevemos aqui em oportunidades anteriores são os chamados dados não estruturados. Esse tipo de dados não tem uma estrutura bem definida, não tem um padrão pré-estabelecido. São, por exemplo, posts em mídias socias, vídeos, imagens, tweets, geolocalização, documentos e textos de uma forma ampla e geral, dentre uma infinidade de outras categorias. Na verdade, a maior parte da gigantesca quantidade de dados que se gera hoje no mundo a cada segundo são não estruturados.

Vejamos os desafios dos textos sob a perspectiva da Inteligência Artificial. Também para facilitar, o leitor poderá dar sequência à leitura deste texto refletindo, por exemplo, sobre o imenso impacto e utilidade que esta tecnologia já começa a ter e como ela certamente irá revolucionar áreas como a do Direito. “Um dos maiores desafios no processamento de linguagem natural (PLN) é a escassez de dados de treinamento. Como a PNL é um campo diversificado com muitas tarefas distintas, a maioria dos conjuntos de dados específicos de tarefas contém apenas alguns milhares ou algumas centenas de milhares de exemplos de treinamento rotulados por humanos. No entanto, os modelos modernos de PNL baseados em aprendizado profundo (Deep Learning) obtêm benefícios de quantidades muito maiores de dados, melhorando quando treinados em milhões ou bilhões de exemplos de treinamento anotados (o processo de rotular dados para mostrar o resultado que se deseja que o modelo de aprendizado de máquina preveja) Para ajudar a fechar essa lacuna nos dados, pesquisadores têm desenvolvido uma variedade de técnicas para treinar modelos de representação de linguagem de uso geral usando a enorme quantidade de texto não anotado (textos genéricos) na web (conhecido como pré-treinamento). O modelo pré-treinado pode ser ajustado em tarefas de PNL de pequenos dados, como resposta a perguntas e análise de sentimentos, resultando em melhorias substanciais de precisão em comparação com o treinamento nesses conjuntos de dados a partir do zero”.

Dentre várias iniciativas de desenvolvimento e aprimoramento no campo do Processamento de Linguagem Natural (PLN ou Natural Language Processing) cientistas e técnicos do Google iniciaram o desenvolvimento de uma nova técnica para pré-treinamento de PNL chamada Representações de Codificador Bidirecional de Transformadores (BERT- Bidirectional Encoder Representations from Transformers) e que a partir do ano de 2018 teve seu código aberto (“open sourced”). Mas de que maneira o BERT é diferente das técnicas que lhe precederam? Como os desenvolvedores do Google sintetizam, “diferentemente de modelos anteriores, o BERT é a primeira representação de linguagem não supervisionada e fundamente bidirecional, pré-treinada usando apenas um corpus de texto simples (neste caso, a Wikipedia)”. O “aprendizado não supervisionado” se constrói a partir de uma família de algoritmos usados principalmente na detecção de padrões e na modelagem descritiva. Esses algoritmos não possuem categorias  ou rótulos de saída nos dados (o modelo é treinado com dados não rotulados) e são classificados normalmente como clustering algorithms.

As representações pré-treinadas podem ser livres de contexto ou contextuais. As gramáticas livres de contexto – gramáticas formais que são usadas para gerar todos os padrões possíveis de frases em uma determinada linguagem formal – são nomeadas como tal porque qualquer uma das regras de produção na gramática pode ser aplicada independentemente do contexto. E o que significa codificador bidirecional? As representações contextuais podem ainda ser unidirecionais ou bidirecionais. Modelos livres de contexto tradicionais como o word2vec, geram uma única representação de incorporação de palavra para cada palavra no vocabulário. O BERT, por outro lado, usa contextos anteriores e posteriores em uma rede neural profunda, tornando-a profundamente bidirecional. Neste processo, como sintetiza o Google, o “BERT é treinado pegando frases, dividindo-as em palavras individuais, escondendo aleatoriamente algumas delas e prevendo quais são as palavras escondidas. Depois de fazer isso milhões de vezes, BERT “leu” Shakespeare o suficiente para prever como uma essa frase geralmente termina”.

Sim, já estamos em um ponto onde sofisticados modelos de linguagem estão possibilitando que computadores escrevam histórias, programem um site e transformem legendas em imagens. O “problema”, ou talvez colocado de uma forma mais apropriada, o desafio, é que a razão pela qual os sistemas de aprendizado de máquina produzem uma determinada saída ainda não é bem compreendido. No final das contas acaba sendo uma espécie de “caixa preta”. Foi justamente em função deste contexto e destes desafios que Laura Spinney publicou em janeiro deste ano de 2022 no The Guardian do Reino Unido uma reflexão instigante que surge a partir de uma pergunta igualmente instigante: “o advento do aprendizado de máquina significa que a metodologia científica clássica de hipótese, previsão e teste se tornou obsoleta?

Como coloca Spinney, “Isaac Newton descobriu apócrifamente sua segunda lei – a da gravidade – depois que uma maçã caiu em sua cabeça. Depois de muita experimentação e análise de dados, ele percebeu que havia uma relação fundamental entre força, massa e aceleração. Ele formulou uma teoria para descrever essa relação – uma que poderia ser expressa como uma equação, F = ma – e a usou para prever o comportamento de outros objetos além das maçãs. Vejamos agora como a ciência é cada vez mais feita hoje. As ferramentas de aprendizado de máquina do Facebook preveem suas preferências melhor do que qualquer psicólogo. AlphaFold, um programa construído pela DeepMind, produziu as previsões mais precisas até agora de estruturas de proteínas com base nos aminoácidos que elas contêm. Ambos são completamente silenciosos sobre por que funcionam: por que você prefere esta ou aquela informação? Por que essa sequência gera essa estrutura?”.

Para nós seres humanos de uma forma geral e para cientistas e pesquisadores em particular, há de se reconhecer que esta é uma situação profundamente incômoda. Uma situação onde estamos praticando e onde estaríamos cada vez mais caminhando para uma “ciência sem teoria”. Em outras palavras, muitos destes processos simplesmente funcionam e em alguns casos muito bem. Como coloca Spinney, “testemunhamos diariamente os efeitos sociais das previsões do Facebook. O AlphaFold ainda não fez sentir seu impacto, mas muitos estão convencidos de que mudará a medicina”. Mas, pelo menos até o momento, não conseguimos uma explicação adequada para este funcionamento ou mesmo somos capazes de estruturar / consolidar um conjunto de elementos que permitam consolidar através das metodologias tradicionais uma teoria consistente.

No contexto presente do chamado Big Data a quantidade dedados acumulada a cada instante foge a nossa capacidade normal de compreensão. Big Data, embora impossível de definir especificamente, normalmente se refere a quantidades de armazenamento de dados em excesso de um terabyte (TB). Alguns o definem em Peta bytes, ou seja, tamanho de 10^15 (dez elevado a quinze) bytes e tem três características principais: Volume (quantidade de dados), Velocidade (velocidade de entrada e saída de dados) e Variedade (intervalo de tipos de dados e fontes). Também é fato notório que os computadores já são muito melhores do que nós em encontrar relacionamentos / correlações entre variáveis / dados e que, apesar de teorias quase sempre serem simplificações da realidade, estas simplificações cada vez mais parecem exageradas e até imprudentes. Subestimam a complexidade inerente à realidade que nos cerca e que não pode, com frequência, ser capturada pela teoria como tradicionalmente entendida. ”Em breve, o antigo método científico – hipotetizar, prever, testar – seria relegado à lata de lixo da história. Pararíamos de procurar as causas das coisas e ficaríamos satisfeitos com as correlações”.

Mas será que é isso mesmo? Não seria esta argumentação do fim do método científico tradicional um excesso de simplificação em si mesma? Existem argumentos para contrapor esta linha de raciocínio apesar do sucesso dos mecanismos preditivos que utilizam a Inteligência Artificial:

“O primeiro é que percebemos que as inteligências artificiais (IAs), particularmente uma forma de aprendizado de máquina chamada redes neurais, que aprendem com dados sem precisar receber instruções explícitas, são falíveis. (Casos de resultados enviesados e com preconceitos implícitos já foram identificados em várias ocasiões. Neste aspecto os processos das máquinas não ficam distantes dos processos humanos – grifo nosso). O segundo é que os humanos se mostram profundamente desconfortáveis com a ciência livre de teorias. Nós não gostamos de lidar com uma caixa preta. E o terceiro é que as teorias adequadas do tipo tradicional simplesmente ainda não foram descobertas / elaboradas”

Talvez o que realmente esteja acontecendo, e é razoável pensar assim, é que nesta nova realidade que se impõe, com a possibilidade de acesso a uma quantidade inimaginável de dados e informações, os processos e metodologias de construções teóricas terão de evoluir vis-a-vis àqueles que lançam mão de dados e informações em uma escala “infinitamente” menor. Como sumariza o Professor Griffiths da Universidade de Princeton nos EUA, “o resultado final não são teorias no sentido tradicional com afirmativas precisas, mas um conjunto de afirmações que está sujeita a certas restrições”. Talvez sejam teorias que caminhem na direção de um pensamento probabilístico e que, quem sabe em alguns casos, se assemelhem metaforicamente àquelas ligadas ao mundo da física quântica.

De toda forma, neste ponto, não podemos deixar de tratar da importante / essencial questão pragmática que deve também nortear o desenvolvimento científico e tecnológico. Vale reproduzir aqui um ótimo exemplo trazido por Laura Spinney em seu texto e relacionado a estruturas proteicas: “A função de uma proteína é amplamente determinada por sua estrutura, portanto, se você deseja projetar um medicamento que bloqueie ou aumente a ação de uma determinada proteína, precisará conhecer sua estrutura. O AlphaFold foi treinado em estruturas derivadas experimentalmente e, no momento, suas previsões são consideradas mais confiáveis para proteínas onde há alguns dados experimentais disponíveis do que para aquelas onde não há. Mas sua confiabilidade está melhorando o tempo todo, diz Janet Thornton, ex-diretora do EMBL – European Bioinformatics Institute (EMBL-EBI) perto de Cambridge, e não é a falta de uma teoria que impedirá os designers de medicamentos de usá-lo”. Por outro lado, isso não significa que todo rigor não deva ser aplicado para evitar que, por exemplo as redes neurais, deixem de eliminar do processo as correlações espúrias, principalmente se os conjuntos de dados em que a Inteligência Artificial for treinada forem pequenos.

Finalmente há de se levar em conta que de uma forma ou de outra, “todos os conjuntos de dados são tendenciosos, porque os cientistas não coletam dados de maneira uniforme ou neutra, mas sempre com certas hipóteses ou suposições em mente” (Spinney, 2022). De toda forma uma coisa é certa. O descolamento entre a efetividade da previsibilidade e a nossa capacidade de interpretação é um desafio ao qual a ciência nunca se furtará porque a curiosidade e o desbravamento estão no amago da própria natureza humana. Não abrir mão do pragmatismo não significa ter de abrir mão de nossa capacidade interpretativa. Assim como na física, iremos ao longo do tempo caminhar daquilo que nos parece absolutamente aleatório, para muitos momentos de epifania surpreendentes. Enquanto isso na ciência o rigor é essencial, mas não pode ofuscar a relevância.


Jose Antonio de Sousa Neto – Professor da EMGE (Dom Helder Tech). Original de DomTotal.com

Todos querem uma sociedade justa. Nós lutamos por ela, Ajude-nos com a sua opinião. Se achar que merecemos o seu apoio ASSINE aqui a nossa publicação, decidindo o valor da sua contribuição anual.

Deixe um comentário

*