Macaozinho: um chatbot confiável que vai badalar a COP30

^{Por Bernardo Alves Miranda, Eduardo Luttner, Yago Honda, Thiago Mendes, José Miguez, Daniel Dalip e Michele Brandão}

A Conferência das Nações Unidas sobre as Mudanças Climáticas, conhecida como COP (Conference of the Parties), é a principal reunião anual da ONU (Organização das Nações Unidas). Nessa conferência, representantes de diferentes países se reúnem para debater e negociar medidas para combater as mudanças climáticas. Em 2025, o Brasil é sede da COP30 e, além da brasilidade, a tecnologia também estará presente neste evento.

No cenário de negociações e debates, uma tecnologia que pode ser muito útil são os chatbots, principalmente, por permitirem acesso rápido e eficaz a informações possivelmente relevantes para esse contexto. Esse recurso pode agilizar e auxiliar na tomada de decisões. Vale destacar que o uso de chatbots em diversos contextos tem sido cada vez mais frequente, dada a alta eficiência e qualidade das respostas produzidas pelos mesmos (Heidt, 2025; Sam & Jasim, 2025; Uludag, 2025).

No entanto, tais ferramentas de inteligência artificial (IA) podem alucinar ou produzir respostas pouco confiáveis, possivelmente causando transtornos durante as negociações (que demandam precisão e corretude dos dados). Nesta matéria, apresentamos o Macaozinho, um chatbot que será utilizado durante a COP30 e que é capaz de lidar com esses problemas de forma a trazer respostas mais confiáveis e verificáveis aos usuários nesses ambientes críticos.

O foco do Macaozinho é ser uma ferramenta de apoio às negociações climáticas, oferecendo informações verificadas em tempo real e como guia interativo para o público, esclarecendo dúvidas sobre programação, logística e temas ambientais. Tal chatbot utiliza RAG (Retrieval Augmented Generation), que lhe permite consultar mais de 3.000 documentos sobre mudanças climáticas para formular respostas. Essa abordagem possibilita que as informações fornecidas aos usuários sejam mais precisas e contextuais (Su et al., 2025). A expectativa é que esse chatbot atenda centenas de milhares de usuários durante e após o evento.

O ícone do Macaozinho é apresentado abaixo: uma arara da espécie Ara Macao também chamada de Araracanga ou arara-vermelha-pequena ou arara-macau (em inglês Scarlet macaw) que representa a biodiversidade do bioma brasileiro.

^{Ícone do Macaozinho, a espécie da arara,}^{Ara Macao, que inspirou o nome do chatbot.}

O que é um chatbot? E como deixá-lo mais confiável?

Um chatbot é um programa de computador desenvolvido para simular uma conversa humana, interagindo com pessoas por meio de linguagem natural. Geralmente, ele é projetado para seguir comandos ou instruções específicas do usuário. Muitos desses agentes de conversação utilizam Grandes Modelos de Linguagem (LLMs, ou em inglês, Large Language Models) para otimizar essa interação (Yigit, G., & Bayraktar, R., 2025). Sua principal função é compreender perguntas e fornecer respostas coerentes e ricas em conteúdo de qualidade, auxiliando o usuário a executar tarefas diversas, obter informações específicas ou resolver dúvidas de forma rápida e acessível.

Esses assistentes virtuais podem atuar em diversos contextos, desde auxiliar no aprendizado de estudantes em vários níveis até aplicações mais complexas, como apoio a pesquisas científicas e eventos internacionais. No caso da COP30, por exemplo, um chatbot pode servir tanto como ferramenta de apoio às negociações climáticas, oferecendo informações verificadas em tempo real, quanto como guia interativo para o público, esclarecendo dúvidas sobre programação, credenciamento, transporte, sustentabilidade e temas ambientais. Além disso, o chatbot pode ser um canal de comunicação inclusivo e multilíngue, traduzindo conteúdos da conferência para diferentes idiomas e adaptando o nível de linguagem conforme o perfil do usuário, seja um diplomata, um estudante ou um visitante local.

A maioria dos LLMs mais famosos (ChatGPT, Gemini, DeepSeek…) sofrem com problemas de alucinação ou factualidade dos dados apresentados na resposta (Wang, C., Liu, X., Yue, Y., Guo, Q., Hu, X., Tang, X., Zhang, T., Yao, Y., & Zhang, C. J., 2025). Uma das possíveis causas é o fato das IAs terem sido treinadas com uma quantidade massiva de dados da Internet (McKenna et al., 2023). Por causa disso, situações como a reportada pelo G1 e apresentada na figura abaixo podem ocorrer. Tal situação aconteceu devido à geração de documentos pelas LLMs que parecem confiáveis e, em geral, são bem escritos, mas que contêm informações que não refletem a realidade. E, do lado humano, o mau uso dessa ferramenta está relacionado à total confiança nas informações geradas pelas LLMs sem realizar nenhuma conferência extra, ainda mais em um cenário judicial.

^{Exemplo real de uma situação gerada pelo mau uso das LLMs e total confiança nas informações geradas por elas. Disponível aqui (a}^{cessado em 12 de novembro de 2025).}

Em cenários mais críticos, por exemplo, em debates e negociações, é importante que problemas comuns a LLMs sejam minimizados, para evitar a apresentação de erros conceituais. Com esse intuito, o Chatbot desenvolvido utiliza RAG, uma tecnologia capaz de mitigar essas adversidades seguindo as etapas descritas na figura abaixo.

^Pipeline^{do Macaozinho.}

O princípio fundamental do RAG reside na obtenção de um contexto especializado antes de gerar a resposta. Esse contexto é extraído de fontes de informação confiáveis (por exemplo, documentos com decisões, resumos e acordos de COPs anteriores) e é incorporado à resposta final fornecida ao usuário. Tais documentos são segmentados em trechos menores (chamados de chunks) e armazenados em um Banco de Dados Vetorial. Nessa tecnologia, a busca se torna semântica, não apenas sintática, e independente de idioma, devido à natureza do embedding (uma representação numérica para textos, imagens ou áudios).

Um exemplo da vantagem desse tipo de busca semântica é a possibilidade de pesquisar por documentos sobre floresta, mesmo que o termo não esteja na consulta, em vez de apenas buscar por documentos com a palavra floresta. Assim, a LLM gera respostas baseando-se em meio a esses documentos verificáveis, minimizando a probabilidade de apresentar informações imprecisas ou fora da realidade. É importante destacar que, ao utilizar tais documentos com conhecimento especializado, o RAG permite a extração de detalhes específicos da COP30, que poderiam ser inacessíveis à LLM por outros meios. Além disso, o banco de dados vetorial é atualizado constantemente durante o evento, para as consultas conseguirem ser atualizadas conforme negociações e discussões realizadas no evento.

Tecnologias usadas para criar o chatbot

O Macaozinho foi desenvolvido sobre uma arquitetura de IA e serviços em nuvem escolhidos por sua maturidade e robustez, visando garantir desempenho, confiabilidade e escalabilidade. O núcleo da ferramenta utiliza modelos de linguagem otimizados para lidar com grandes volumes de textos e múltiplos idiomas. Dessa forma, a IA compreende termos técnicos, políticas públicas e jargões diplomáticos com alta precisão. A Tabela abaixo descreve brevemente as tecnologias utilizadas na construção dos principais módulos do Macaozinho.

^{Tecnologias utilizadas para os principais módulos do Macaozinho.}

Etapa	Tecnologia usada	Descrição/justificativa
Modelos de linguagem (LLMs)	DeepSeek-V3.2-Exp, (Non-thinking Mode) e GPT 4.1-nano	Modelos usados na parte conversacional, com desempenho consolidado em diversos domínios
Bancos de dados	S3Vectors e DynamoDB	Bancos de dados em nuvem para facilitar a integração com o serviço em si. S3Vectors para indexação e DynamoDB para guardar os documentos em si.
Modelo de embedding	Titan-Embeddings-v2	Modelo já integrado ao ambiente de nuvem, com bom desempenho e custo
Implementação do RAG	Go	Implementação do serviço em si foi feita sem auxílio de frameworks como LangChain. Permitindo maior liberdade de customização na aplicação e reduzindo a latência.

Apesar do Macaozinho estar integrado ao mundo virtual da COP30, este chatbot foi projetado para funcionar em vários ambientes, por diferentes pessoas, com perfis diversos. Ele pode fornecer respostas altamente técnicas e específicas ou mais simples e gerais.

Muitos desafios tecnológicos em um contexto igualmente desafiador

Apesar de todos os avanços tecnológicos, desenvolver um chatbot confiável para um evento da magnitude da COP30 traz diversos desafios técnicos e éticos. É válido apontar, inicialmente, que as negociações climáticas são dinâmicas, portanto, os relatórios, compromissos e acordos podem mudar a cada nova rodada de debates. Ou seja, novos dados são adicionados a todo tempo no banco de conhecimento (representado, em um primeiro momento, pelo banco de documentos, em seguida, pelo banco de dados vetorial) do chatbot (como mostra a figura com o pipeline). Manter o banco de dados atualizado exige integração contínua com fontes oficiais e verificação humana para evitar ao máximo qualquer tipo de desinformação.

Um outro aspecto relevante é que em eventos internacionais, um chatbot deve se manter neutro. Por isso, o Macaozinho foi ajustado para responder de forma técnica e imparcial, evitando tomar posição em disputas políticas, ideológicas ou comerciais, o que é uma exigência crítica para manter credibilidade entre países.

Além disso, a COP30 receberá delegações de mais de 190 países, e a linguagem usada nas negociações é altamente especializada. Logo, o sistema precisa compreender expressões culturais, termos técnicos e questões diplomáticas sem distorções. Os grandes modelos de linguagem comprovadamente têm mais facilidade em entender conteúdo em inglês ou em línguas mais faladas, em detrimento de outros idiomas. Isso acontece, principalmente, pelas características dos dados usados para treiná-los (a maioria dos dados é em inglês). Portanto, fez-se necessário contornar tal questão, já que a ferramenta deve ser democrática e acessível a todos, independentemente do idioma falado. O uso de modelos “poliglotas”, mais capazes de atuar em idiomas com menos falantes, é um exemplo de medida adotada para mitigar esse problema.

Vale ressaltar que, mesmo com a abordagem RAG descrita, ainda há situações em que o modelo pode gerar respostas incompletas ou interpretar mal uma pergunta ambígua. Isso acontece em qualquer chatbot e é inerente à arquitetura estatística e inexata deles.

^{Agradecimentos}

^{O chatbot Macaozinho foi desenvolvido no âmbito do projeto de integração de tecnologia da COP30 do PNUD (Programa das Nações Unidas para o Desenvolvimento, o site dessa agência da ONU pode ser acessado em https://www.undp.org/pt/brazil). Além disso, este trabalho foi parcialmente apoiado pelo Instituto Nacional de Ciência e Tecnologia em Inteligência Artificial Responsável para Linguística Computacional, Tratamento e Disseminação da Informação (INCT-TILDIAR), financiado pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), processo nº 408490/2024-1.}

Referências

COP30 Brasil. Disponível em https://cop30.br/. Acessado em 10 de novembro de 2025.

Google. Linguagem de programação GO. Disponível em https://go.dev/. Acessado em 10 de novembro de 2025.

Heidt, A. (2025). Students find new uses for chatbots. Nature, 639, 265.

McKenna, N., Li, T., Cheng, L., Hosseini, M. J., Johnson, M., & Steedman, M. (2023). Association for Computational Linguistics: EMNLP 2023.

Sam, S. J. I., & Jasim, K. M. (2025). Diving into the technology: a systematic literature review on strategic use of chatbots in hospitality service encounters. Management Review Quarterly, 75(1), 527-555.

Su, W., Ai, Q., Zhan, J., Dong, Q., & Liu, Y. (2025, July). Dynamic and parametric retrieval-augmented generation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 4118-4121).

Uludag, K. (2025). The use of AI-supported Chatbot in Psychology. In Chatbots and Mental Healthcare in Psychology and Psychiatry (pp. 1-20). IGI Global Scientific Publishing.

Yigit, G., & Bayraktar, R. (2025). Chatbot development strategies: a review of current studies and applications. Knowledge and Information Systems, 1-36.

Wang, C., Liu, X., Yue, Y., Guo, Q., Hu, X., Tang, X., Zhang, T., Yao, Y., … & Zhang, C. J. (2025). Survey on Factuality in Large Language Models. ACM Computing Surveys.

Autoria

Bernardo Alves Miranda – Estudante do sexto período do Curso de Ciência da Computação da UFMG.

Eduardo Luttner – Desenvolvedor de software, Engenheiro eletricista formado pela Unicamp.

Yago Honda – Desenvolvedor de software, Mestre em engenharia de sistemas pela UnB.

Thiago Mendes – Especialista em relações internacionais e clima na ONU.

José Miguez – Especialista em relações internacionais e clima na ONU.

Daniel Hasan Dalip – Coordenador de Inovação e Empreendedorismo e professor do Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). Doutor (UFMG/2015), Mestre (UFMG/2009) e Bacharel (Uni-BH/2006) em Ciência da Computação. Sua tese de doutorado ganhou importantes prêmios nacionais e internacionais como a melhor tese de doutorado no Simpósio Brasileiro de Banco de Dados (SBBD 2017) e um dos artigos relativos a sua tese ganhou prêmio de melhor artigo de estudante no congresso Joint Conference on Digital Libraries 2014.

Michele A. Brandão – Professora do DCC/UFMG e pesquisadora nas áreas de engenharia de dados, aprendizado de máquina e ciência de dados aplicada. Possui doutorado em Ciência da Computação pela UFMG e experiência em projetos voltados à análise e gestão de grandes volumes de dados, com foco em aplicações práticas e interdisciplinares.

Compartilhe: