Entre a teoria e a prática: a experiência brasileira na avaliação de artefatos científicos

Autores: Diego Kreutz e Tiago Heinrich

Quando o artigo não basta

Na ciência da computação existe um hábito confortável: tratar o artigo publicado como o produto final da pesquisa. O artigo é submetido, revisado, aceito, publicado, e a comunidade segue em frente. Mas, em áreas experimentais, essa visão não se sustenta. Um trabalho sobre um novo protocolo de rede, um detector de intrusão ou um sistema distribuído não termina no texto do artigo. Ele depende, de forma inseparável, do código que o implementa, dos dados que o alimentam e dos scripts que produzem as análises. Sem esses materiais, sobra apenas uma afirmação. Ela pode estar correta ou não, mas ninguém de fora consegue verificar.

É nesse ponto que a discussão deixa de ser apenas técnica e passa a ser científica, no sentido mais clássico do termo. Reprodutibilidade não é um detalhe metodológico: é uma condição básica da ciência experimental. Se a comunidade aceita que os artefatos são parte essencial do resultado de pesquisa, ela precisa de mecanismos formais para avaliá-los, reconhecê-los e melhorá-los. E, acima de tudo, precisa formar pesquisadores capazes de produzi-los e de avaliá-los.

Foi exatamente isso que membros das comunidades brasileiras de cibersegurança e de redes decidiram construir, a partir de 2022. Esse processo está documentado no artigo “An Experience Report on Artifact Evaluation in Brazilian Conferences”, publicado na ACM SIGCOMM Computer Communication Review (vol. 56, n. 1, abril de 2026).

O ponto de partida: ausência de processo e seus efeitos formativos

Até pouco tempo atrás, os simpósios brasileiros não tinham mecanismos formais para a submissão e a avaliação de artefatos. Quando esses materiais existiam, eram citados de forma livre: um link no rodapé, um repositório qualquer, sem critérios mínimos de disponibilidade, documentação, funcionamento ou reprodutibilidade. Essa informalidade gerava problemas recorrentes: documentação ausente ou insuficiente, código que não compilava em um ambiente novo, scripts que dependiam de caminhos fixos da máquina do autor e resultados que não podiam ser reproduzidos com o material disponibilizado.

Vale uma reflexão de fundo educacional. Se o artigo é o que conta para a comunidade, e o artefato é apenas um anexo opcional, sem um processo próprio de avaliação, qual é o incentivo real para que um orientador invista tempo ensinando documentação, modularização e empacotamento? E qual é o incentivo para que estudantes de pós-graduação desenvolvam essas competências, em meio à pressão por publicar? A resposta honesta é: quase nenhum.

Sem esse incentivo, a literatura científica acumula afirmações cada vez mais difíceis de validar de forma independente. E, no caminho, perde-se uma oportunidade valiosa de formação. O preço dessa ausência não é pago por um artigo isolado. Ele é pago pela base sobre a qual a próxima geração de pesquisadores deveria construir o seu trabalho.

Inspirados em iniciativas internacionais como ACM SIGCOMM, USENIX, NSDI e EuroSys, pesquisadores brasileiros decidiram mudar esse cenário. O Simpósio Brasileiro de Cibersegurança (SBSeg) e o Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC) passaram a contar, a partir de 2023, com um Comitê Técnico de Artefatos (CTA) formal, construído aos poucos ao longo de quatro edições.

Os quatro selos: critérios objetivos para uma cultura de qualidade

Figura 1. Os quatro selos do modelo brasileiro.

O objetivo do CTA é avaliar artefatos para reconhecer os trabalhos que se esforçam em disponibilizá-los, permitindo que outros pesquisadores possam usar, expandir e reproduzir os resultados. Um artefato pode ser um software, dados, documentação, resultados brutos, provas, modelos ou benchmarks. Para avaliá-los, foi definido um modelo com quatro selos:

Artefato Disponível reconhece que o material foi depositado em um repositório estável e de acesso público, com documentação mínima organizada em um README com dez tópicos.
Artefato Funcional confirma que o artefato funciona e que o revisor consegue ver suas funcionalidades em um ambiente limpo, instalado do zero.
Artefato Reprodutível confirma que os principais resultados do artigo podem ser reproduzidos com o material disponibilizado.
Artefato Sustentável, uma contribuição original do modelo brasileiro, reconhece o esforço de organização, modularização e clareza do código. Ele desloca a discussão do “funciona hoje” para o “continua útil amanhã”.

Evolução do processo: do julgamento ao diálogo formativo

A estrutura do processo de revisão também passou por mudanças. Nas primeiras edições, seguindo o modelo do SIGCOMM, a avaliação tinha uma única rodada. O problema observado foi recorrente: os autores deixavam para resolver as pendências nos últimos dias, e sobrava pouco tempo para os revisores validarem as correções.

A partir dessa observação, o processo foi reorganizado em duas rodadas. A primeira não produz decisão; produz diálogo. Os revisores apontam problemas, os autores corrigem em uma fase de resposta (rebuttal), e só na segunda rodada os selos são de fato atribuídos. Essa aparente complicação operacional se mostrou uma das partes mais transformadoras do modelo. É nela que está boa parte do efeito educacional.

Outro elemento importante é a prova de execução obrigatória. Para os selos de funcionalidade e de reprodutibilidade, os revisores precisam registrar logs e resultados observados. Não basta dizer que “funcionou”: é preciso mostrar. Esse mecanismo cumpre três funções ao mesmo tempo: detecta divergências entre revisores, dá aos autores informação concreta sobre onde o problema apareceu e cria um registro auditável do próprio processo de avaliação.

Inovações brasileiras: sustentabilidade e processo como sala de aula

Vale destacar duas contribuições originais do modelo brasileiro, que resolvem problemas não tratados pelos modelos internacionais de referência.

A primeira é o selo de sustentabilidade. Sua criação veio de uma observação recorrente: artefatos podem “funcionar” e, mesmo assim, serem difíceis de manter, entender ou estender. Um script monolítico de duas mil linhas pode rodar e produzir os números do artigo. Mas qual é o valor dele para um estudante de pós-graduação que tente, dois anos depois, adaptá-lo a uma nova pergunta de pesquisa? O selo Sustentável reconhece e premia o esforço de organização, modularização e documentação interna do código. Com isso, sinaliza que a comunidade valoriza não só a verificação pontual, mas também a possibilidade de reúso no longo prazo.

A segunda é a estrutura interativa do processo de revisão. Aqui está, talvez, o ponto mais interessante para esta coluna. A primeira rodada, que de propósito não tem decisão, transforma o que seria apenas um julgamento em um espaço de formação. Os pesquisadores aprendem, durante o próprio ciclo, o que se espera de um artefato maduro: quais critérios o README deve atender, como descrever requisitos de hardware, como separar a instalação da execução e como organizar as evidências de cada resultado central do artigo.

Figura 2. O CTA como espaço formativo de mão dupla.

Em poucas edições, esse aprendizado se reflete em artefatos mais bem documentados, mais reprodutíveis e mais sustentáveis. Isso acontece não porque os autores foram punidos pelos erros, mas porque o processo lhes ensinou, na prática, o que é um artefato de qualidade.

Há um efeito parecido do lado dos revisores. Os CTAs também têm funcionado como uma escola para avaliadores. Por meio das reuniões, do contato com revisores experientes, da prova de execução obrigatória e da conversa com os autores, novos revisores se formam em boas práticas de avaliação, reprodutibilidade e engenharia de pesquisa. Entre eles estão estudantes de pós-graduação e profissionais da indústria.

Os CTAs são, ao mesmo tempo, um instrumento de avaliação e um instrumento de formação. Essa dupla função é, provavelmente, uma condição necessária para construir no Brasil uma cultura saudável e sustentável de artefatos de qualidade.

Os números e o que está por trás deles

Os resultados são expressivos. Na primeira experiência (SBSeg 2023), apenas 56,52% dos artefatos submetidos receberam o selo de disponibilidade, e somente 13,04% receberam o de reprodutibilidade. Em 2025, 100% dos 38 artefatos do SBSeg receberam o selo de disponibilidade, 84,21% o de funcionalidade e 57,89% o de reprodutibilidade. Mesmo o selo de sustentabilidade, criado para atender a uma exigência mais profunda, chegou a 71,05% no SBSeg 2025.

[Figura 3. Evolução dos selos no SBSeg (2023 a 2025).]

O SBSeg também registrou um crescimento de 31% no número de submissões de artefatos entre 2024 e 2025. Esse é um sinal claro de que o processo gera adesão, e não rejeição.

Mais importante do que os números é a mudança cultural que eles refletem. Os pesquisadores passam a planejar experimentos e sistemas pensando em reprodutibilidade desde o início, e não como um ajuste de última hora antes da publicação. Templates de README, formulários de revisão e guias para autores e revisores, hoje disponíveis publicamente em https://doc-artefatos.github.io, passam a circular entre orientadores e estudantes como referência de boa prática. Em alguns laboratórios, o esqueleto do artefato começa a ser construído junto com o esqueleto do artigo.

Entre as principais lições aprendidas, quatro merecem destaque:

A revisão de artefatos exige, em geral, mais esforço do que a revisão dos próprios artigos.
Critérios objetivos de selos reduzem bastante a subjetividade dos pareceres.
A prova de execução é um elemento essencial na avaliação da reprodutibilidade.
A interação cedo e acompanhada entre autores e revisores é decisiva para a eficiência do processo.

Por que isso importa para a ciência, para a formação e para a profissão

Há quem trate a avaliação de artefatos como mais um requisito burocrático, uma exigência a mais sobre um sistema acadêmico já sobrecarregado. Esse modo de ver confunde custo com investimento. Sem artefatos avaliados, a literatura científica acumula afirmações que ninguém consegue verificar, experimentos que não podem ser reproduzidos e sistemas cujos detalhes críticos só existem na memória de quem os escreveu.

Institucionalizar a avaliação de artefatos é, acima de tudo, um ato de cuidado com a comunidade. Ela eleva o padrão de documentação. Valoriza o trabalho de engenharia que sustenta a pesquisa, muitas vezes invisível nas métricas acadêmicas tradicionais. Reconhece publicamente os autores que disponibilizam materiais de qualidade. E cria condições para que estudantes e pesquisadores em formação encontrem bases reutilizáveis sobre as quais avançar, em vez de reimplementar do zero o que outros já fizeram.

Há ainda um efeito que vai além das fronteiras da academia e que merece atenção especial em uma coluna sobre Educação. Quando os estudantes aprendem, durante o ciclo de avaliação, o que é um README bem estruturado, como organizar dependências, como documentar requisitos de hardware, como separar instalação de execução e como deixar um experimento reproduzível em um ambiente limpo, eles também estão aprendendo práticas de engenharia de software que o mercado cobra todos os dias.

Modularização, legibilidade, rastreabilidade, empacotamento, automação de execução e clareza de documentação não são apenas critérios de selo. São competências profissionais centrais para quem vai construir produtos em empresas, startups ou equipes de desenvolvimento do setor público.

A avaliação de artefatos amplia a formação profissional dos pesquisadores em formação. Ela conecta o rigor da ciência ao rigor da indústria e ajuda a preparar profissionais mais aptos a entregar software confiável, sustentável e auditável fora do ambiente acadêmico.

Há desafios, é claro. Avaliar artefatos exige mais tempo do que avaliar artigos, demanda capacitação dos revisores e impõe um custo inicial aos autores. Mas a experiência brasileira mostra que esses custos são rapidamente compensados. Com diretrizes claras, templates reutilizáveis e ciclos iterativos, o processo fica cada vez mais eficiente, e os artefatos, cada vez melhores.

Um convite à comunidade SBC

A experiência do SBSeg e do SBRC mostra que é possível adaptar boas práticas internacionais ao contexto brasileiro, respeitando as limitações locais e, ao mesmo tempo, elevando o padrão científico dos eventos nacionais.

Mais do que isso, mostra que esse processo não precisa começar grande. Ele pode começar simples e opcional, com um conjunto reduzido de selos focado em disponibilidade e funcionalidade, e evoluir aos poucos para reprodutibilidade e sustentabilidade, conforme a comunidade amadurece. Todo o material produzido (selos, formulários de revisão, guias para autores e revisores e modelo de README) está disponível para reúso em https://doc-artefatos.github.io. O artigo na ACM CCR oferece um roteiro prático, com armadilhas a evitar e decisões de processo já testadas.

Fica, então, um convite direto: os eventos nacionais de computação deveriam considerar a adoção gradual de processos de avaliação de artefatos. Se queremos uma ciência mais rigorosa, transparente e relevante, e uma formação de pesquisadores mais conectada com as exigências da pesquisa atual e do mercado de trabalho, precisamos ir além do artigo publicado.

E você, leitor: já parou para pensar no que acontece com a sua pesquisa depois que o artigo é aceito? O artefato que sustenta os seus resultados estaria pronto para ser executado, em um ambiente limpo, por alguém que nunca conversou com você? E, mais importante: os pesquisadores que você orienta estariam aprendendo a produzi-lo durante a formação?

Referências

HEINRICH, Tiago; KREUTZ, Diego et al. An Experience Report on Artifact Evaluation in Brazilian Conferences. ACM

SIGCOMM Computer Communication Review, v. 56, n. 1, abr. 2026. Disponível em: https://dl.acm.org/doi/10.1145/3717554.3717558. Acesso em: mai. 2026.

EUROSYS ARTIFACT EVALUATION. EuroSys Artifact Evaluation Process. Disponível em: https://sysartifacts.github.io/eurosys2024/. Acesso em: maio de 2026.

OSDI ARTIFACT EVALUATION. OSDI Artifact Evaluation. Disponível em: https://www.usenix.org/osdi24/call-for-artifacts. Acesso em: maio de 2026.

Como citar este artigo

KREUTZ, Diego; HEINRICH, Tiago. Entre a teoria e a prática: a experiência brasileira na avaliação de artefatos científicos. SBC Horizontes, 05 maio 2026. ISSN 2175-9235. Disponível em: https://horizontes.sbc.org.br/index.php/2026/06/entre-a-teoria-e-a-pratica/. Acesso em: DD mês. AAAA.

Sobre os Autores

Diego Kreutz. Sou professor da Universidade Federal do Pampa (UNIPAMPA), atuo no Programa de Pós-Graduação em Engenharia de Software (PPGES) e co-coordeno o AI Horizon Labs. Minhas atividades de pesquisa concentram-se em cibersegurança, inteligência artificial aplicada e infraestruturas digitais seguras. Co-coordenei o SBSeg 2024 e tenho atuado, em conjunto com pesquisadores das comunidades de cibersegurança, redes de computadores e sistemas distribuídos, na construção e consolidação de processos brasileiros de avaliação de artefatos científicos, tema desta matéria. Acredito que ciência aberta, reprodutibilidade, transparência e formação de pessoas são pilares inseparáveis da pesquisa de qualidade e que a produção científica precisa avançar para além do PDF, incorporando software, dados, experimentos e artefatos reprodutíveis como parte integrante do conhecimento científico.
Currículo Lattes: http://lattes.cnpq.br/2781747995973774

Tiago Heinrich. Sou pesquisador no Max Planck Institute for Informatics (MPI), na Alemanha, com atuação em cibersegurança, sistemas e redes de computadores. Chair de Publicações para a Avaliação de Artefatos do USENIX Security 2025 e 2026. Tenho colaborado com colegas na criação do modelo brasileiro de avaliação de artefatos científicos abordado nesta reportagem. Nossa proposta se inspira em modelos internacionais de revisão, os quais adaptamos e aprimoramos para atender às demandas específicas das comunidades brasileiras de cibersegurança e redes de computadores.
Currículo Lattes: http://lattes.cnpq.br/1318030512054485
Website: https://www.mpi-inf.mpg.de/tiago-heinrich