Cientista de Dados em Cibersegurança: A Cereja do Bolo!

Cientista de Dados em Cibersegurança: A Cereja do Bolo!

Indo além do aprendizado de máquina!

Belo Horizonte, MG

 03 de Junho de 2021

João da Silva* é um cientista de dados que vive nos Estados Unidos. No início de 2021, ele se deparou com um anúncio de emprego de uma prestigiosa empresa com sede na região da grande Seattle que dizia: “Vagas para Cientista de Dados Especializado em Ameaças de Segurança”. O anúncio intrigou João porque ele ainda não tinha visto as duas especialidades (Ciência de Dados e Cibersegurança) juntas.

Um cientista de dados trabalhando em Cibersegurança…

Imediatamente, ele fez algumas buscas – em parte para poder se candidatar ao emprego (que havia o interessado) e em parte para entender essa intrigante relação entre as duas especialidades. Aplicar os princípios de Ciência de Dados para proteger os dados parecia por si um tópico muito interessante e um caminho natural, mas o anúncio se referia a algo além disso. Ele continuou as buscas para entender como esses dois mundos convergem.

Ele percebeu que os dados estão sendo criados em níveis sem precedentes, em parte resultante da popularização dos nossos dispositivos computacionais através da Internet das Coisas e de tecnologias de comunicação mais rápida. Estima-se que nos últimos dois anos uma taxa de 90% dos dados foram criados. Isso inclui desde dados sensoriados continuamente pelos diversos dispositivos computacionais em rede, como câmeras de monitoramento, sensores de presença, smart trackers, até fotos do Instagram, vídeos Tik Tok, histórias de navegação, carrinhos de compras e muitos outros. Independentemente do que seja, as empresas que mantêm e lidam com dados precisam ter certeza de que estão seguros e que garantem a privacidade de seus usuários, ou logo elas se depararão (como já vem ocorrendo) com ataques cibernéticos ou no mínimo com muitos usuários irritados.

Profissionais qualificados com conhecimento em segurança cibernética e Ciência de Dados são dois dos talentos mais buscados no mercado de trabalho atualmente. Recursos dos centros de operação de segurança (SOC), tipicamente analistas de segurança, são cada vez mais necessários para combater o crescimento de adversários sofisticados e cada vez mais agressivos.

Mas, o que faz um cientista de dados de Cibersegurança?

Embora existam várias ferramentas para identificar, detectar e conter ameaças conhecidas e quaisquer indicadores de comprometimento (IOC), há pouca proteção contra ameaças desconhecidas, exploits zero-day e vulnerabilidades recém-identificadas. Com a explosão de dados de log de segurança enriquecidos provenientes de milhares de servidores, dispositivos, bancos de dados e aplicativos, gerenciar esse conjunto de dados extremamente complexo, estruturado e não estruturado, é uma tarefa assustadora.

As organizações de segurança precisam de cientistas de dados para organizar, agregar, enriquecer e transformar um grande volume de conjuntos de dados de segurança em esquemas e modelos significativos. Eles precisam entender os relacionamentos de dados subjacentes usando análises descritivas, como mapas de calor de correlação, diagramas de causa e efeito, séries temporais e gráficos de frequência. Depois que os dados são transformados, limpos e persistentes em um formato estruturado, o cientista de dados pode treinar a máquina para aprender a partir de conjuntos de dados históricos rotulados e prever resultados usando aprendizado de máquina supervisionado. Eles também podem detectar padrões e classes em dados não rotulados usando técnicas não supervisionadas, como clustering, redução de dimensionalidade e detecção de anomalias.

É aqui onde entra um cientista de dados de Cibersegurança.

O que é um cientista de dados de Cibersegurança?

Não existe ainda uma definição exata com limites de atuação claros. Porém, o que se entende hoje é que os cientistas de dados de Cibersegurança são profissionais com um conhecimento de domínio sólido em segurança de rede, gerenciamento de identidade e acesso e gerenciamento de vulnerabilidade. No entanto, sua especialidade principal reside na compreensão conceitual profunda da matemática avançada e conceitos estatísticos. Isso inclui álgebra linear, equações diferenciais, distribuições de probabilidade, métodos quantitativos e estatísticas de inferência.

Os cientistas de dados de Cibersegurança têm as habilidades para entender algoritmos complexos e construir modelos avançados, aplicando esses conceitos a conjuntos de dados de Cibersegurança reais em ambientes únicos ou em cluster. Eles utilizam linguagens de programação de computador como, por exemplo, Python, R, ou MATLAB.

Eles também precisam ter habilidades no uso de tecnologias de Big Data, como Hadoop Distributed File System (HDFS), Elasticsearch, MapReduce e Apache Spark, para projetar soluções. Ah! É desejável que esses profissionais tenham o conhecimento de negócios para apresentar as visualizações de dados complexos que descrevem relacionamentos de dados, como indicadores chave de desempenho (KPIs), métricas e scorecards, através de uma comunicação acessível para um executivo sênior.

João, nosso protagonista, lendo tudo isso ficou assustado com a complexidade e os requisitos para um cientista de dados em Cibersegurança. Mas, não desanimou. Ele entendeu que poderia se especializar em Ciência de Dados de Cibersegurança e obter vantagem competitiva nesse nicho carente de profissionais qualificados.

Aqui, deixo um convite. Se você quer continuar conversando sobre este assunto e conhecer mais sobre Ciência de Dados em Cibersegurança ou é uma empresa interessada em parceria Academia-Empresa para inovação, venha conversar conosco (michele@dcc.ufmg.br). Nós temos nos divertido bastante na nossa turma da disciplina Data Science for Cybersecurity, semestre 2021.1, do Departamento de Ciência da Computação da UFMG e no nosso projeto MCTIC/CGI/FAPESP MENTORED. Estamos ávidos para compartilhar nosso conhecimento.

Para quem tiver interesse, estamos com matrículas abertas para o curso online de Introdução à Ciência de Dados Aplicada à Cibersegurança, certificado pela UFMG. É só clicar e se matricular. Turma 1 confirmada. Espero você!

Um abraço e boas análises! 

Michele Nogueira, D.Sc.

Professora Associada do Departamento de Ciência da Computação da Universidade Federal de Minas Gerais

Pesquisadora do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) – nível 1D, Coordenadora da Comissão Especial de Segurança da Informação e de Sistemas Computacionais da Sociedade Brasileira de Computação (SBC) e membro titular do Conselho Nacional de Proteção dos Dados Pessoais e da Privacidade.

*Nome fictício para resguardar a privacidade.

Compartilhe: