Cientista de Dados: Ser um bom programador é só meio caminho andado!

Cientista de Dados: Ser um bom programador é só meio caminho andado!

Por Daniel Guerreiro

É muito comum se deparar com publicidades, artigos, vagas de emprego ou qualquer outro texto relacionado a habilidades e competências falando sobre a atual buzz word cientista de dados. Esse termo guarda-chuva engloba abaixo dele muitas expectativas e, consequentemente, muitas horas de estudo por parte do profissional. O mercado de Educação a Distância está recheado de cursos, aulas, apostilas e resumos sobre inúmeras bibliotecas de Python, R, Tensorflow e outras ferramentas justamente para sanar essa necessidade do mercado por profissional capaz de “tirar insights relevantes através de análise de dados”. Porém, por trás de todas essas técnicas existe uma habilidade que poucos falam e poucos ensinam justamente por ser uma parte menos tangível: ser criativo com os dados.

Acredito que vai soar seco e até um pouco rude mas é a verdade: qualquer pessoa com 5 minutos de tempo livre e interesse no assunto consegue aprender a escrever o .fit de um modelo estatístico no Python. Adicione mais algumas horas nessa conta e o profissional consegue entender qual é a estimação e as hipóteses por trás daquele modelo escolhido. Porém, mesmo assim, esse conhecimento é algo passível de esquematização e ser enquadrado em um curso formal de Machine Learning. O que eu deixo como pergunta é justamente quantos cursos online ou presenciais que você já esteve matriculado deram algum foco nas formas de se escolher e criar a base de features? Quantos realmente foram além das estatísticas descritivas e covariâncias, corte de train-test ou demais ferramentas para ensinar o que é importante olhar e buscar para explicar aquele evento?

Machine Learning, modelagem estatística ou qualquer outro sinônimo que você queira usar é uma técnica combinada de um processo de criação. Para facilitar o exemplo, vamos pensar no mundo supervisionado, ou seja, no mundo no qual o seu objetivo é explicar um evento marcado em sua amostra. Este evento pode ser de qualquer natureza possível: o salário familiar de um grupo de pessoas (i.e. dado numérico estritamente positivo), uma resposta binária para alguma pergunta (i.e. variáveis booleanas) ou então um conjunto de muitas respostas limitadas a um grupo (i.e. variáveis categóricas). Essa resposta vai justamente guiar a escolha do modelo ou do algoritmo a ser utilizado. Porém, seja qual for o algoritmo escolhido, você precisará das suas variáveis explicativas (ou features para usar o linguajar de Machine Learning) para gerar seu modelo. A escolha e construção dessas variáveis é que são a chave de qualquer bom modelo.

Vamos usar o exemplo do evento salário familiar. O que explica o salário familiar brasileiro? Idade, sexo, nível educacional, fatores macroeconômicos, tipo de trabalho, quantidade de pessoas empregadas na família, número de pessoas que dependem daquele salário, cidade ou região do vínculo empregatício, entre outros. Para conseguir criar essa lista, o exercício mental foi entender o que determina um salário, entender qual é o processo que leva uma pessoa a receber 3, 4 ou até 15 salários mínimos no mês. Por exemplo, em tempos de crise econômica os setores de cobrança dentro de um banco estão com muito trabalho dado que o nível de inadimplência tende a aumentar enquanto que os serviços de entretenimento estão parados. Sendo assim, dependendo do ano e do segmento que estamos analisando, saber o tipo de trabalho que aqueles indivíduos exercem faz com que se explique melhor o salário médio.

Para o caso do salário familiar é possível encontrar inúmeros estudos econométricos justamente explorando quais variáveis explicativas são as mais aderentes ou as mais importantes para esse evento. Adicionalmente, temos um conjunto grande de modelos teóricos justamente explicando como isso se comporta baseado em outras variáveis econômicas. Porém, mesmo quando nos baseamos nesses estudos, ainda é importante esse exercício mental de entender quais são as engrenagens responsáveis por sua variação e é esse o exercício chave para a criação de um bom modelo estatístico.

O conceito principal aqui é um só: entenda o processo que você está modelando, independente se existe uma grande literatura sobre o assunto ou se ele é algo tão singular que você precisa partir do zero. Conhecer muitas técnicas, modelos e linguagens de programação é sim importante para ser um bom cientista de dados pois te dá mais ferramentas para trabalhar, porém é somente uma parte do necessário. Entender a fundo e em detalhes o processo que leva àquele evento que estamos modelando é a chave para a criação de boas variáveis explicativas e, consequentemente, o treinamento de um modelo acurado. Escrever o código muitos conseguem, ser criativo para criar boas features é uma habilidade mais rara de se encontrar.

Para concluir, é relativamente fácil sentar e escrever esse texto falando que criatividade e curiosidade são habilidades necessárias para ser um bom profissional e deixar por isso mesmo. Estaria fazendo o mesmo que os cursos que estou analisando: contaria só a metade da história. Um direcionamento que eu costumo dar aos que conversam comigo sobre este tema é que criatividade é algo que se cultiva de diversas formas, sendo uma delas ter como um hobbie alguma atividade que exija pensar de forma original. Praticar uma atividade criativa que te incentive a criar e experimentar novas ideias como culinária, fotografia ou desenho exercita uma parte da mente que é responsável pelo processo criativo. Um cuidado que também é preciso ter é que buscar inspiração e se rodear de blogs, instagrams ou outras mídias que têm o mesmo hobbie que você é sim importante, mas é necessário ter cuidado para não se tornar somente alguém que absorve ideias dos outros. Em outras palavras, busque se inspirar e não se limitar. Manter esse tipo de atividade como um hobbie além desse tipo de mentalidade, muitas vezes, irá ajudar a ver as coisas de uma nova forma, e essa habilidade pode refletir no campo da ciência e análise de dados.

Sobre o Autor

Daniel Guerreiro

Olá, meu nome é Daniel. Sou mestre em economia aplicada pela Universidade de São Paulo de Ribeirão Preto e atuo com modelagem no mercado desde 2013. O gosto pela área de econometria durante a graduação acabou me levando a querer conhecer mais de estatística e, consequentemente, modelagem e análise de bases de dados. Começar a me aventurar em programação nada mais foi do que uma evolução natural. Acredito que bons modelos e boas análises nascem mais de uma mente criativa e da exposição a muitas formas de pensar do que de um livro texto de programação e/ou estatística.

Como citar esse artigo:
Guerreiro, D., 2020. Cientista de Dados: Ser um bom programador é só meio caminho andado! SBC Horizontes. ISSN: 2175-9235. Disponível em: http://horizontes.sbc.org.br/index.php/2020/04/16/cientista-de-dados-ser-um-bom-programador-e-so-meio-caminho-andado/

Compartilhe e curta: