Uma conversa sobre Análise de Dados, Pessoas e a Interação entre eles
Convidei a pesquisadora Simone Diniz Junqueira Barbosa, professora do Departamento de Informática da PUC-Rio para conversarmos sobre esse assunto tão importante e atual.
Recentemente a professora foi palestrante do 44o. SEMISH – Seminário Integrado de Software e Hardware do CSBC2017 – Congresso da Sociedade Brasileira de Computação, em que apresentou a palestra “Interação de Pessoas com Dados”.
Isabela: Olá professora Simone, primeiramente muito obrigada! Atualmente os termos ‘Analista de Dados’ e ‘Análise de dados’ estão em voga. O que eles significam, quais formações e competências estão relacionadas e quais as principais contribuições deste profissional na área de computação?
Simone: Muito obrigada pela oportunidade!
A análise de dados sempre ocorreu, mas em nichos mais específicos, principalmente sob o ramo da Estatística. Recentemente cunhou-se a área multidisciplinar de Ciência de Dados, na qual a Computação se alia a Estatística, Matemática, Ciência da Informação e outras áreas, visando a extrair conhecimento e insights de dados heterogêneos e, frequentemente (mas não só), em grandes volumes e capturados em alta velocidade (os chamados Big Data). A Ciência de Dados se dedica a analisar tanto fenômenos artificiais como reais.
Como você mesma mencionou, a área está em voga, e a profissão de data scientist já foi até chamada de a profissão mais sexy do século 21! A área também já permeia o mundo acadêmico. O Programa de Pós-Graduação em Informática da PUC-Rio, por exemplo, acaba de criar a área de concentração em Ciência de Dados, que já está valendo para o ingresso de alunos de pós-graduação em 2018.1. E o nosso novo currículo de graduação em Ciência da Computação inclui uma disciplina de Introdução à Ciência de Dados.
Isabela: Este campo de pesquisa está relacionado com questões de coleta e manipulação de dados, privacidade, personalização, e até interpretação de resultados. Que problemas na vida cotidiana podemos ter sem a Análise e visualização correta dos dados?
Simone: As pessoas sempre geraram e consumiram dados, explícita ou implicitamente, individual ou coletivamente. O que vemos agora é um aumento tão grande de escala, que das mudanças quantitativas emergem mudanças qualitativas. Todos trazemos conosco smartphones que coletam dados continuamente. Nosso ambiente também está repleto de sensores e atuadores conectados, compondo a Internet das Coisas.
Nossa noção de privacidade é bem fluida: nós queremos ter privacidade, mas também abrimos mão dela quando nos convém. Podemos nos perguntar, por exemplo: Que tipo de informação estaríamos dispostos a fornecer a uma empresa em troca de descontos, por exemplo, em seguros de saúde e de automóvel? O quanto fornecemos a empresas como a Google pela conveniência de mantermos diversos serviços integrados e personalizados? Muitos de nós expomos grande parte da nossa vida em redes sociais, assumindo que nossa privacidade está assegurada por trás de um login ou por uma rede de amigos. Somente quando temos algum problema é que descobrimos o quão frágil é essa privacidade.
É curioso que quase todos nós “mentimos” quotidianamente, ao indicarmos que lemos, entendemos e concordamos com os termos de serviço de diversos websites que utilizamos. Mesmo que leiamos, muitos de nós não entendemos. Mesmo que entendamos, muitos de nós somos forçados a concordar para podermos utilizar o serviço. Embora sintaticamente tenhamos a opção de não utilizar alguns desses serviços, na prática somos forçados a isso, aceitando seja quais forem os termos que nos são impostos.
A maioria dos nossos dados não nos pertencem. E quando conseguimos acesso a eles, muitas vezes não conseguimos interpretá-los. Ficamos ignorantes ao que as empresas, governos e até mesmo indivíduos enxergam sobre nós. Sem transparência nos dados sobre nós mesmos e sobre os grupos aos quais pertencemos, e sem capacidade de interpretar esses dados, nós ficamos à mercê de terceiros.
Atualmente algoritmos decidem cada vez mais aspectos da nossa vida: se recebemos ou não um empréstimo, quanto pagamos de seguro, e até mesmo se devemos ou não ser considerados para contratação em uma empresa. De um lado mais positivo, algoritmos nos ajudam a evitar trânsito intenso, a escolher filmes e séries de TV, a reduzir a sobrecarga de informação de notícias e outros meios, e a realizar diversas outras atividades diariamente.
Isabela: Quais as principais dificuldades em realizar análises de dados? Quais os desafios e oportunidades relacionados?
Simone: Uma grande dificuldade se encontra já na captura e limpeza dos dados. Dados incorretos, esparsos e com ruído são muito comuns, e prepará-los para a análise pode requerer um esforço imenso, além dos riscos de introduzir mais erros no processo. Uma questão muito importante é a confiança excessiva, principalmente por pessoas com formação em ciências exatas, em métodos estritamente numéricos. Além disso, alguns conceitos estão sendo revistos, como a aparente supervalorização do p-valor para indicar significância estatística, em um mundo onde o grande volume de dados pode reduzir esse valor sem necessariamente corresponder a uma importância dos resultados da análise.
Existe toda uma linha de visual analytics que valoriza a análise visual exploratória dos dados, almejando combinar o que pessoas e algoritmos têm de melhor. Esta é uma área de muito interesse, particularmente para mim, pois combina Ciência de Dados com Interação Humano-Computador de maneira muito clara. Existem desafios diversos nesta área, tanto de modelos e ferramentas como de métodos de projeto e avaliação de sistemas que apoiem ou integrem visual analytics em nosso quotidiano.
Isabela: Quais dicas você pode dar para quem gostaria de iniciar seus estudos nesta área? Quais referências iniciais?
Simone: Para os curiosos, existem diversos cursos online, gratuitos e pagos. Alguns poucos exemplos são o curso de especialização do Coursera, os cursos técnicos do DataCamp e diversos outros recursos disponíveis na Data Science Central. Para quem quer buscar testar seus conhecimentos, o Kaggle traz vários desafios em Ciência de Dados e Aprendizado de Máquina. Para uma educação mais formal, recomendo procurar um curso universitário de graduação ou pós-graduação que já tenha formado profissionais com essa capacitação e que já estejam posicionados no mercado nesta área.
Isabela: Muito Obrigada por sua participação na Revista Horizontes!
Simone Diniz Junqueira Barbosa
Simone é Professora Associada do Departamento de Informática da PUC-Rio, onde atua principalmente na área de Interação Humano-Computador e, mais recentemente, em Data Science. Pesquisadora nível 2 do CNPq, seus interesses de pesquisa atuais envolvem principalmente: projeto de IHC baseado em modelos; data science e visual analytics; e narrativas digitais interativas. Em 2010, publicou pela Campus/Elsevier o livro-texto ‘Interação Humano-Computador’, sob a chancela da Sociedade Brasileira de Computação. Em outubro de 2017 iniciará a publicação da segunda edição utilizando a plataforma LeanPub. Coordenou diversos projetos de pesquisa, financiados pelo CNPq, FAPERJ, Microsoft Research e Hewlett-Packard. Vem participando de comitês de programa de diversas conferências nacionais e internacionais, e.g. CHI (ACM/SIGCHI), INTERACT (IFIP TC13), EICS (ACM/SIGCHI), IS-EUD, IHC (SBC). Foi a representante da SBC no comitê IFIP TC13 de 2008 a 2013, quando se tornou expert member e Vice-chair for Working Groups and Special Interest Groups. Entre 2013 e 2015 coordenou a Comissão Especial de IHC (CEIHC) da SBC. Integra os comitês editoriais dos periódicos Interacting with Computers (Oxford University Press), Communications in Computer and Information Science (CCIS – Springer), SBC Journal of Interactive Systems, Journal of Software Engineering Research and Development (Springer OpenAccess); e o advisory board da IxD&A. Em outubro de 2016, tornou-se co-Editor-in-Chief da revista ACM Interactions. |