O dicionário de conceitos fundamentais em Data Science

Gabriel Ribeiro Ferreira Lopes
6 min readMay 6, 2023

--

Resumo

Neste artigo você irá aprender sobre a importância de se criar um mapa do aprendizado, além de conceitos fundamentais de Data Science, como mineração de dados, segmentações supervisionada e não-supervisionada, seleção de atributos e machine learning.

Construindo um mapa do aprendizado

O primeiro passo para conseguir a fluência em qualquer habilidade é conhecer os princípios que a regem.

Você pode enxergar o aprendizado de qualquer coisa como um processo de familiarização com conceitos-chave que esclarecem e apontam para novos aprendizados.

Esse processo pode ser entendido como o início da construção de um mapa. Este mapa vai te ajudar a entender como uma área de conhecimento funciona, que tipos de habilidades e informações devem ser dominadas e quais métodos existem para fazer isso com mais eficácia.

Particularmente, os conceitos entram na construção desse mapa como sendo tudo aquilo que precisa ser compreendido com flexibilidade, para que possam ser aplicados em coisas úteis.

Quando digo flexibilidade, me refiro à sua capacidade de abstrair e entender o conhecimento a ponto de conseguir distinguir as diferentes situações para aplicá-lo.

Portanto, pensando em desenvolver isso em conjunto com todos que estão lendo esse artigo, aqui está um dicionário de conceitos fundamentais em Data Science, que pode ajudar você a constuir o seu mapa de aprendizado.

Dicionário de conceitos básicos

1. Data Science

Antes de tudo, é preciso ficar claro do que se trata o objeto do nosso estudo. A ciência de dados é uma área que surge a partir de um problema atual: como lidar com o grande volume e variedade de dados, de modo que deles se extraiam informação e conhecimento?

O livro Data Science para Negócios define Data Science da seguinte forma:

Conjunto de princípios que fundamentam a extração de conhecimentos a partir de dados.

Trata-se de uma ciência, pois, para lidar com o problema citado acima, é necessário uma metodologia científica. Ou seja, é respaldada por dados empíricos que demandam testes, erros e ajustes frente a novas evidências.

O livro Data Science para Negócios complementa que, por trás do cientista de dados, está a necessidade de um pensamento estruturado, isto é:

A capacidade de extrair conhecimento útil a partir de dados para resolver problemas de negócios de forma sistemática, seguindo um proceesso com etapas razoavelmente bem definidas.

Para esse propósito, o Data Science comporta uma variedade de áreas, que utilizam de técnicas estatísticas, computacionais e de negócios para analisar, interpretar e apresentar dados. Além disso, para cada problema, existem etapas e abordagens bem definidas, que abrangem desde a coleta e preparação dos dados, até o desenvolvimento e validação de um modelo.

2. Mineração de Dados

Steve após um dia de longas análises exploratórias.

A mineração de dados diz respeito ao conjunto de técnicas utilizadas para extrair conhecimentos de dados, ou seja, representa etapas de coleta e preparação de dados, de modo que ao final seja possível resolver aquela informação em conhecimento.

Você já ouviu falar sobre o método de Descartes para resolução de problemas?

Basicamente, o método consiste em decompor um problema em partes menores e mais manejáveis, analisando com cuidado cada parte para entender o problema como um todo.

Na mineração de dados, o raciocínio é o mesmo.

Ao lidar com a tarefa de encontrar padrões em um grande volume de dados, torna-se necessário decompor o problema em sub-tarefas.

Ao final, basta reunir as soluções de cada sub-tarefa para compor a solução do problema geral. No contexto de Data Science e mineração de dados, algumas tarefas são comuns a todos os problemas de negócios, como a classificação, regressão, agrupamentos, redução de dimensionalidade, entre outros.

Ter uma boa noção do conceitos de mineração de dados pode representar uma vantagem estratégica para negócios, pois economiza tempo e recursos, além de dar mais foco para tarefas que envolvam a criatividade do cientista.

O livro Data Science para Negócios diz muito bem:

Mineração de dados é uma arte. Por trás da arte há uma estrutura que possibilita a consistência, repetitividade e objetividade ao abordar os problemas.

Veja mais sobre mineração de dados estudando o Ciclo CRISP.

3. Segmentação Supervisionada e Não-Supervisionada

Uma das fases iniciais da mineração de dados, voltada para a criação de um modelo, é a definição da linha de ataque supervisionada ou não-supervisionada.

Uma técnica supervisionada consiste em trabalhar com dados classificados com base em um conjunto de rótulos conhecidos. Isto é, os próprios dados já fornecem informações com relação ao atributo que queremos analisar, i.e, a variável alvo.

Com relação à variável alvo, queremos observar a tendência dos outros atributos com relação a ela, de modo que cada atributo independente nos informe e ajude o modelo a compreender — e prever — o alvo.

Por outro lado, a abordagem não-supervisionada não se apoia no conhecimento prévio do alvo, mas, ao invés, busca identificar padrões nos dados e, por meio de técnicas como agrupamento, perfilamento e combinação por similaridade, tenta definir e estimar a probabilidade de classes nas quais novos dados podem se encaixar.

4. Seleção de Atributos (Feature Selection ou Feature Extraction)

Na segmentação supervisionada, buscamos dividir a população para conseguir informações mais precisas com relação à variável alvo que queremos prever ou estimar.

Assim entendida, a variável alvo se torna aquilo que sintetiza e direciona a busca por atributos informativos que reduzem a incerteza, a fim de criar um modelo preditivo eficiente para novos dados nunca antes vistos.

Portanto, principalmente na abordagem supervisionada, a seleção de atributos é crucial para a performance de um modelo. É preciso saber julgar quais variáveis contém informações importantes, relevantes e não redundantes, que possam impactar negativamente a acurácia e a generalidade do modelo.

Para alcançar esse objetivo, muitas técnicas podem ser aplicadas que fogem do escopo desse artigo, mas podemos citar a classificação pelo ganho de informação, em que se buscam variáveis que mais se correlacionam com o alvo e que criam grupos homogêneos, com baixo grau de impureza, ou entropia.

Esse tipo de abordagem é muito comum em modelos de árvore de decisão, em que cada nó da árvore corresponde a uma escolha de atributos que melhor direcionem a uma decisão.

5. Machine Learning

Por fim, um dos conceitos mais fundamentais da ciência de dados é o Machine Learning. Na era das inteligências artificiais, o aprendizado de máquina está na centralidade de todos os modelos e programas em alta.

O Machine Learning permite que algoritmos aprendam a partir dos dados sem serem explicitamente programados. É uma área de ampla aplicação, desde o reconhecimento de imagem e fala, até detecção de fraudes em sistemas de crédito, previsão de rotatividade, detecção de câncer e sistemas de recomendação.

Todos os conceitos discutidos até aqui são encontrados nos estudos de Machine Learning, pois a construção de modelos está no cerne das previsões que a máquina é capaz de realizar. Conhecer bem os alicerces, conceitos e técnicas que constroem essa tecnologia é essencial para qualquer cientista de dados.

Espero que com esse artigo você tenha alcançado um pouco mais de clareza nos estudos de Data Science. Sem dúvidas, é uma área fascinante para quem tem curiosidade e fome por inovação, já que o cientista de dados é a ponta de lança capaz de explorar todo esse potencial.

Pretendo fazer uma série de artigos com mais conceitos de Data Science. Se gostou, não se esqueça de deixar seus aplausos nesse artigo, para eu saber que devo continuar.

Obrigado pela leitura!

Me acompanhe nas redes para mais artigos, insights e projetos.

--

--