Contextualização
A análise de dados sempre desempenhou um papel significativo no mundo, mas recentemente, com a rápida expansão da quantidade de informação gerada, tornou-se uma peça fundamental para qualquer negócio ou instituição. A capacidade de coletar, processar, analisar e extrair informações valiosas dos dados é uma habilidade altamente demandada em todas as indústrias e governos ao redor do mundo. Python é uma linguagem de programação de alto nível que se tornou popular para essa análise devido à sua sintaxe simples e fácil leitura, junto a um conjunto robusto de bibliotecas, como Pandas, que oferecem uma ampla variedade de possibilidades analíticas.
A biblioteca Pandas é uma parte integrante da ciência dos dados em Python. Ela fornece estruturas de dados e funções poderosas que tornam o trabalho com dados estruturados muito mais fácil e eficiente. Desde a limpeza e a preparação dos dados até a fase de análise e visualização, Pandas é fundamental em todos os estágios do pipeline de análise de dados. Compreender os conceitos e funcionalidades chave do Pandas é essencial para qualquer pessoa que deseje trabalhar com análise de dados em Python.
Outro componente crucial da análise de dados é o conjunto de habilidades socioemocionais que permitem trabalhar em equipe, abordar problemas complexos, pensar de maneira crítica e criativa e se comunicar efetivamente. Esta combinação de habilidades técnicas e socioemocionais é o que define um bom cientista de dados. Neste projeto, você terá a oportunidade de aprimorar e demonstrar ambas.
Python e a biblioteca Pandas têm aplicação em praticamente todos os setores da indústria e acadêmico. Seja na análise de preferências do consumidor para otimização de produtos em empresas de tecnologia, na previsão de epidemias em instituições de saúde, na modelagem econômica em universidades, ou mesmo na análise do comportamento das estrelas em observatórios astronômicos – a linguagem Python, em especial a biblioteca Pandas, está presente para auxiliar na análise de dados.
Sugiro a leitura adicional dos seguintes materiais para um maior entendimento sobre Python e a biblioteca Pandas:
- [Python for Data Analysis] Este livro foi escrito por Wes McKinney, o principal autor original de Pandas. Traz uma introdução completa à análise de dados usando Python e Pandas.
- [10 minutes to pandas] Trata-se de um guia rápido oficial do Pandas, que introduz as principais funções da biblioteca em 10 minutos.
- [Python Data Science Handbook] Este livro, disponível gratuitamente online, é uma excelente referência para Python e suas principais bibliotecas úteis para a ciência de dados, incluindo Pandas.
Atividade Prática
Análise de Dados Climáticos com Python e Pandas
Objetivo do Projeto
Este projeto tem como objetivo introduzir os alunos ao poder da biblioteca Pandas para análise de dados através de um estudo prático com dados do mundo real. O dataset a ser utilizado será o conjunto de dados climáticos históricos da sua cidade. Este conjunto de dados abrirá um leque de possibilidades para análise e visualização de dados. Ao final do projeto, os alunos terão um sólido entendimento das funcionalidades do Pandas e serão capazes de usá-las para extrair insights valiosos a partir de grandes volumes de dados.
Além disso, durante o projeto, os alunos deverão desenvolver uma série de habilidades socioemocionais importantes, como trabalho em equipe, gerenciamento de tempo, resolução de problemas, pensamento crítico e criativo e habilidades de comunicação eficazes.
Materiais Necessários
- Python instalado
- Bibliotecas Python Pandas e Numpy instaladas
- Conjunto de dados sobre clima da cidade
- Editor de texto ou Jupyter Notebook
Descrição detalhada do Projeto
Os alunos serão divididos em grupos de 3-5 pessoas. Cada grupo receberá um conjunto de dados climáticos históricos da cidade onde a escola está localizada. O conjunto de dados incluirá informações sobre temperaturas, precipitação, pressão atmosférica, vento e outras variáveis climáticas ao longo de um período de aproximadamente 50 anos.
Os grupos serão convidados a realizar as seguintes tarefas com os dados:
-
Limpeza de Dados: Os alunos utilizarão as funções do Pandas para limpar e preparar os dados para análise. Isso incluirá tarefas como tratamento de dados ausentes, remoção de outliers, conversão de tipos de dados e renomeação de colunas.
-
Análise Exploratória de Dados (EDA): Com os dados limpos, os alunos começarão a explorá-los utilizando funções do Pandas para calcular médias, desvios padrão, percentis e outras estatísticas. Eles também farão uso de funcionalidades de agregação de dados, como groupby, para segmentar os dados de maneiras interessantes.
-
Fusão e Transformação de Dados: Os alunos aprenderão como manipular dados e combiná-los de maneiras interessantes usando funções de fusão, junção e concatenação do Pandas.
-
Visualização de Dados: Usando as capacidades de visualização do Pandas, os alunos criarão gráficos que destaquem suas descobertas e construam uma história em torno de seus dados.
-
Interpretação de Dados: Ao longo do projeto, os alunos serão incentivados a fazer perguntas de seus dados e buscar respostas usando as ferramentas e técnicas aprendidas. Eles serão incentivados a pensar criticamente e aplicar o pensamento analítico para interpretar os resultados e extrair insights.
Passo a Passo para Realização da Atividade
-
Os alunos iniciam com a configuração do ambiente Python e a instalação das bibliotecas necessárias.
-
Importam o conjunto de dados usando as funções de leitura do Pandas.
-
Iniciam a tarefa de limpeza dos dados, cada aluno deve explorar um aspecto da limpeza e compartilhar suas descobertas e estratégias com o grupo.
-
Uma vez limpos, os dados são prontamente explorados - usando agregações, filtros e seleções para revelar as tendências e padrões ocultos nos dados.
-
Os alunos então se engajam na transformação de dados, criando novas colunas, mapeando valores e reorganizando os dados para facilitar a interpretação.
-
A apresentação dos dados seguem, os alunos usam as funcionalidades de visualização do Pandas para expressar suas descobertas de maneira gráfica.
-
Por fim, os alunos passam algum tempo discutindo e interpretando o que desenterraram nos dados, escrevendo suas conclusões e refletindo sobre o processo.
Entregas do Projeto
-
Cada grupo deverá entregar um notebook Jupyter documentando todo o processo de análise de dados, desde a limpeza inicial dos dados até a exploração final e visualização dos dados.
-
Cada grupo deverá redigir um relatório no qual irão contextualizar a importância da análise de dados e a biblioteca Pandas. No desenvolvimento, devem detalhar o projeto, a teoria por trás dos conceitos aplicados de Pandas, a metodologia utilizada, apresentar e discutir os resultados obtidos. Na conclusão, devem retomar os pontos principais abordados, explicitar os aprendizados obtidos e as conclusões retiradas sobre a aplicação prática de Pandas para a análise de dados. Por fim, devem incluir a bibliografia utilizada para embasar o trabalho no projeto. Enfatizar a importância da escrita clara e objetiva para facilitar a compreensão do leitor.
-
Cada grupo apresentará suas descobertas para a classe. Esta apresentação será tanto uma oportunidade para compartilhar o que eles aprenderam com os dados e o que eles aprenderam sobre o uso do Pandas. A apresentação também servirá como uma oportunidade para os alunos exercitarem suas habilidades de comunicação e storytelling com dados.