Olá, seja muito bem-vindo (a) ao meu portfólio de projetos de Ciência de Dados

Nessa página, eu demonstro minhas habilidades de resolver problemas de negócio utilizando conceitos e ferramentas da Ciência de Dados através de projetos com dados públicos e projetos pessoais.

Habilidades

Linguagens de Programação e Banco de Dados

  • Python com foco em análise de dados
  • Web scraping com Python
  • Orientação a objetos
  • SQL para extração de dados
  • Banco de dados: conhecimentos de MySQL e Oracle

Estatística e Machine Learning

  • Estatística descritiva (localização, dispersão, assimetria, kurtosis, densidade)
  • Algoritmos de Regressão e classificação
  • Técnicas de balanceamento dos dados, seleção de atributos e redução de dimensionalidade
  • Métricas de performance dos algoritmos (RMSE, MAE, MAPE, Confusion Matrix, Precisão, Recall, Curva ROC)
  • Pacotes de Machine Learning: Sklearn e Scipy

Visualização de Dados

  • Matplotlib
  • Seaborn
  • Plotly
  • Engenharia de Software

  • Git, Github, Gitlab, Virtual Environment
  • Streamlit, Python API's.
  • Cloud Heroku, AWS Amazon
  • Experiências profissionais

    KPI Data scientist - Johnson Controls

    Atualmente atuo como cientista de dados na Johnson Controls, onde desenvolvo e participo de projetos estratégicos, como:

    • Prevenção ao churn: Representante interno da empresa no projeto conduzido por consultoria externa, garantindo alinhamento técnico e clareza para gestores e stakeholders.
    • Desenvolvimento de bots baseados em LLMs: Criação de soluções utilizando APIs como Llama (Groq), Hugging Face e OpenAI para consultas automatizadas a documentos internos, aplicando técnicas como RAG e embeddings.
    • Automatização de processos: Criação de ferramentas em Python e Streamlit para disparo de mensagens (WhatsApp e e-mail) e notificações críticas para clientes.
    • Clusterização de clientes: Desenvolvimento de modelos preditivos para segmentação de clientes visando campanhas direcionadas e personalizadas.
    • Treinamento interno: Capacitação de uma equipe de três colaboradores em Python, análise de dados e machine learning, incluindo elaboração de material didático.

    Cientista de Dados - Banco Modal

    No Banco Modal, tive a oportunidade de trabalhar em projetos como prevenção ao churn, previsão de ativação de contas e clusterização de clientes. Principais atividades:

    • Discovery das bases em SQL Server e Oracle para extração de dados relevantes.
    • Enriquecimento de dados internos com APIs e terceiros.
    • Análises exploratórias e geração de insights utilizando Python e bibliotecas como Scikit-learn.
    • Desenvolvimento e manutenção de modelos de machine learning, como regressão, boosting e random forest.
    • Levantamento de requisitos e apresentações para stakeholders.
    • Uso de Git e Azure para versionamento e colaboração.

    5+ anos área comercial

    Gestão de soluções operacionais em carteira de clientes estratégicos, intermediação entre áreas TI/Administrativa cliente-empresa, gestão de soluções contratuais, gestão dos índices de qualidade contratuais.

    6+ anos como Coordenação de planejamento e qualidade

    Implantação e acompanhamentos de programas de qualidade como ISO 9001 e Padronização dos processos produtivos. Manutenção dos processos de qualidade com redução de índices de erros organizacionais. Criação de novos processos de cálculo de mão de obra e recursos materiais, inserindo inovações tecnológicas.

    10+ anos como gestor

    Gestão de equipes de 30 a 45 colaboradores entre funcionários próprios, cedidos e terceirizados, desde a produtividade individual, avaliação de desempenho, treinamento e experiência. Gestão de frota (motos, carros, caminhões) com controle de manutenção, consumo, acidentes e roubos. Gestão de unidade operacional com controle de produtividade de equipes, levantamento e gestão de recursos humanos e materiais, controle de qualidade e imagem da organização.

    Projetos em Ciência de Dados

    Construção de um modelo de previsão de vendas para uma rede de farmácias

    Desenvolver um modelo de predição de vendas para os próximos seis meses para uma rede de farmácias, afim de subsidiar o CFO da rede na realização de orçamamento dos custos para reforma das lojas.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy
    • Matplotlib, Seaborn
    • Linear Regression, Lasso Linear Regression, Ridge Linear Regression, Random Forest, XGBoost
    • Flask
    • Estatísca descritiva e inferencial
    • Heroku, Streamlit
    • Git, Gitlab e Github
    • Jupyter Notebook

    Google Machine Learning Olympiad for Students

    Criar um modelo para processar pedidos de vistos de emprego para empregadores que buscam trazer trabalhadores estrangeiros para os Estados Unidos nos casos em que os empregadores podem demonstrar que não há trabalhadores americanos suficientes disponíveis para realizar o trabalho com salários que atendam ou excedam o salário pago para a ocupação na área de emprego pretendida.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy
    • Seaborn, Matplotlib, DataViz
    • Análise exploratória e estatística
    • Sklearn, Pipeline, Cross validation
    • OrdinalEncoder, TargetEncoder, OneHotEncoder, MinMaxScaler, StandardScaler
    • Logistic Regression, SVM, XGBoost, LightGBM, GradientBoost

    Sistema de recomendação de músicas

    Projeto de um job freelancer contratado por um aluno de curso de TI para execução de um trabalho semestral que ele já havia iniciado. As especificações de bibliotecas e metodologia foram selecionadas por ele, o nível de detalhamento também limitado por conta do curto prazo para entrega da tarefa (10 dias) que constituía em encontrar uma fonte de dados, analisar, preparar e desenvolver o modelo, entregar o código-fonte, scripts e notebooks, disponibilizar a aplicação funcionando mesmo que em servidor, repositório no github e documentação em formato de TCC.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy
    • Seaborn, Matplotlib
    • DataViz
    • Kmeans, PCA
    • Streamlit Python framework

    Trabalho freelancer de algoritmos e métricas

    Esse projeto refere-se a um job freelancer da plataforma Workana para execução de um trabalho de mestrado, contratado por um aluno através da plataforma. O trabalho consistia em escolher alguns datasets públicos e implementar diversos algoritmos de Regressão linear, logística e de agrupamento, assim como implementar e plotar os resultados de diversas métricas para para cada um deles.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, Sklearn
    • Seaborn, Matplotlib
    • k-means, PAM, Clara, Clustering Hierarquico Aglomerativo, DBSCAN, Complete-linkage clustering, Método Ward
    • Métricas Internas: Conectividade, Largura de Silhueta, Índice de Dunn
    • Métricas de Estabilidade: métrica APN (Average Proportion of Non-overlap), métrica AD (Average Distance), métrica ADM (Average Distance between Means), métrica FOM (Figure of Merit)
    • Métricas Biológicas: BHI (Biological Homogeneity Index), BSI: Biological Stability Index
    • Regressão Logística, Lasso Regression, Ridge Regression, Elastic net

    Calculadora de matrizes

    Este trabalho consistiu em criar uma calculadora de matrizes on-line para auxiliar os alunos de séries diversas no aprendizado de operações com matrizes, tanto em sala de aula como em aulas à distãncia. A calculadora também tem a finalidade de servir como ferramenta de apoio à professores no ensino de álgebra e na inserção da tecnologia como um contraponto ao estudo tradicional lousa-caderno.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy
    • Seaborn, Matplotlib
    • Classes e métodos
    • Streamlit para deploy

    Sistema Web

    A ideia de criar esse projeto veio da observação de várias necessidades de trabalho reportadas na plataforma Workana onde muitos usuários cadastram ofertas de trabalho que necessitem de um sistema em nuvem que seja escalável e ao mesmo tempo simples. A decisão pelo uso de Python com Streamlit se deu pela versatilidade da ferramenta, a agilidade que a bilioteca permite desenvolver protótipos e módulos, pela integração com várias ferramentas de visualização de dados além da facilidade de hospedagem em diversos serviços de cloud. A maioria das ofertas de trabalho verificadas eram de automação de planilhas ou vizualização de dados em dashboards que saíssem da suíte da Microsoft mas que fosse simples e leve, requisitos que a biblioteca Streamlit tem de sobra aliada ao poder do Python.

    As ferramentas utilizadas foram:

    • Python
    • Streamlit
    • Ferramentas de desenvolvedores autônomos

    Contatos

    Sinta-se a vontade para entrar em contato:

    Qualquer sugestão ou dúvida, por favor, entre em contato.