A Persistência da Desigualdade: Uma Análise de Fatores Socioeconômicos no Ingresso à UFABC

Apesar dos avanços promovidos por iniciativas como o SISU e as políticas de cotas, ainda paira a dúvida: essas medidas têm sido suficientes para democratizar o acesso ao ensino superior público no Brasil?

O vestibular continua refletindo desigualdades históricas e estruturais. Fatores como renda, raça, tipo de escola e região de origem seguem moldando quem entra (ou não) em universidades como a UFABC.

Durante o I Hackathon de Ciência de Dados do DATAS/UFABC, desenvolvemos este projeto com o objetivo de investigar a persistência dessas desigualdades no processo de ingresso à universidade.

Objetivo

Nosso projeto teve duas frentes principais:

  1. Analisar o impacto das cotas no perfil dos aprovados na UFABC.
  2. Construir modelos de inteligência artificial para prever a nota mínima de aprovação com base em fatores socioeconômicos.

Para isso, desenvolvemos:

  • Uma simulação de cenário sem cotas, para observar quais perfis seriam aprovados sem políticas afirmativas.
  • Uma ferramenta interativa preditiva, acessível via Streamlit, que fornece estimativas de nota mínima e probabilidade de aprovação com base no perfil do candidato.

Metodologia e Análise de Dados

Bases utilizadas:

  • Microdados do ENEM 2023 (INEP)
  • Dados abertos do SISU 2023
  • Dados da PROGRAD/UFABC 2023

A combinação dessas bases nos permitiu cruzar notas, modalidades de ingresso e perfis socioeconômicos dos candidatos à UFABC.

Limpeza e estruturação dos dados:

Utilizamos Python com bibliotecas como pandas e numpy para padronizar as variáveis (renda, tipo de escola, etnia/cor e turno) e facilitar comparações entre modalidades:

  • Ampla concorrência
  • Cotas para escola pública
  • Cotas para pretos, pardos e indígenas (PPI)
  • Cotas por renda

Análises realizadas:

  • Visualizações como boxplots, histogramas e gráficos de dispersão.
  • Comparação entre notas médias e notas de corte por curso e modalidade.
  • Simulação sem cotas: reordenamos candidatos apenas por nota, mantendo seus perfis, para visualizar quem deixaria de ser aprovado.

Resultado marcante: sem cotas, muitos candidatos de baixa renda e PPI desaparecem da lista de aprovados.

Modelagem Preditiva

Aplicamos modelos de regressão e classificação para prever a nota do ENEM com base no perfil do candidato:

  • Regressão Linear
  • Random Forest Regressor
  • XGBoost Regressor & Classifier

Desempenho dos modelos:

Melhor desempenho:

  • XGBoost Regressor: R² = 0.99 para o curso de Bacharelado em Ciência e Tecnologia (após clusterização por curso).
  • Classificador com acurácia de 0.74 e AUC = 0.81.

Testamos também técnicas de pré-processamento como:

  • KMeans para clusterização não supervisionada
  • PCA para redução de dimensionalidade

Contudo, os resultados indicaram que o XGBoost já lida bem com dados de alta dimensionalidade, sendo esses passos extras desnecessários.

Aplicação Prática: Ferramenta Interativa

Para tornar o projeto acessível e útil na prática, desenvolvemos uma aplicação via Streamlit, disponível no GitHub.

O que ela faz?

Permite que o usuário insira:

  • Modalidade de ingresso
  • Curso, turno e campus
  • Perfil socioeconômico

E retorna:

  • Nota média esperada para aprovação
  • Probabilidade de aprovação com base no perfil

Essa abordagem transforma dados complexos em informações compreensíveis, tanto para candidatos quanto para gestores de políticas públicas.

Conclusão

Este estudo evidencia que as políticas de cotas continuam sendo indispensáveis para promover diversidade e inclusão no ensino superior. Sem elas, dados mostram um retrocesso significativo, especialmente para pessoas de baixa renda e negras, pardas ou indígenas.

Além disso, a aplicação de ciência de dados e IA mostrou-se uma aliada poderosa no diagnóstico de desigualdades e na construção de soluções. A previsão de nota mínima com base no perfil pode orientar estudantes em suas decisões e auxiliar instituições no aprimoramento de políticas de acesso.

Time, Participantes e Relatório

Este trabalho foi apresentado pelo time NeuralBoost. Os participantes são:

  • Ana Carolina S. F. Parra
  • Heitor H. Shirai
  • Isac do Nascimento Vieira
  • João Marco J. Franciscon

Abaixo você tem acesso ao repositório com código aberto da análise, ao relatório que embasou o trabalho e ao manual de uso da ferramenta.
https://github.com/jfranciscon/hackaton-datas