A análise estatística dos microdados do Exame Nacional do Ensino Médio (ENEM) entre 2021 e 2023 revela desigualdades estruturais marcantes entre estudantes de escolas públicas e privadas no Brasil. O estudo, desenvolvido no contexto do Hackathon DATAS por estudantes da Universidade Federal do ABC (UFABC), teve como objetivo explorar o potencial da Ciência de Dados e da Inteligência Artificial para compreender melhor os caminhos dos alunos do ensino médio rumo ao ensino superior, com foco especial no impacto do tipo de escola sobre o desempenho nas provas.
Para isso, foram analisados mais de 3 milhões de registros de estudantes de todas as regiões do país.
O tratamento dos dados envolveu processos de limpeza, padronização, construção de indicadores e aplicação de modelos estatísticos e de machine learning. Uma das principais variáveis criadas foi a “Média UFABC”, um índice que representa a média ponderada das notas do ENEM, considerando pesos semelhantes aos utilizados no curso de Bacharelado em Ciência e Tecnologia da própria universidade. A média ponderada dá maior peso a áreas como Matemática, Redação e Ciências da Natureza, refletindo as exigências reais de cursos universitários da área de exatas.
Além de observar médias gerais, foram aplicados testes estatísticos de significância, como o teste t de Student, para avaliar se as diferenças de desempenho entre estudantes de escolas públicas e privadas eram estatisticamente relevantes ou poderiam ser atribuídas ao acaso. Os resultados não deixaram dúvidas: em todas as disciplinas analisadas e em todos os anos do período estudado, os estudantes da rede privada apresentaram desempenho significativamente superior.
Esse padrão se acentua ao analisar os alunos que atingiram ou superaram notas de corte específicas — representando potenciais candidatos à aprovação em universidades federais.
Por exemplo, considerando um corte de 720 pontos em Matemática, observou-se que aproximadamente 20% dos estudantes da rede privada atingiram esse patamar, contra apenas 2,9% da rede pública. Em Linguagens, o recorte foi de 650 pontos: 5,7% dos estudantes da rede privada alcançaram essa marca, enquanto só 0,75% dos alunos da rede pública chegaram a esse nível. Já em relação à média geral ponderada (baseada em critérios da UFABC), apenas 0,9% dos alunos da rede pública atingiram ou superaram a nota de 717,7, contra 10% dos alunos da rede privada.
Estes dados não apenas confirmam a disparidade no desempenho, mas também demonstram como essas desigualdades se traduzem em barreiras reais ao ingresso em cursos universitários de alta competitividade.
A pandemia de COVID-19, que impôs grandes desafios à continuidade do ensino, agravou ainda mais essas discrepâncias, sobretudo para os alunos da rede pública, que enfrentaram maior dificuldade de acesso à internet, falta de apoio pedagógico e carências estruturais.
Além da análise descritiva e inferencial, o projeto também utilizou técnicas de aprendizado de máquina, como o modelo Random Forest, para prever a probabilidade de um estudante atingir alto desempenho com base em suas notas individuais. O modelo alcançou uma acurácia de mais de 99%, mostrando que é possível prever, com alto grau de confiança, quais alunos estão entre os melhores desempenhos. Isso reforça o potencial de sistemas inteligentes para detectar talentos e orientar políticas de incentivo e apoio.
Mais do que identificar uma diferença média entre grupos, o estudo evidencia que as condições de origem escolar afetam diretamente as oportunidades de acesso ao ensino superior. Enquanto escolas privadas conseguem, com maior frequência, preparar seus alunos para enfrentar a lógica do ENEM e alcançar notas compatíveis com o ingresso em universidades públicas, a rede pública continua enfrentando obstáculos estruturais e sociais que impactam diretamente no desempenho dos estudantes.
Conclusão
A utilização de Ciência de Dados nesse contexto se mostra poderosa não apenas como ferramenta analítica, mas também como instrumento de transformação social. Com evidências concretas, é possível subsidiar políticas públicas mais justas, voltadas para a promoção da equidade, o fortalecimento da rede pública de ensino e a construção de estratégias que ampliem o acesso de todos — especialmente dos mais vulneráveis — ao ensino superior de qualidade.
Em um país tão desigual como o Brasil, compreender a relação entre o desempenho no ENEM e o tipo de escola frequentada é um passo essencial para garantir que o acesso à universidade seja guiado não pela renda ou pela rede de ensino, mas sim pelo mérito acadêmico genuíno — desde que este venha acompanhado de igualdade real de oportunidades.
Time, Participantes e Relatório
Este trabalho foi apresentado pelo time Algoritmados. Os participantes são:
- Arthur Ortega
- Rodrigo Polino
- Kaique Bezerra
- João Marcelino
Abaixo você tem acesso ao relatório que embasou o trabalho e ao manual de uso e documentação da ferramenta.