Estamos imersos em um mundo onde cada vez mais escutamos falar sobre dados. Muitos dizem até ser o maior mercado da atualidade e essa proposição não é absurda, já que as maiores big techs são baseadas em dados de marketing ou tem como parte da sua estratégia de negócio usar dados para impulsionar vendas e uso de produtos.
Com isso, surge cada vez mais um mercado de trabalho entorno dos dados. Você ja pensou quem usa esses dados? Quem trata esses dados? Quem transforma os dados informação útil? Quem transforma esses dados em Inteligência Artificial?
Dados do cliente, dados de compras, dados sensíveis, dados, tudo é dado!
Pois é, quem está no meio desse furacão de informação, tendo que lidar com ferramentas, matemática, estatística, programação, modelos de negócio e incontáveis tecnologias específicas é o Cientista de Dados!
O dia a dia de um cientista de dados é repleto de desafios e oportunidades. O trabalho passa pela coleta e limpeza de dados, desenvolvimento de modelos preditivos, construção de dashboards interativos ou colaborando com equipes multidisciplinares para encontrar soluções inovadoras. Diferente do que é esperado de um desenvolvedor de software ou engenheiro, o cientista de dados deve ter a capacidade de comunicar suas descobertas de forma clara e acessível, com visualizações de dados que se adaptam ao público.
Além de manipular dados e construir modelos preditivos, os cientistas de dados também precisam comunicar suas descobertas de forma clara e acessível, muitas vezes através de visualizações de dados impressionantes.
Essa profissão exige uma combinação de habilidades técnicas e soft skills, como comunicação, criatividade e pensamento crítico. A capacidade de ter insights a partir dos dados, facilidade em aprender a absorver conhecimento e a vontade de ter novos conhecimentos, é a base do trabalho do Cientista de Dados.
As vagas de Cientistas de Dados hoje são normalmente preenchidas por Cientistas da Computação ou Engenheiros devido a facilidade destas pessoas com as ferramentas necessárias para extração e tratamento dos dados, porém o domínio da ferramenta não é o único trabalho do cientista de dados.
O dia a dia do Cientista de Dados envolve planilhas, banco de dados, programação, visualização de dados e mais!
Pensando em unir todas essas demandas que a área de ciência de dados tem, a UFABC lançou o Bacharelado em Ciência de Dados, um curso que ensina o ferramental estatístico e matemático que o Cientista precisa, mostra as ferramentas mais comuns no trabalho do Cientista de Dados e também treina a interdisciplinaridade com disciplinas de opção limitada que abrangem todas as áreas do conhecimento, para que o Cientista esteja preparado para os desafios do cotidiano.
Desmistificando a Inteligência Artificial
Google, Meta, Microsoft, NVIDIA, parecem entidades inalcançáveis e distantes, que trazem os Modelos de Linguagem, Geração de Imagem e muitas outras forma de Inteligência Artificial para nossa vida na forma de uma aplicação em nuvem. Mas nem sempre a Inteligência Artificial parte somente destas empresas, muitas nascem nas universidades e centros de pesquisa .
São Cientistas de Dados e Pesquisadores trabalhando em grupos de pesquisa que desenvolvem e disponibilizam esses modelos para nós, seja de forma gratuita, com os projetos open source ou acesso gratuito, ou de forma paga, nas quais encontramos os modelos mais avançados e caros.
A intenção do DATAS é mostrar que a IA está mais próxima que se imagina. Pelo menos a base teórica dela.
Neste vídeo o Prof. Dr. Ronaldo Prati explica de forma bem simplificada como é a matemática dos Grandes Modelos de Linguagens, as LLM ou Large Language Models.
Mas você pode se perguntar:
Como os dados podem ter relação com a Inteligência Artificial?
Uma etapa muito importante da criação de um modelo de IA é o treinamento. Esta etapa precisa de muitos dados e esses dados devem estar tratados e “limpos”. Caso tenha muito “lixo” – ou dados irrelevantes – o modelo pode se contaminar, além de tomar mais tempo de treinamento.
Garbage in garbage out.
O Prof. Dr. Raphael Camargo explica neste vídeo como é o processo de treinamento das LLMs, como o processo é interativo e também como depende ativamente da presença humana nos treinamentos!
Mas só texto? E aquelas imagens geradas por IA?
As imagens geradas por IA também passam por um processo similar de tratamento de dados, organização, treinamento e iteração supervisionada por humanos! Mas diferente do texto, que se baseia na ordem de palavras para criar o texto, a imagem é criada a partir de uma imagem vazia, onde o modelo aos poucos vai refinando os detalhes, até chegar na imagem desejada!
Esse processo é explicado pelos Prof. Raphael neste vídeo!
Tecnologia da Inteligência Artificial
Outro trabalho do cientista de dados é conhecer as tecnologias e ferramentas disponíveis, de software ou de hardware, para fazer escolhas sensatas sobre o trabalho e desenvolvimento de modelos.
A disponibilidade de poder computacional, uso de energia, praticidade deve ser levada em consideração para projetos pequenos e grandes. Um exemplo é como o avanço de processamento e eficiência energética aceleradores de IA e GPUs permitiu que novos modelos fossem criados e treinados. Neste vídeo, o Me. Rafael Figueiredo explica um pouco sobre como a disponibilidade das ferramentas e de datacenters permitiu aparecimento de novas tecnologias.
Esse avanço também permite a criação de novas ferramentas que, a pouco tempo atrás eram impensáveis!
// se antes da pandemia alguém te falasse
// que você podia criar um ChatGPT, você acreditaria?
// E se eu disser que hoje
// você pode fazer ele caber em um DVD
// e rodar no seu celular?
Hoje é possível ter um mini assistente localmente no nosso celular e computador. Também fazer tradução de voz e até mesmo usar intérprete, tudo usando ferramentas de IA e NPUs (Neural Processing Units), como explicado neste vídeo.
E como o Cientista de Dados usa IA pra ajudar na ciência?
Além do trabalho direto em serviços, comércio e indústria, o Cientista de Dados também tem um papel importante em auxiliar outros profissionais em descobertas acadêmicas e de P&D (Pesquisa e Desenvolvimento).
Muitos cientistas de outras áreas não tem conhecimento técnico para aplicar algoritmos de Inteligência Artificial ou não tem facilidade e conhecimento necessário para analisar grandes quantidades de dados que suas pesquisas e testes geram. Nesta posição um Cientista de Dados com conhecimento Interdisciplinar é um aliado para novas descobertas.
Um exemplo é como a Análise de Dados pode auxiliar no entendimento de novos fenômenos, sejam estes físicos, econômicos ou sociais, com base em dados e usando modelos de Aprendizado de Máquina transparentes.
Ficou curioso pra saber como isso funciona? O Prof. Dr. Fabricio Olivetti fala um pouco de ML4Science e SciML neste vídeo.
Estas estratégias de aplicação de IA são muito importantes para que de fato o problema seja conhecido e não só resolvido. Em geral, a IA é usada para nos dar a respostas dos problemas com base numa quantidade enorme de dados, mas nosso interesse, às vezes, pode entender o problema em si.
Um exemplo é descobrir o impacto que o investimento público tem na vida da população, ou como o aumento da disponibilidade de um serviço impacta na saúde de uma região. Para isso precisamos de modelos de IA interpretáveis, modelos que, além de nos responder, nos descrevem o problema! Este tema também foi abordado pelo Prof. Fabricio no vídeo abaixo!
Outro exemplo de como a Ciência de Dados está presente em outras áreas do conhecimento é na Química e Materiais! Estas áreas são exemplos de experimentos que podem ter uma quantidade massiva dados e testes que podem ser otimizados com Inteligência Artificial. A Prof. Paula e o Prof. Maurício explicam um pouco como é o uso de IA na área de novos medicamentos e materiais!
A ciência de dados é uma ferramenta
Espero que com essa série de vídeos você possa ter entendido um pouco melhor que não existe segredo na Inteligência Artificial e que muitos avanços ainda podem ser feitos com estudos teóricos e práticos sobre Ciência de dados.
E olha que só riscamos a superfície!
Isto é uma breve introdução do que um ingressante do curso de Ciência de Dados vai ter! Ainda não falamos dos diversos modelos de aprendizado, grafos, algoritmos, tecnologias, data lakes, bancos de dados e muito, muito mais!