Atualizado dia 08/01/2025
Sabia que quando seu plano da AWS ou Google Colab não é suficiente pra treinar seu modelo ou rodar sua análise você tem uma opção dentro da universidade?
E falei que é grátis?
Isso mesmo! A PROPES por meio da Central Computacional Multiusuário (CCM) vem a cada dia investindo nos servidores e ampliando seu poder computacional, inclusive com GPUs!
Na última expansão do servidor Carbono, a CCM instalou nove nós de processamento, cada um com dois processadores EPYC com 192 threads e 768 GB de memória DDR5. Isso resulta em 1728 threads e 6,9 TB de memória RAM somente nesta expansão!
Este servidor já contava com 896 threads e 3,5 TB de memória DDR4 e também tem o servidor Titânio, que soma 2620 cores e 10,5 TB de memória.
Dá pra brincar, né? E nem chegamos nas GPUs!
Para cargas mais paralelizáveis – para a alegria de quem treina modelos de Inteligência Artificial – o Carbono também conta com alguns nós de GPU:
- Nó 1:
2x GPUs NVIDIA L40S 24GB. Resultando em 48GB de memória GDDR6 e 1466 TFLOPS em FP16, com CUDA e OpenCL. - Nó 2:
2x GPUs NVIDIA A30 24 GB. Resultando em 48GB de memória HBM2 e 330 TFLOPS em FP16, com CUDA e OpenCL. - Nó 3:
2x GPUs NVIDIA A40 48 GB. Resultando em 96GB de memória GDDR6 e 300 TFLOPS em FP16, CUDA e OpenCL. - (ATUALIZAÇÃO) Nó 4 (em Implementação):
4x GPUs NVIDIA L40S 24GB. Resultando em 96GB de memória GDDR6 e 1466 TFLOPS em FP16, com CUDA e OpenCL.
Tudo isso é instalado em racks com rede de alta velocidade, em um ambiente com refrigeração adequada, controle de acesso, sistema de extinção de incêndio, fontes redundantes, no-breaks e geradores.
Essa infraestrutura permite que todos os nossos cientistas e pesquisadores tenham ferramentas disponíveis para pesquisas de ponta, independente da área de atuação. Seja IA, análise da dados, tratamento de dados, simulações de grandes sistemas e muito mais.
Os servidores tem vários programas e bibliotecas pré-instaladas que servem como base para outras bibliotecas, como os pacotes CUDA que aceleram os algoritmos no PyTorch, Scikit-learn, llama.cpp, entre outros.
E como faço para usar?
Claro, existem alguns regras para uso e você consegue acesso por meio de um orientador. O acesso é feito por SSH e o servidor usa um gerenciador de filas para rodar o seu programa. Você configura um script informando ao nó gerenciador qual sua demanda por hardware (quantidade de núcleos, memória, GPU, tempo de execução) e eu trabalho entra na fila assim que os recursos tiverem disponíveis.
Claro, é um pouco menos prático que os sistemas em nuvem que rodam nos navegadores, isso acontece por conta da natureza multiusuário do datacenter. Mas quando falamos de treinamento de modelos de IA ou aceleração de análises e simulações isso pode acelerar os resultados ou até mesmo permitir novos resultados, que seriam impraticáveis em workstations convencionais.
Você Já conhecia a CCM? Tem interesse em usar? Fale com seu orientador ou entre em contato com o time da CCM!
Os clusters foram adquiridos com recursos da FINEP nos projetos:
- TC 01.22.0140.00 Ref 0038/21: “AIDNewMat – Abordagem Interdisciplinar para Descoberta de Novos Materiais”
- TC 01.22.0579.00 Ref 0288/22 “WISE-MHC: Desafios Regionais e Globias no Desenvolvimento e Aplicação de Inteligência Artificial: Novos Materiais, Saúde e Cidades Inteligentes”
- TC 04.19.0138.01 Ref 0349/18: “Reforço e Aprimoramento da Infraestrutura de Pesquisa da Transversal e Multidisciplinaridade da UFABC (REFIPENE)”
Nota: Dia 27/12/24 a CCM divulgou a chegada de um quarto nó de GPU para o Carbono! Este nó aumenta consideravelmente a disponibilidade de memória e núcleos de GPUs e a CCM convida a todos pesquisadores a explorar a capacidade deste novo nó!