Kael Foundry
Cursos de performance em aceleradores

Três caminhos, um objetivo:
entender e melhorar o que acontece no acelerador.

Cada trilha tem escopo definido, exercícios práticos e avaliação baseada em entrega. Abaixo você encontra tudo o que está incluso em cada uma.

Voltar ao início

Como a Kael Foundry organiza o aprendizado

O princípio central é simples: nenhuma otimização é ensinada antes que o aluno saiba medir se ela funciona. Isso significa que cada trilha começa com ferramentas de coleta de dados — relatórios de profiling, contadores de hardware, traces de sistema — e só então apresenta técnicas de ajuste.

A progressão das trilhas é linear: Fundamentos → Otimização → Avançado. Cada nível pressupõe competências do anterior. Quem já tem experiência sólida em instrumentação pode ingressar diretamente na trilha intermediária, mas não pulamos a etapa de diagnóstico em nenhuma delas.

01

Instrumentar antes de ajustar

Coletar dados de profiling e interpretar o que eles indicam sobre o gargalo real.

02

Formular hipótese baseada em dados

Decidir qual intervenção endereça o gargalo dominante com base no que a medição mostrou.

03

Aplicar a técnica e medir o delta

Executar a mudança, coletar os dados novamente e comparar com a linha de base.

04

Documentar e iterar

Registrar o que funcionou, por que funcionou, e identificar o próximo gargalo relevante.

Fundamentos de Profiling
Nível 1 — Fundamentos ~3 semanas R$ 590

Fundamentos de Profiling

Uma trilha fundacional que ensina como medir onde workloads de IA gastam tempo e memória em hardware acelerador. O foco é construir bons hábitos de instrumentação — saber o que coletar, como interpretar os dados e o que fazer com essa informação — antes de qualquer ajuste. Desenvolvida para desenvolvedores que estão iniciando em performance.

O que está incluído:

  • Introdução ao ambiente do acelerador Nvidia — SMs, HBM, hierarquia de memória
  • Uso prático do Nsight Compute e Nsight Systems
  • Leitura e interpretação de relatórios de ocupância e throughput
  • Identificação de gargalos de memória versus computação
  • Exercícios guiados com cargas representativas

Passo a passo da trilha:

  1. Configuração do ambiente e primeira coleta de profiling
  2. Interpretação de contadores de hardware fundamentais
  3. Diagnóstico de padrões de acesso à memória
  4. Laboratório prático com workload de inferência simples
  5. Entrega e revisão da análise final
Inscrever-se nesta trilha
Nível 2 — Intermediário ~7 semanas R$ 2.250

Trilha de Técnicas de Otimização

Uma trilha intermediária sobre métodos práticos de ajuste de performance — seleção de kernels, layout de memória, batching e precisão numérica — com exemplos medidos antes e depois. Direcionada a desenvolvedores que já sabem instrumentar um workload e querem aprender a melhorar sistematicamente o que encontram. Inclui laboratórios e fórum de discussão técnica.

O que está incluído:

  • Seleção e comparação de kernels de operações comuns em IA
  • Layout de memória compartilhada — coalescing e bank conflicts
  • Estratégias de batching e seus efeitos no pipeline de inferência
  • Precisão mista: FP16, BF16 e quantização INT8 com medição de impacto
  • Fórum técnico moderado por instrutores com cada laboratório

Passo a passo da trilha:

  1. Revisão de profiling intermediário e linha de base do workload
  2. Módulo de memória — layout, acesso e medição de impacto
  3. Módulo de kernels — seleção, fusão e análise comparativa
  4. Módulo de batching e pipeline — throughput versus latência
  5. Módulo de precisão mista com laboratório medido
  6. Entrega de análise de otimização completa
  7. Discussão no fórum e revisão final
Inscrever-se nesta trilha
Trilha de Técnicas de Otimização
Programa de Performance Avançada
Nível 3 — Avançado ~9 semanas R$ 4.820

Programa de Performance Avançada

Um programa sênior de engenharia sistemática de desempenho em workloads completos de IA, com estudos de caso detalhados e revisões individuais com mentor. Desenvolvido para engenheiros que têm responsabilidade direta pelos resultados de performance em projetos reais. A trilha termina com um capstone em workload real, revisado por um profissional com histórico em produção.

O que está incluído:

  • Modelagem de roofline e análise sistêmica de workloads completos
  • Estudos de caso — inferência de LLMs, visão computacional e treinamento distribuído
  • Sessões de revisão individual com mentor para o capstone
  • Framework de tomada de decisão em performance engineering
  • Projeto capstone em workload real do aluno ou fornecido pela Kael Foundry

Passo a passo da trilha:

  1. Análise de workload completo — mapeamento e hierarquia de gargalos
  2. Modelagem de roofline e bounds de hardware
  3. Estudo de caso 1 — inferência de modelo de linguagem
  4. Estudo de caso 2 — pipeline de visão computacional
  5. Estudo de caso 3 — treinamento distribuído
  6. Framework de decisão e documentação de performance
  7. Capstone: análise completa com revisão de mentor
  8. Apresentação e feedback final
Inscrever-se nesta trilha

Comparativo das trilhas

Característica Fundamentos
R$ 590
Otimização
R$ 2.250
Avançado
R$ 4.820
Duração ~3 semanas ~7 semanas ~9 semanas
Pré-requisito Python básico, noção de IA Nível 1 ou equivalente Nível 2 ou equivalente
Instrumentação e profiling
Técnicas de otimização
Fórum técnico moderado
Estudos de caso avançados
Revisão com mentor
Projeto capstone

Melhor para:

Desenvolvedores que ainda não instrumentaram um workload e querem começar do zero com boas práticas.

Melhor para:

Engenheiros com noção de profiling que precisam aprender a aplicar técnicas de otimização com base em medições.

Melhor para:

Profissionais responsáveis por resultados de performance em produção que querem uma abordagem sistemática com acompanhamento.

Protocolos compartilhados por todas as trilhas

Privacidade dos dados do aluno

Dados pessoais tratados de acordo com a LGPD. Nenhum dado é compartilhado com terceiros para fins comerciais.

Conteúdo validado em hardware

Todos os exercícios são testados em aceleradores Nvidia reais antes de cada ciclo de turma.

Atualização semestral

O material é revisado semestralmente para incorporar novas versões de ferramentas e mudanças de arquitetura relevantes.

Acesso individual e controlado

Cada aluno tem acesso autenticado à trilha correspondente. O conteúdo não é redistribuível.

Suporte com tempo de resposta

Perguntas no fórum têm resposta de instrutor em até dois dias úteis durante o período da trilha.

Documento de conclusão

Ao finalizar a trilha, o aluno recebe um documento de conclusão descrevendo o conteúdo coberto e o nível da trilha.

Investimento por trilha

Parcelamento disponível. Faturamento para pessoas jurídicas. Planos para equipes sob consulta.

FUNDAMENTOS
R$ 590
pagamento único
  • ~3 semanas de conteúdo
  • Exercícios guiados com hardware real
  • Fórum técnico moderado
  • Acesso por 12 meses
  • Documento de conclusão
Inscrever-se
Mais procurado
OTIMIZAÇÃO
R$ 2.250
pagamento único ou parcelado
  • ~7 semanas de conteúdo
  • Laboratórios práticos medidos
  • Fórum técnico moderado
  • Acesso por 12 meses
  • Documento de conclusão
Inscrever-se
AVANÇADO
R$ 4.820
pagamento único ou parcelado
  • ~9 semanas com capstone
  • Estudos de caso detalhados
  • Revisão individual com mentor
  • Acesso por 12 meses
  • Documento de conclusão
Inscrever-se

Não tem certeza de qual trilha começar?

Descreva brevemente seu nível de experiência em performance de aceleradores e o projeto em que está trabalhando — nossa equipe sugere o ponto de entrada mais adequado.

Entrar em contato