GPUs empilhadas e luz no lugar de cobre: o que a Nvidia revelou para 2028 no GTC

A parte mais surpreendente do keynote do Jensen Huang no GTC 2026 não foi o Rubin Ultra com 1 TB de HBM4E - isso já era esperado. O que chamou atenção mesmo foi o que vem depois: a geração Feynman, prevista para 2028, que vai empilhar dies de GPU em 3D pela primeira vez na história da Nvidia e trocar os cabos de cobre do NVLink por conexões ópticas. Se você achou o Blackwell impressionante, Feynman parece estar em outra categoria de ambição.

Mas antes de falar do futuro, vale entender onde a Nvidia está agora e o que muda em cada degrau desse roadmap.

2026 e 2027: Rubin e Rubin Ultra no centro do palco

A plataforma Vera Rubin chega ainda este ano, no segundo semestre de 2026. Ela traz a combinação do chip Rubin (GPU de nova arquitetura para IA) com a CPU Vera, desenvolvida internamente pela Nvidia, mais o NVLink 6, ConnectX-9 SuperNIC, BlueField-4 DPU e o switch Spectrum-X com óptica co-integrada. É uma plataforma completa, não só uma GPU nova.

Em 2027, a Nvidia atualiza com o Rubin Ultra, que empacota quatro chiplets de computação e chega com 1 TB de memória HBM4E por pacote de GPU. A novidade quantitativa mais marcante aqui é o rack Kyber NVL144: 144 pacotes de GPU Rubin Ultra conectados via NVLink 7, entregando pelo menos quatro vezes o desempenho dos racks Oberon NVL72 com 72 GPUs Blackwell. Ou seja, dobram-se as GPUs por rack e troca-se o switch - a evolução de 2027 é basicamente escalar o que 2026 estabelece.

Roadmap completo da Nvidia para data centers de IA: Rubin, Rubin Ultra e Feynman

Feynman: quando a Nvidia decide empilhar as coisas

A geração Feynman é onde o roadmap fica tecnicamente interessante de verdade. Aqui entra um conceito que já vemos nos processadores, mas que a Nvidia nunca tinha aplicado nas suas GPUs de data center: o empilhamento de dies em 3D (3D die stacking).

Para quem não está familiarizado com o termo: um “die” é a pastilha de silício onde os transistores são gravados. Nas arquiteturas Rubin e Blackwell, os dies ficam lado a lado numa camada plana, conectados por um interposer de silício - o que os engenheiros chamam de configuração 2.5D. Com o empilhamento 3D, um die fica literalmente em cima do outro, conectado por milhares de micro-contatos verticais chamados TSVs (Through-Silicon Vias). A analogia mais próxima que temos no mercado de consumo é o que a AMD faz com a V-Cache nos processadores Ryzen X3D: uma camada de cache SRAM colada em cima do die principal via hybrid bonding.

A vantagem é física: conexões mais curtas entre os dies significam menor latência e maior vazão de dados (quantidade de informação que passa por segundo) entre os componentes. Para cargas de trabalho de inferência de IA - que é o processo de um modelo já treinado respondendo a perguntas ou gerando texto - isso é crítico.

Junto com o empilhamento, a Nvidia também confirmou que o Feynman vai usar HBM customizado. O Rubin usa HBM4, o Rubin Ultra usa HBM4E, e o Feynman vai um passo além com uma versão sob medida, provavelmente o que a indústria está chamando de cHBM4E - onde a lógica de controle da memória, que antes era produzida pelas fabricantes de DRAM como Samsung ou SK Hynix, passa a ser integrada diretamente no die da GPU ou produzida por uma fundição focada em lógica como a TSMC. O resultado esperado: mais capacidade além do 1 TB do Rubin Ultra e mais largura de banda de memória.

NVLink óptico: adeus ao cobre, olá à luz

O outro grande salto do Feynman está no NVLink com óptica co-integrada (co-packaged optics, ou CPO). O NVLink é o protocolo proprietário da Nvidia que conecta múltiplas GPUs dentro de um servidor ou rack com altíssima largura de banda - algo que o PCIe convencional simplesmente não consegue fazer na escala de um data center de IA.

Hoje, essas conexões usam cabos de cobre. Cobre funciona, mas tem limites físicos de distância, consome mais energia por bit transmitido e gera mais calor. A óptica co-integrada embute fibras ópticas e transceptores diretamente no switch, transmitindo os dados via luz. Isso permite conexões mais longas, mais eficientes em consumo de energia e com menor latência.

O impacto prático é impressionante: com NVLink óptico, a Nvidia diz que vai escalar o tamanho dos seus sistemas de rack para até 576 pacotes de GPU no chassis Oberon ou até 1.152 pacotes no chassis Kyber. Para comparar, o Oberon NVL72 atual tem 72 GPUs. Falamos em 16 vezes mais GPUs num sistema integrado. É a diferença entre um servidor potente e uma fábrica de IA em escala continental.

Vale o ceticismo aqui: roadmaps de data center para 2028 são promessas, não produtos. A Nvidia tem histórico de cumprir - saiu do Hopper para o Blackwell para o Rubin num ritmo acelerado - mas dois anos é tempo suficiente para a concorrência da AMD Instinct e para as aceleradoras customizadas dos hyperscalers (Google TPU, AWS Trainium) evoluírem bastante. Prometer 1.152 GPUs num único sistema é ambicioso em qualquer contexto.

Rosa: a CPU que apareceu do nada no roadmap

A CPU Rosa, cujo nome completo é Rosalyn (homenagem à física Rosalyn Sussman Yalow), foi a maior surpresa da atualização do roadmap. Ela simplesmente não existia nos planos públicos anteriores.

O que se sabe: Rosa é uma CPU desenvolvida internamente pela Nvidia, com foco em desempenho de thread único (a capacidade de processar uma tarefa sequencial o mais rápido possível, diferente do que GPUs fazem em paralelo). A Vera, a CPU atual da geração Rubin, já é a primeira CPU da Nvidia para data center; Rosa representa a segunda geração, chegando em 2028 junto com Feynman. Isso indica que a Nvidia encurtou seu ciclo de desenvolvimento de CPU de quatro anos para dois - colocando-se no mesmo ritmo de AMD e Intel no segmento de processadores de alta performance.

O que Rosa significa na prática: os sistemas de IA não rodam só em GPU. CPUs fazem o trabalho de orquestração, pré-processamento de dados e coordenação das cargas de trabalho. Uma CPU mais rápida nessa posição reduz gargalos e melhora o desempenho end-to-end do sistema. Faz sentido a Nvidia querer controlar esse componente também, assim como já quer controlar cada camada da stack de IA.

A Groq virou parceira - e isso é o mais estranho de tudo

A Groq é uma startup que construiu sua reputação sendo alternativa à Nvidia, não parceira. Suas LPUs (Language Processing Units) são aceleradoras especializadas em inferência - o processo de um modelo de IA gerar respostas - usando uma arquitetura radicalmente diferente das GPUs: em vez de HBM, cada chip Groq embute 500 MB de SRAM, a memória ultrarrápida que normalmente serve de cache em CPUs e GPUs. Com isso, o Groq 3 entrega algo em torno de 150 TB/s de largura de banda de memória, contra os 22 TB/s do HBM4 do Rubin. Para inferência de baixo batch - quando um modelo atende uma requisição de cada vez - essa diferença é gritante.

A Nvidia adquiriu a Groq por 20 bilhões de dólares e agora está integrando as LPUs ao longo de todo o roadmap: LP30 no Vera Rubin (2026), LP35 no Rubin Ultra (2027, com suporte ao formato de dados NVFP4, que aumenta a eficiência de inferência), e LP40 no Feynman (2028), conectado via NVLink. O Rubin CPX, o acelerador de inferência que a própria Nvidia estava desenvolvendo, sumiu do roadmap - a Groq o substituiu completamente.

Se o roadmap se concretizar, a Feynman será a plataforma de IA mais integrada que a Nvidia já construiu: GPU empilhada em 3D com HBM customizado, CPU de segunda geração desenvolvida internamente, LPU integrada via NVLink, e conexões ópticas capazes de unir mais de mil GPUs num único sistema coerente. O desafio maior vai ser a engenharia de software: unificar o modelo de execução determinístico das LPUs da Groq com o ecossistema CUDA da Nvidia é um problema sem solução óbvia. Chips de roadmap são a parte fácil; fazer o software funcionar junto é onde os anos realmente somem.

GPUs empilhadas e luz no lugar de cobre: o que a Nvidia revelou para 2028 no GTC

2026 e 2027: Rubin e Rubin Ultra no centro do palco

Feynman: quando a Nvidia decide empilhar as coisas

NVLink óptico: adeus ao cobre, olá à luz

Rosa: a CPU que apareceu do nada no roadmap

A Groq virou parceira - e isso é o mais estranho de tudo

Bruno Silva

LEIA TAMBEM

O gesto mais comum em selfie pode estar entregando sua impressão digital sem que você perceba

Os EUA levaram oito anos para alcançar o Brasil na proteção contra nudes vazados

A IA faz o trabalho júnior agora. As empresas cortaram os jovens e estão contratando os experientes.

2026 e 2027: Rubin e Rubin Ultra no centro do palco

Feynman: quando a Nvidia decide empilhar as coisas

NVLink óptico: adeus ao cobre, olá à luz

Rosa: a CPU que apareceu do nada no roadmap

A Groq virou parceira - e isso é o mais estranho de tudo

Bruno Silva

LEIA TAMBEM

O gesto mais comum em selfie pode estar entregando sua impressão digital sem que você perceba

Os EUA levaram oito anos para alcançar o Brasil na proteção contra nudes vazados

A IA faz o trabalho júnior agora. As empresas cortaram os jovens e estão contratando os experientes.

FICA POR DENTRO

FICA POR
DENTRO