Mastodon

Quais GPUs podem rodar Llama 3.1 405B?

Llama 3.1 405B é um modelo de linguagem grande que requer uma quantidade significativa de memória de GPU para funcionar. Neste post, discutiremos os requisitos de GPU para rodar o Llama 3.1 405B.

Quais GPUs podem rodar Llama 3.1 405B?


Artigo original por Sam Stoelinga

Llama 3.1 405B é um modelo de linguagem grande que requer uma quantidade significativa de memória de GPU para funcionar. Neste post, discutiremos os requisitos de GPU para rodar o Llama 3.1 405B.

Para aprender o básico sobre como calcular a memória da GPU, confira o post sobre cálculo de requisitos de memória de GPU.

Resumo dos requisitos estimados de memória de GPU para Llama 3.1 405B:

  • Llama 3.1 405B requer 1944 GB de memória de GPU no modo de 32 bits.
  • Llama 3.1 405B requer 972 GB de memória de GPU no modo de 16 bits.
  • Llama 3.1 405B requer 486 GB de memória de GPU no modo de 8 bits.
  • Llama 3.1 405B requer 243 GB de memória de GPU no modo de 4 bits.

Exemplos de GPUs que podem rodar o Llama 3.1 405B:

  • 8 x GPUs AMD MI300 192GB no modo de 16 bits.
  • 8 x GPUs NVIDIA A100/H100 80GB no modo de 8 bits.
  • 4 x GPUs NVIDIA A100/H100 80GB no modo de 4 bits.

Está com dificuldades para implementar o Llama 3.1 405B? Sinta-se à vontade para contatar o autor.

Cálculos

Vamos analisar os cálculos para os números acima. O modelo tem 405 bilhões de parâmetros. No entanto, você pode escolher carregar cada parâmetro em:

  • 32 bits (4 bytes)
  • 16 bits (2 bytes)
  • 8 bits (1 byte)
  • 4 bits

A quantidade de memória de GPU necessária depende da quantidade de bits que você escolher para carregar o modelo.

Modo de 32 bits

Calcule a memória de GPU necessária ao carregar cada parâmetro em 32 bits.

A fórmula que usamos é:

\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/32} \times 1.2/{10^{9}} = 1944 \text{ GB} \]

O fator 1.2 é para contabilizar 20% de sobrecarga.

Modo de 16 bits

Calcule a memória de GPU necessária ao carregar cada parâmetro em 16 bits.

A fórmula que usamos é:

\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/16} \times 1.2/{10^{9}} = 972 \text{ GB} \]

Modo de 8 bits

Calcule a memória de GPU necessária ao carregar cada parâmetro em 8 bits.

A fórmula que usamos é:

\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/8} \times 1.2/{10^{9}} = 486 \text{ GB} \]

Modo de 4 bits

Calcule a memória de GPU necessária ao carregar cada parâmetro em 4 bits.

A fórmula que usamos é:

\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/4} \times 1.2/{10^{9}} = 243 \text{ GB} \]

Post original em Substratus.