Quais GPUs podem rodar Llama 3.1 405B?
Llama 3.1 405B é um modelo de linguagem grande que requer uma quantidade significativa de memória de GPU para funcionar. Neste post, discutiremos os requisitos de GPU para rodar o Llama 3.1 405B.
Artigo original por Sam Stoelinga
Llama 3.1 405B é um modelo de linguagem grande que requer uma quantidade significativa de memória de GPU para funcionar. Neste post, discutiremos os requisitos de GPU para rodar o Llama 3.1 405B.
Para aprender o básico sobre como calcular a memória da GPU, confira o post sobre cálculo de requisitos de memória de GPU.
Resumo dos requisitos estimados de memória de GPU para Llama 3.1 405B:
- Llama 3.1 405B requer 1944 GB de memória de GPU no modo de 32 bits.
- Llama 3.1 405B requer 972 GB de memória de GPU no modo de 16 bits.
- Llama 3.1 405B requer 486 GB de memória de GPU no modo de 8 bits.
- Llama 3.1 405B requer 243 GB de memória de GPU no modo de 4 bits.
Exemplos de GPUs que podem rodar o Llama 3.1 405B:
- 8 x GPUs AMD MI300 192GB no modo de 16 bits.
- 8 x GPUs NVIDIA A100/H100 80GB no modo de 8 bits.
- 4 x GPUs NVIDIA A100/H100 80GB no modo de 4 bits.
Está com dificuldades para implementar o Llama 3.1 405B? Sinta-se à vontade para contatar o autor.
Cálculos
Vamos analisar os cálculos para os números acima. O modelo tem 405 bilhões de parâmetros. No entanto, você pode escolher carregar cada parâmetro em:
- 32 bits (4 bytes)
- 16 bits (2 bytes)
- 8 bits (1 byte)
- 4 bits
A quantidade de memória de GPU necessária depende da quantidade de bits que você escolher para carregar o modelo.
Modo de 32 bits
Calcule a memória de GPU necessária ao carregar cada parâmetro em 32 bits.
A fórmula que usamos é:
\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/32} \times 1.2/{10^{9}} = 1944 \text{ GB} \]
O fator 1.2 é para contabilizar 20% de sobrecarga.
Modo de 16 bits
Calcule a memória de GPU necessária ao carregar cada parâmetro em 16 bits.
A fórmula que usamos é:
\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/16} \times 1.2/{10^{9}} = 972 \text{ GB} \]
Modo de 8 bits
Calcule a memória de GPU necessária ao carregar cada parâmetro em 8 bits.
A fórmula que usamos é:
\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/8} \times 1.2/{10^{9}} = 486 \text{ GB} \]
Modo de 4 bits
Calcule a memória de GPU necessária ao carregar cada parâmetro em 4 bits.
A fórmula que usamos é:
\[ M = \frac {405 \times 10^9 \times 4 \text{ bytes }} {32/4} \times 1.2/{10^{9}} = 243 \text{ GB} \]
Post original em Substratus.