Сравнение NVIDIA H100 и AMD MI300X для RAG в 2026
• DevOps/AI Engineer
#GPU
#AMD
#NVIDIA
#RAG
#Benchmark
Технические характеристики
| Параметр | NVIDIA H100 80GB | AMD MI300X 192GB |
|---|---|---|
| VRAM | 80 GB HBM3 | 192 GB HBM3 |
| Пропускная способность | 3.35 TB/s | 5.2 TB/s |
| FP16 TFLOPS | 1979 | 1300 (оценка) |
| Цена (рынок 2026) | ~$30 000 | ~$20 000 |
| Доступность | Дефицит, лизинг | Растёт |
Для RAG (Retrieval-Augmented Generation)
RAG требует:
- Большой context length (документы, чанки)
- Высокий batch size (много параллельных запросов с разными документами)
MI300X даёт возможность загрузить модель Llama 3 70B + 32K контекст в один GPU (без тензорного параллелизма). Это упрощает инференс-сервер.
H100 — быстрее на малых батчах (до 4), но требует 2 GPU для большого контекста.
Софт и экосистема
- NVIDIA: vLLM, TensorRT-LLM, Triton — работают “из коробки”.
- AMD: ROCm + vLLM (экспериментально), поддержка HuggingFace accelerate. Многие оптимизации под H100 не переносятся.
Вердикт
- H100 — если важна каждая миллисекунда и бюджет позволяет. Лидер по latency.
- MI300X — если важна стоимость за гигабайт VRAM и вы готовы потратить 2-3 недели на калибровку.
Для RAG с документами на 16K+ токенов MI300X выглядит интереснее.