KV Cache Quantization - a inference-optimization Collection

inference-optimization 's Collections

Granite 4 Small and Tiny Quantized Models

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

KV Cache Quantization

updated Dec 4, 2025

Collection on FP8 Quantization of Weights, Activations and KV Cache

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated Dec 10, 2025 • 2
inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Tensor

8B • Updated Dec 4, 2025 • 35
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated Dec 11, 2025 • 1
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

8B • Updated Dec 4, 2025 • 3
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Head

71B • Updated Dec 4, 2025
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Tensor

71B • Updated Dec 4, 2025
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

71B • Updated Dec 4, 2025 • 1
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

71B • Updated Dec 4, 2025 • 3
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Head

33B • Updated Dec 4, 2025 • 3
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Tensor

33B • Updated Dec 4, 2025 • 3
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Head

33B • Updated Dec 4, 2025 • 1
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

33B • Updated Dec 4, 2025 • 1