Granite 4 Small and Tiny Quantized Models - a inference-optimization Collection

inference-optimization 's Collections

Granite 4 Small and Tiny Quantized Models

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

Granite 4 Small and Tiny Quantized Models

updated 6 days ago

FP8-block, FP8-dynamic, NVFP4, w4a16, w8a8 quantized models of ibm-granite/granite-4.0-h-small and ibm-granite/granite-4.0-h-tiny models

inference-optimization/granite-4.0-h-tiny-FP8-block

Text Generation • 7B • Updated 1 day ago • 57
inference-optimization/granite-4.0-h-tiny-FP8-dynamic

Text Generation • 7B • Updated 1 day ago • 57
inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated 3 days ago • 37
inference-optimization/granite-4.0-h-tiny-NVFP4

Updated 3 days ago • 8
inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated 1 day ago • 46
inference-optimization/granite-4.0-h-small-FP8-block

Updated 6 days ago
inference-optimization/granite-4.0-h-small-FP8-dynamic

Updated 6 days ago
inference-optimization/granite-4.0-h-small-quantized.w4a16

Updated 6 days ago
inference-optimization/granite-4.0-h-small-NVFP4

Updated 6 days ago
inference-optimization/granite-4.0-h-small-quantized.w8a8

Updated 6 days ago