Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

krishnateja95 updated a model 8 minutes ago

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

krishnateja95 updated a model about 20 hours ago

inference-optimization/granite-4.0-h-tiny-NVFP4

krishnateja95 updated a model about 22 hours ago

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

View all activity

inference-optimization 's models 53

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated 8 minutes ago • 19

inference-optimization/granite-4.0-h-tiny-NVFP4

Updated about 20 hours ago • 5

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated about 22 hours ago • 20

inference-optimization/Ministral-3-14B-Instruct-2512-BF16-FP8-DYNAMIC-BASE

14B • Updated 1 day ago • 93

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w8a8

31B • Updated 2 days ago • 20

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w8a8

31B • Updated 2 days ago • 24

inference-optimization/Qwen3-4B-Thinking-2507.w8a8

4B • Updated 2 days ago • 38

inference-optimization/Qwen3-4B-Instruct-2507.w8a8

4B • Updated 2 days ago • 28

inference-optimization/Ministral-3-14B-Instruct-2512-FP8

14B • Updated 4 days ago • 55

inference-optimization/granite-4.0-h-small-quantized.w8a8

Updated 4 days ago

inference-optimization/granite-4.0-h-small-NVFP4

Updated 4 days ago

inference-optimization/granite-4.0-h-small-quantized.w4a16

Updated 4 days ago

inference-optimization/granite-4.0-h-small-FP8-dynamic

Updated 4 days ago

inference-optimization/granite-4.0-h-small-FP8-block

Updated 4 days ago

inference-optimization/granite-4.0-h-tiny-FP8-dynamic

Updated 4 days ago

inference-optimization/granite-4.0-h-tiny-FP8-block

Updated 4 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 8 days ago • 155

inference-optimization/GLM-4.6-quantized.w4a16

48B • Updated 10 days ago • 53

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 14 days ago • 8

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 14 days ago • 5

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 14 days ago • 12

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated 16 days ago • 41

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-dynamic

32B • Updated 17 days ago • 196

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w8a8

Updated 30 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-block

Updated Dec 22, 2025

inference-optimization/GLM-4.6-quantized.w8a8

353B • Updated Dec 21, 2025 • 19

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

Text Generation • 5B • Updated Dec 19, 2025 • 3

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 6

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 48

inference-optimization/GLM-4.6-FP8-dynamic

353B • Updated Dec 12, 2025 • 19