inference-optimization
/

Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

compressed-tensors

Model card Files Files and versions

Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

16.1 GB

1 contributor

History: 6 commits

krishnateja95's picture

Update README.md

a5ead57 verified 4 days ago