language: - en - zh license: mit tags: - sentence-transformers - feature-extraction - sentence-similarity - transformers - onnx - quantized - reranker - bge library_name: onnxruntime pipeline_tag: feature-extraction base_model: BAAI/bge-reranker-v2-m3 model-index: - name: bge-m3-onnx-int8 results: - task: type: information-retrieval name: Information Retrieval metrics: - type: performance_retention value: 98 name: Performance Retention (%) - type: model_size_reduction value: 75 name: Model Size Reduction (%)

BGE-M3 ONNX INT8 Quantized Model

This is an ONNX version of the BAAI/bge-reranker-v2-m3 model, optimized with dynamic INT8 quantization for efficient inference.

✅ Efficient: 75% model size reduction with minimal accuracy loss
✅ Fast Inference: Optimized for CPU and GPU acceleration
✅ Cross-Platform: Compatible with ONNX Runtime on multiple platforms
✅ Production Ready: Suitable for deployment in resource-constrained environments

pip install onnxruntime transformers numpy

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

BAAI/bge-m3

Quantized

(67)

this model