Spaces:

mycompanyajt
/

inference

Running

App Files Files Community

nurulajt commited on 18 days ago

Commit

31f5cc4

verified ·

1 Parent(s): fd3e04f

Update api.py

Browse files

Files changed (1) hide show

api.py +143 -17

api.py CHANGED Viewed

@@ -32,11 +32,22 @@ app.add_middleware(
 MODELS = {}
 VOYAGE_API_KEY = os.environ.get('VOYAGE_API_KEY', '')
 API_KEY = os.environ.get('API_KEY', '')
 REQUIRE_API_KEY = os.environ.get('REQUIRE_API_KEY', 'false').lower() == 'true'
 security = HTTPBearer(auto_error=False)
 voyage_client = None
 logger.info(f"API Key authentication: {'ENABLED' if REQUIRE_API_KEY else 'DISABLED'}")
 if API_KEY:
@@ -54,25 +65,74 @@ if VOYAGE_API_KEY:
     except Exception as e:
         logger.warning(f"⚠️  Voyage AI initialization failed: {e}")
 def load_models():
-    """Load embedding models on startup"""
     try:
         logger.info("Loading JobBERT-v2...")
-        MODELS['jobbertv2'] = SentenceTransformer('TechWolf/JobBERT-v2')
         logger.info("✓ JobBERT-v2 loaded")
         logger.info("Loading JobBERT-v3...")
         MODELS['jobbertv3'] = SentenceTransformer('TechWolf/JobBERT-v3')
         logger.info("✓ JobBERT-v3 loaded")
         logger.info("Loading Jina AI embeddings-v3...")
         MODELS['jina'] = SentenceTransformer('jinaai/jina-embeddings-v3', trust_remote_code=True)
         logger.info("✓ Jina AI v3 loaded")
-        logger.info("All models loaded successfully!")
     except Exception as e:
-        logger.error(f"Error loading models: {e}")
-        raise
 async def verify_api_key(credentials: Optional[HTTPAuthorizationCredentials] = Security(security)):
     """Verify API key from Authorization header"""
@@ -105,6 +165,46 @@ def estimate_token_count(texts: List[str]) -> int:
     total_chars = sum(len(text) for text in texts)
     return max(1, total_chars // 4)
 @app.on_event("startup")
 async def startup_event():
     load_models()
@@ -166,6 +266,7 @@ class HealthResponse(BaseModel):
     status: str
     models_loaded: List[str]
     voyage_available: bool
     api_key_required: bool
 @app.get("/", response_model=dict)
@@ -191,6 +292,7 @@ async def health():
         "status": "healthy",
         "models_loaded": models_loaded,
         "voyage_available": voyage_client is not None,
         "api_key_required": REQUIRE_API_KEY
     }
@@ -213,6 +315,7 @@ async def create_embeddings_elasticsearch(
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance) - default
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks (via query parameter):**
@@ -220,6 +323,10 @@ async def create_embeddings_elasticsearch(
     - `retrieval.passage`: For documents/passages
     - `text-matching`: For similarity matching (default)
     **Voyage AI Input Types (via query parameter):**
     - `document`: For documents/passages
     - `query`: For search queries
@@ -268,19 +375,23 @@ async def create_embeddings_elasticsearch(
         try:
             selected_model = MODELS[model_name]
-            if model_name == "jina" and task:
                 embeddings = selected_model.encode(
                     texts,
                     task=task,
                     convert_to_numpy=True
                 )
             else:
                 embeddings = selected_model.encode(
                     texts,
                     convert_to_numpy=True
                 )
-            embeddings_list = embeddings.tolist()
             # Calculate token usage
             token_count = estimate_token_count(texts)
@@ -295,7 +406,8 @@ async def create_embeddings_elasticsearch(
             model_display_name = {
                 "jobbertv2": "TechWolf/JobBERT-v2",
                 "jobbertv3": "TechWolf/JobBERT-v3",
-                "jina": "jina-embeddings-v3"
             }.get(model_name, model_name)
             return OpenAIEmbeddingResponse(
@@ -310,7 +422,7 @@ async def create_embeddings_elasticsearch(
     else:
         raise HTTPException(
             status_code=400,
-            detail=f"Invalid model '{model_name}'. Choose from: jobbertv2, jobbertv3, jina, voyage"
         )
 @app.post("/embed/batch", response_model=BatchEmbeddingResponse)
@@ -325,6 +437,7 @@ async def create_embeddings_batch(
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance)
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose, supports task types)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks:**
@@ -370,19 +483,23 @@ async def create_embeddings_batch(
         try:
             selected_model = MODELS[model_name]
-            if model_name == "jina" and request.task:
                 embeddings = selected_model.encode(
                     request.texts,
                     task=request.task,
                     convert_to_numpy=True
                 )
             else:
                 embeddings = selected_model.encode(
                     request.texts,
                     convert_to_numpy=True
                 )
-            embeddings_list = embeddings.tolist()
             dimension = len(embeddings_list[0]) if embeddings_list else 0
             return BatchEmbeddingResponse(
@@ -397,7 +514,7 @@ async def create_embeddings_batch(
     else:
         raise HTTPException(
             status_code=400,
-            detail=f"Invalid model '{model_name}'. Choose from: jobbertv2, jobbertv3, jina, voyage"
         )
 @app.get("/models")
@@ -426,6 +543,15 @@ async def list_models(authenticated: bool = Depends(verify_api_key)):
             "available": "jina" in MODELS,
             "tasks": ["retrieval.query", "retrieval.passage", "text-matching", "classification", "separation"]
         },
         "voyage": {
             "name": "voyage-3",
             "dimension": 1024,

 MODELS = {}
 VOYAGE_API_KEY = os.environ.get('VOYAGE_API_KEY', '')
+FIREWORKS_API_KEY = os.environ.get('FIREWORKS_API_KEY', '')
 API_KEY = os.environ.get('API_KEY', '')
 REQUIRE_API_KEY = os.environ.get('REQUIRE_API_KEY', 'false').lower() == 'true'
+# Set cache directories to writable location (important for Docker/HF Spaces)
+os.environ['TRANSFORMERS_CACHE'] = os.environ.get('TRANSFORMERS_CACHE', '/tmp/transformers_cache')
+os.environ['HF_HOME'] = os.environ.get('HF_HOME', '/tmp/huggingface')
+os.environ['SENTENCE_TRANSFORMERS_HOME'] = os.environ.get('SENTENCE_TRANSFORMERS_HOME', '/tmp/sentence_transformers')
+# Create cache directories if they don't exist
+for cache_dir in [os.environ['TRANSFORMERS_CACHE'], os.environ['HF_HOME'], os.environ['SENTENCE_TRANSFORMERS_HOME']]:
+    os.makedirs(cache_dir, exist_ok=True)
 security = HTTPBearer(auto_error=False)
 voyage_client = None
+fireworks_available = False
 logger.info(f"API Key authentication: {'ENABLED' if REQUIRE_API_KEY else 'DISABLED'}")
 if API_KEY:
     except Exception as e:
         logger.warning(f"⚠️  Voyage AI initialization failed: {e}")
+if FIREWORKS_API_KEY:
+    try:
+        import requests
+        # Test Fireworks AI connection
+        test_response = requests.get(
+            "https://api.fireworks.ai/inference/v1/models",
+            headers={"Authorization": f"Bearer {FIREWORKS_API_KEY}"},
+            timeout=5
+        )
+        if test_response.status_code in [200, 401, 403]:  # 401/403 means auth works, just list might be restricted
+            fireworks_available = True
+            logger.info("✓ Fireworks AI API key configured (Qwen3 available)")
+        else:
+            logger.warning(f"⚠️  Fireworks AI API key validation unclear (status: {test_response.status_code})")
+            # Still mark as available - the embeddings endpoint might work
+            fireworks_available = True
+    except ImportError:
+        logger.warning("⚠️  requests package not installed (needed for Fireworks AI)")
+    except Exception as e:
+        logger.warning(f"⚠️  Fireworks AI validation failed: {e}")
+        # Still mark as available if key is set
+        fireworks_available = True if FIREWORKS_API_KEY else False
 def load_models():
+    """Load embedding models on startup (gracefully handles failures)"""
+    # JobBERT-v2
     try:
         logger.info("Loading JobBERT-v2...")
+        # MODELS['jobbertv2'] = SentenceTransformer('TechWolf/JobBERT-v2')
         logger.info("✓ JobBERT-v2 loaded")
+    except Exception as e:
+        logger.warning(f"⚠️  JobBERT-v2 not loaded: {e}")
+    # JobBERT-v3
+    try:
         logger.info("Loading JobBERT-v3...")
         MODELS['jobbertv3'] = SentenceTransformer('TechWolf/JobBERT-v3')
         logger.info("✓ JobBERT-v3 loaded")
+    except Exception as e:
+        logger.warning(f"⚠️  JobBERT-v3 not loaded: {e}")
+    # Jina AI
+    try:
         logger.info("Loading Jina AI embeddings-v3...")
         MODELS['jina'] = SentenceTransformer('jinaai/jina-embeddings-v3', trust_remote_code=True)
         logger.info("✓ Jina AI v3 loaded")
     except Exception as e:
+        logger.warning(f"⚠️  Jina AI v3 not loaded: {e}")
+    # Qwen3-Embedding-8B via Fireworks AI (API-based, no download needed!)
+    if fireworks_available:
+        MODELS['qwen3'] = 'fireworks'  # Mark as available via Fireworks AI
+        logger.info("✓ Qwen3-Embedding-8B available via Fireworks AI API (MTEB #1, no local model needed)")
+    else:
+        logger.warning("⚠️  Qwen3-Embedding-8B not available")
+        logger.warning("   To enable: Set FIREWORKS_API_KEY environment variable")
+        logger.warning("   Get API key at: https://fireworks.ai")
+        logger.warning("   This avoids 15GB local download!")
+    # Check if at least one model loaded
+    if not MODELS:
+        error_msg = "No embedding models could be loaded! Check logs above for details."
+        logger.error(error_msg)
+        raise RuntimeError(error_msg)
+    logger.info(f"Loaded models: {list(MODELS.keys())}")
+    logger.info("API ready!")
 async def verify_api_key(credentials: Optional[HTTPAuthorizationCredentials] = Security(security)):
     """Verify API key from Authorization header"""
     total_chars = sum(len(text) for text in texts)
     return max(1, total_chars // 4)
+def get_fireworks_embeddings(texts: List[str], task: Optional[str] = None) -> List[List[float]]:
+    """
+    Get embeddings from Fireworks AI Qwen3-Embedding-8B
+    Args:
+        texts: List of texts to embed
+        task: Optional task type ('query' for instruction-aware)
+    Returns:
+        List of embedding vectors (4096-dim each)
+    """
+    import requests
+    import json
+    if not FIREWORKS_API_KEY:
+        raise Exception("FIREWORKS_API_KEY not configured")
+    # Fireworks AI embeddings endpoint
+    response = requests.post(
+        "https://api.fireworks.ai/inference/v1/embeddings",
+        headers={
+            "Accept": "application/json",
+            "Content-Type": "application/json",
+            "Authorization": f"Bearer {FIREWORKS_API_KEY}"
+        },
+        data=json.dumps({
+            "model": "accounts/fireworks/models/qwen3-embedding-8b",
+            "input": texts
+        }),
+        timeout=30
+    )
+    if response.status_code != 200:
+        raise Exception(f"Fireworks AI API error: {response.status_code} - {response.text}")
+    result = response.json()
+    embeddings = [item["embedding"] for item in result["data"]]
+    return embeddings
 @app.on_event("startup")
 async def startup_event():
     load_models()
     status: str
     models_loaded: List[str]
     voyage_available: bool
+    fireworks_available: bool
     api_key_required: bool
 @app.get("/", response_model=dict)
         "status": "healthy",
         "models_loaded": models_loaded,
         "voyage_available": voyage_client is not None,
+        "fireworks_available": fireworks_available,
         "api_key_required": REQUIRE_API_KEY
     }
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance) - default
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose)
+    - `qwen3`: Qwen3-Embedding-8B (4096-dim, MTEB #1, multilingual, 32k context)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks (via query parameter):**
     - `retrieval.passage`: For documents/passages
     - `text-matching`: For similarity matching (default)
+    **Qwen3 Task (via query parameter):**
+    - `query`: For search queries (uses instruction-aware prompt)
+    - Default: Documents/passages (no instruction)
     **Voyage AI Input Types (via query parameter):**
     - `document`: For documents/passages
     - `query`: For search queries
         try:
             selected_model = MODELS[model_name]
+            # Qwen3 via Fireworks AI API (no local model)
+            if model_name == "qwen3" and selected_model == 'fireworks':
+                embeddings_list = get_fireworks_embeddings(texts, task=task)
+            # Jina AI with task type
+            elif model_name == "jina" and task:
                 embeddings = selected_model.encode(
                     texts,
                     task=task,
                     convert_to_numpy=True
                 )
+                embeddings_list = embeddings.tolist()
             else:
                 embeddings = selected_model.encode(
                     texts,
                     convert_to_numpy=True
                 )
+                embeddings_list = embeddings.tolist()
             # Calculate token usage
             token_count = estimate_token_count(texts)
             model_display_name = {
                 "jobbertv2": "TechWolf/JobBERT-v2",
                 "jobbertv3": "TechWolf/JobBERT-v3",
+                "jina": "jina-embeddings-v3",
+                "qwen3": "Qwen/Qwen3-Embedding-8B"
             }.get(model_name, model_name)
             return OpenAIEmbeddingResponse(
     else:
         raise HTTPException(
             status_code=400,
+            detail=f"Invalid model '{model_name}'. Choose from: jobbertv2, jobbertv3, jina, qwen3, voyage"
         )
 @app.post("/embed/batch", response_model=BatchEmbeddingResponse)
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance)
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose, supports task types)
+    - `qwen3`: Qwen3-Embedding-8B (4096-dim, MTEB #1, multilingual, 32k context)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks:**
         try:
             selected_model = MODELS[model_name]
+            # Qwen3 via Fireworks AI API (no local model)
+            if model_name == "qwen3" and selected_model == 'fireworks':
+                embeddings_list = get_fireworks_embeddings(request.texts, task=request.task)
+            # Jina AI with task type
+            elif model_name == "jina" and request.task:
                 embeddings = selected_model.encode(
                     request.texts,
                     task=request.task,
                     convert_to_numpy=True
                 )
+                embeddings_list = embeddings.tolist()
             else:
                 embeddings = selected_model.encode(
                     request.texts,
                     convert_to_numpy=True
                 )
+                embeddings_list = embeddings.tolist()
             dimension = len(embeddings_list[0]) if embeddings_list else 0
             return BatchEmbeddingResponse(
     else:
         raise HTTPException(
             status_code=400,
+            detail=f"Invalid model '{model_name}'. Choose from: jobbertv2, jobbertv3, jina, qwen3, voyage"
         )
 @app.get("/models")
             "available": "jina" in MODELS,
             "tasks": ["retrieval.query", "retrieval.passage", "text-matching", "classification", "separation"]
         },
+        "qwen3": {
+            "name": "Qwen/Qwen3-Embedding-8B",
+            "dimension": 4096,
+            "description": "🏆 MTEB #1 multilingual model (100+ languages, 32k context, instruction-aware)",
+            "max_tokens": 32768,
+            "available": "qwen3" in MODELS,
+            "tasks": ["query", "document"],
+            "features": ["multilingual", "instruction-aware", "long-context"]
+        },
         "voyage": {
             "name": "voyage-3",
             "dimension": 1024,