Spaces:

akra35567
/

akira

Running

App Files Files Community

akra35567 commited on Nov 10

Commit

6921978

1 Parent(s): 179baf7

Update main.py

Browse files

Files changed (1) hide show

main.py +16 -6

main.py CHANGED Viewed

@@ -16,9 +16,10 @@ logger = logging.getLogger(__name__)
 warnings.filterwarnings("ignore")
 # --- Configuração do Modelo e Diretórios ---
-# Usamos o modelo HF nativo, mas mantemos o ID para referência
-HF_MODEL_ID = "microsoft/Phi-3-mini-4k-instruct"
 LOCAL_MODEL_DIR = "./models"
 API_TOKEN = os.environ.get("HF_TOKEN")
 # Variáveis globais para o LLM e a Aplicação Flask
@@ -83,6 +84,7 @@ def initialize_llm():
     except Exception as e:
         logger.error(f"FATAL: Erro na inicialização do LLM (Transformers): {e}", exc_info=True)
         sys.exit(f"Falha Crítica ao iniciar: Erro ao carregar o LLM. Detalhe: {e}")
@@ -91,6 +93,7 @@ def initialize_llm():
 @app.route("/")
 def index():
     """Rota de bem-vindo."""
     return "AKIRA IA ONLINE (Transformers)! Bué fixe, kota! Vamos kandandar!", 200
 @app.route("/health")
@@ -116,20 +119,25 @@ def generate():
             return jsonify({"error": "O campo 'prompt' é obrigatório."}), 400
         model, tokenizer = llm
         device = model.device
         # 1. Cria a lista de mensagens no formato de chat
         messages = [
             {"role": "system", "content": "Você é um assistente de IA prestativo e criativo. Responda em português de Portugal."},
             {"role": "user", "content": prompt}
         ]
         # 2. Aplica o template de chat do Phi-3 e tokeniza
         formatted_prompt = tokenizer.apply_chat_template(
             messages,
             tokenize=False,
-            add_generation_prompt=True
         )
         input_ids = tokenizer.encode(formatted_prompt, return_tensors="pt").to(device)
         # 3. Geração de Texto
@@ -138,9 +146,10 @@ def generate():
                 input_ids,
                 max_new_tokens=int(max_tokens),
                 temperature=float(temperature),
-                do_sample=True, # Necessário para usar temperature/top_p
                 pad_token_id=tokenizer.eos_token_id,
-                # Outras configurações opcionais
             )
         # 4. Decodifica a resposta (ignorando o prompt de entrada)
@@ -163,4 +172,5 @@ if __name__ == "__main__":
     # Inicia o servidor Flask na porta padrão do Hugging Face Spaces (7860)
     logger.info("SERVIDOR FLASK PRONTO. RODANDO EM http://0.0.0.0:7860")
-    app.run(host="0.0.0.0", port=7860, debug=False, threaded=False) # threaded=False é geralmente mais estável em Flask

 warnings.filterwarnings("ignore")
 # --- Configuração do Modelo e Diretórios ---
+# ID do modelo Hugging Face que será carregado
+HF_MODEL_ID = "microsoft/Phi-3-mini-4k-instruct"
 LOCAL_MODEL_DIR = "./models"
+# O token é opcional, mas útil se o modelo for privado
 API_TOKEN = os.environ.get("HF_TOKEN")
 # Variáveis globais para o LLM e a Aplicação Flask
     except Exception as e:
         logger.error(f"FATAL: Erro na inicialização do LLM (Transformers): {e}", exc_info=True)
+        # O sys.exit é crucial em ambientes de contêiner para sinalizar falha
         sys.exit(f"Falha Crítica ao iniciar: Erro ao carregar o LLM. Detalhe: {e}")
 @app.route("/")
 def index():
     """Rota de bem-vindo."""
+    # Mensagem de bem-vindo em Português de Portugal (Português Europeu)
     return "AKIRA IA ONLINE (Transformers)! Bué fixe, kota! Vamos kandandar!", 200
 @app.route("/health")
             return jsonify({"error": "O campo 'prompt' é obrigatório."}), 400
         model, tokenizer = llm
+        # Verifica se o modelo está no dispositivo correto (importante para evitar erros)
         device = model.device
         # 1. Cria a lista de mensagens no formato de chat
+        # Definindo a persona e o idioma de resposta (Português de Portugal)
         messages = [
             {"role": "system", "content": "Você é um assistente de IA prestativo e criativo. Responda em português de Portugal."},
             {"role": "user", "content": prompt}
         ]
         # 2. Aplica o template de chat do Phi-3 e tokeniza
+        # O template garante que o modelo entenda a estrutura da conversa
         formatted_prompt = tokenizer.apply_chat_template(
             messages,
             tokenize=False,
+            add_generation_prompt=True # Adiciona o token final para iniciar a resposta do assistente
         )
+        # Tokeniza e move para o dispositivo onde o modelo está
         input_ids = tokenizer.encode(formatted_prompt, return_tensors="pt").to(device)
         # 3. Geração de Texto
                 input_ids,
                 max_new_tokens=int(max_tokens),
                 temperature=float(temperature),
+                do_sample=True, # Permite amostragem (importante para temperatura > 0)
                 pad_token_id=tokenizer.eos_token_id,
+                # Usa o token de fim de sequência para parar a geração
+                eos_token_id=tokenizer.eos_token_id
             )
         # 4. Decodifica a resposta (ignorando o prompt de entrada)
     # Inicia o servidor Flask na porta padrão do Hugging Face Spaces (7860)
     logger.info("SERVIDOR FLASK PRONTO. RODANDO EM http://0.0.0.0:7860")
+    # 'threaded=False' é geralmente recomendado para evitar problemas de concorrência com PyTorch
+    app.run(host="0.0.0.0", port=7860, debug=False, threaded=False)