Use GitHub orpheus-tts (supports max_model_len) to fix OOM on Jetson

2026-01-11 17:39:55 -06:00
parent 86cf77d2d9
commit 0e43b76204
3 changed files with 11 additions and 6 deletions
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -36,11 +36,14 @@ services:
    environment:
      - ORPHEUS_MODEL=canopylabs/orpheus-tts-0.1-finetune-prod
      - DEFAULT_VOICE=tara
-      - MAX_MODEL_LEN=2048
+      - MAX_MODEL_LEN=1024
      - CACHE_ENABLED=true
      - RETENTION_DAYS=10
      - HF_TOKEN=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
      - HUGGING_FACE_HUB_TOKEN=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
+      # vLLM memory optimization for Jetson
+      - VLLM_ATTENTION_BACKEND=FLASH_ATTN
+      - CUDA_VISIBLE_DEVICES=0
    
    # Resource limits (adjust based on your Orin config)
    deploy: