# OrpheusTail - Orpheus TTS Service
# 
# Usage:
#   docker-compose up -d
#   docker-compose logs -f
#
# Test:
#   curl http://localhost:8766/health
#   curl http://localhost:8766/voices
#   curl -X POST http://localhost:8766/tts/submit \
#     -H "Content-Type: application/json" \
#     -d '{"text": "Hello! <laugh> This is Vixy speaking.", "voice": "tara"}'

version: '3.8'

services:
  orpheus-tts:
    build: .
    container_name: orpheus-tts
    restart: unless-stopped
    
    # GPU access for NVIDIA Jetson
    runtime: nvidia
    
    ports:
      - "8766:8766"
    
    volumes:
      # Persist cache between restarts
      - orpheus-cache:/app/cache
      # Persist generated audio
      - orpheus-output:/app/output
      # Custom voice references
      - orpheus-voices:/app/voices
    
    environment:
      - ORPHEUS_MODEL=canopylabs/orpheus-tts-0.1-finetune-prod
      - DEFAULT_VOICE=tara
      - MAX_MODEL_LEN=1024
      - CACHE_ENABLED=true
      - RETENTION_DAYS=10
      - HF_TOKEN=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
      - HUGGING_FACE_HUB_TOKEN=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
      # vLLM memory optimization for Jetson
      - VLLM_ATTENTION_BACKEND=FLASH_ATTN
      - CUDA_VISIBLE_DEVICES=0
    
    # Resource limits (adjust based on your Orin config)
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

volumes:
  orpheus-cache:
  orpheus-output:
  orpheus-voices: