orpheus-tts/docker-compose.yml

# OrpheusTail - Orpheus TTS Service
#
# Usage:
#   docker-compose up -d
#   docker-compose logs -f
#
# Test:
#   curl http://localhost:8766/health
#   curl http://localhost:8766/voices
#   curl -X POST http://localhost:8766/tts/submit \
#     -H "Content-Type: application/json" \
#     -d '{"text": "Hello! <laugh> This is Vixy speaking.", "voice": "tara"}'

version: '3.8'

services:
  orpheus-tts:
    build: .
    container_name: orpheus-tts
    restart: unless-stopped

    # GPU access for NVIDIA Jetson
    runtime: nvidia

    ports:
      - "8766:8766"

    volumes:
      # Persist cache between restarts
      - orpheus-cache:/app/cache
      # Persist generated audio
      - orpheus-output:/app/output
      # Custom voice references
      - orpheus-voices:/app/voices

    environment:
      - ORPHEUS_MODEL=canopylabs/orpheus-tts-0.1-finetune-prod
      - DEFAULT_VOICE=tara
      - MAX_MODEL_LEN=8192
      - CACHE_ENABLED=true
      - RETENTION_DAYS=10
      - HF_TOKEN=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
      - HUGGING_FACE_HUB_TOKEN=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
      # vLLM memory optimization for Jetson
      - VLLM_ATTENTION_BACKEND=FLASH_ATTN
      - CUDA_VISIBLE_DEVICES=0

    # Resource limits (adjust based on your Orin config)
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

volumes:
  orpheus-cache:
  orpheus-output:
  orpheus-voices: