PlayDiffusion

Upload audio to be modified

Input text from ASR

Desired output text

Word times from ASR

Output audio

TTS Input

Voice to use for TTS

Generated Speech

Source Conversion Speech

Target Voice

Converted Speech