OpenAI TTS - Vision Agents

OpenAI provides streaming text-to-speech synthesis.

Vision Agents requires a Stream account for real-time transport. Most providers offer free tiers to get started.

OpenAI also provides Realtime speech-to-speech and a traditional LLM.

Installation

uv add "vision-agents[openai]"

Quick Start

from vision_agents.core import Agent, User
from vision_agents.plugins import openai, deepgram, gemini, getstream

agent = Agent(
    edge=getstream.Edge(),
    agent_user=User(name="Assistant", id="agent"),
    instructions="You are a helpful assistant.",
    llm=gemini.LLM("gemini-3-flash-preview"),
    stt=deepgram.STT(),
    tts=openai.TTS(),
)

Parameters

tts = openai.TTS(model="gpt-4o-mini-tts", voice="alloy")

Name	Type	Default	Description
`model`	`str`	`"gpt-4o-mini-tts"`	TTS model
`voice`	`str`	`"alloy"`	Voice (“alloy”, “echo”, “fable”, “onyx”, “nova”, “shimmer”)

Next Steps

OpenAI LLM

Responses API and ChatCompletions

OpenAI Realtime

Speech-to-speech over WebRTC

Kokoro Pocket TTS

​Installation

​Quick Start

​Parameters

​Next Steps

OpenAI LLM

OpenAI Realtime

Installation

Quick Start

Parameters

Next Steps