Smart Turn

Vision Agents requires a Stream account for real-time transport. Most providers offer free tiers to get started.

Quick Start

from vision_agents.core import Agent, User
from vision_agents.plugins import smart_turn, gemini, deepgram, elevenlabs, getstream

agent = Agent(
    edge=getstream.Edge(),
    agent_user=User(name="Assistant", id="agent"),
    instructions="You are a helpful assistant.",
    llm=gemini.LLM("gemini-3-flash-preview"),
    stt=deepgram.STT(),
    tts=elevenlabs.TTS(),
    turn_detection=smart_turn.TurnDetection(),
)

Models download automatically on first use.

Name	Type	Default	Description
`buffer_in_seconds`	`float`	`2.0`	Audio buffer duration
`confidence_threshold`	`float`	`0.5`	Turn completion threshold (0-1)
`sample_rate`	`int`	`16000`	Audio sample rate

Name

Type

Default

Description

buffer_in_seconds

float

2.0

Audio buffer duration

confidence_threshold

float

0.5

Turn completion threshold (0-1)

sample_rate

int

16000

Audio sample rate

Turn Signals

from vision_agents.core.turn_detection import TurnStarted, TurnEnded
from vision_agents.plugins import smart_turn

turn_detection = smart_turn.TurnDetection()

async for signal in turn_detection.output:
    if isinstance(signal, TurnStarted):
        print(f"User started speaking: {signal.participant.user_id}")
    elif isinstance(signal, TurnEnded):
        print(f"User finished speaking: confidence={signal.confidence}")

Installation

Quick Start

Parameters

Turn Signals

Next Steps

Build a Voice Agent

Build a Video Agent

​Installation

​Quick Start

​Parameters

​Turn Signals

​Next Steps

Build a Voice Agent

Build a Video Agent

Installation

Quick Start

Parameters

Turn Signals

Next Steps