AI Foundations
Speech-to-Speech
Speech-to-Speech ist eine KI-Technologie, die gesprochene Sprache direkt in gesprochene Sprache übersetzt, ohne Zwischenschritt über Text. Voice Agents nutzen Speech-to-Speech für natürliche Echtzeit-Telefonate.
Auch bekannt als: S2S, Speech to Speech
Wie Speech-to-Speech funktioniert
Klassische Voice-Pipelines arbeiten in drei Schritten: Speech-to-Text, Sprachmodell, Text-to-Speech. Jeder Schritt addiert Latenz und Informationsverlust. Speech-to-Speech verarbeitet Audio direkt im Modell und gibt direkt Audio zurück, ohne Zwischenstopp.
Vorteile gegenüber klassischen Pipelines
- Latenz unter einer Sekunde, geeignet für natürliche Dialoge
- Tonalität und Pausen bleiben erhalten
- Robust gegenüber Akzenten, Hintergrundgeräuschen, Unterbrechungen
Speech-to-Speech bei LoyJoy
Der LoyJoy Voice Agent nutzt Speech-to-Speech und bringt damit denselben AI Agent, den Kunden aus dem Chat kennen, in den Telefonkanal.