Voice-KI-Glossar.Die wichtigsten Fachbegriffe von A bis Z.
Von AI Agent über Barge-in, Conversational AI, LLM, SIP-Trunk bis Whitelabel: Über 40 Fachbegriffe aus der KI-Telefonassistent-, Voicebot- und Voice-KI-Plattform-Welt – sachlich erklärt für Mittelstand, Konzerne und Agenturen im DACH-Raum 2026.
Voice-KI-Begriffe im DACH-Raum kuratiert erklärt
Die Voice-KI-Branche hat 2026 eine eigene Begriffswelt entwickelt, die für Einsteiger nicht immer selbsterklärend ist. Begriffe wie Speech-to-Text, Function Calling, RAG, Turn-Taking oder Schrems II tauchen in Anbieter-Gesprächen, Compliance-Diskussionen und technischen Dokumentationen regelmäßig auf – ohne dass immer klar ist, was genau gemeint ist.
Dieses Voice-KI-Glossar fasst die wichtigsten Fachbegriffe aus dem KI-Telefonassistent- und Voicebot-Umfeld zusammen. Es richtet sich an Unternehmen, die Voice-KI evaluieren, an Agenturen und Reseller, die mit Voice-KI arbeiten, sowie an Berater und Entscheider, die in Voice-KI-Projekte involviert sind.
Die rund 40 Begriffe decken fünf Themenfelder ab: Tech-Begriffe (LLM, STT, TTS, RAG), Telefonie-Begriffe (PBX, SIP-Trunk, Telefonanlage), Compliance (DSGVO, EU AI Act, AVV, TOMs), Use-Case-Begriffe (KI-Empfang, Lead-Qualifizierung) und Markt-Begriffe (Voicebot, Voice-Agent, Whitelabel). Die Begriffe sind branchenübergreifend relevant – ob für KI-Telefonassistenten in Anwaltskanzleien, Voicebots in Hotels und Versicherungen, KI-Anrufannahme in Handwerksbetrieben oder Voice-KI-Plattformen für Steuerberater und Immobilienverwaltungen. Jeder Eintrag enthält eine sachliche Definition, häufige Synonyme und einen Verweis auf weiterführende Beiträge. Das Glossar wird 2026 laufend ergänzt.
A
AI Agent
Ein AI Agent ist ein KI-System, das autonom mehrere Aufgaben ausführt – es plant, entscheidet und nutzt verschiedene Tools wie APIs, Datenbanken oder externe Services, um ein Ziel zu erreichen. Im Voice-KI-Kontext bezeichnet ein Voice-Agent oder AI Voice Agent einen Telefonassistenten, der nicht nur Dialoge führt, sondern aktiv Aktionen ausführt: Termine buchen, CRM-Einträge erstellen, E-Mails versenden.
Der Begriff hat ab 2024/2025 stark an Bedeutung gewonnen.
Mehr in: Was ist Voice-KI?ASR (Automatic Speech Recognition)
Automatic Speech Recognition bezeichnet die automatische Umwandlung gesprochener Sprache in Text. ASR ist technisch identisch mit Speech-to-Text (STT) – beide Begriffe werden synonym verwendet, wobei ASR eher im akademischen und Enterprise-Kontext und STT im Developer- und SaaS-Kontext üblich ist.
Moderne ASR-Engines wie Whisper, Deepgram oder Gladia erreichen sehr hohe Erkennungsraten auch bei Dialekten und Akzenten.
Mehr in: Voicebot-TechnologieAVV (Auftragsverarbeitung)
Auftragsverarbeitung nach Artikel 28 DSGVO regelt, wenn ein Anbieter personenbezogene Daten im Auftrag eines anderen Unternehmens verarbeitet. Voice-KI-Plattform-Anbieter sind in der Regel Auftragsverarbeiter ihrer Kunden – ein AVV (Auftragsverarbeitungsvertrag) ist gesetzlich vorgeschrieben und regelt Verantwortlichkeiten, technische Schutzmaßnahmen und Datenschutzpflichten.
Mehr in: DSGVO und EU AI ActB
Barge-in
Barge-in bezeichnet die Fähigkeit eines KI-Telefonassistenten, sich vom Anrufer unterbrechen zu lassen. Spricht der Anrufer, während die KI antwortet, stoppt die KI ihre Antwort und hört zu. Ohne Barge-in wirken Voicebots steif und frustrierend – mit Barge-in entsteht der Eindruck eines natürlichen Gesprächs. Technisch erfordert Barge-in eine Echtzeit-Audio-Analyse und Voice-Activity-Detection.
Mehr in: Voicebot-TechnologieBranchenplattform-Lizenz
Eine Branchenplattform-Lizenz ist ein Geschäftsmodell, bei dem ein Lizenznehmer eine vorkonfigurierte Voice-KI-Lösung für eine bestimmte Branche exklusiv oder semi-exklusiv vertreibt – inklusive Branchen-Templates, fertiger Use-Cases und gemeinsamer Vermarktung. Anders als beim klassischen Whitelabel liegt der Fokus auf einer Branchen-Vertikalen statt auf einem reinen Reseller-Modell.
Mehr in: Branchenplattform-LizenzC
Conversational AI
Conversational AI ist der Enterprise-Standardbegriff für KI-Systeme, die natürliche Gespräche mit Menschen führen – sei es per Text (Chatbot) oder Sprache (Voicebot). Conversational Voice AI ist die Voice-Variante. Anbieter wie Cognigy, Parloa oder Onlim positionieren sich primär als Conversational-AI-Plattformen. Der Begriff betont die Multi-Kanal-Fähigkeit.
Mehr in: Was ist Voice-KI?D
Dialekt-Erkennung
Dialekt-Erkennung beschreibt die Fähigkeit einer Speech-to-Text-Engine, regionale Sprachvarianten korrekt in Text umzuwandeln. Für den DACH-Raum besonders relevant: Bayrisch, Schwäbisch, Schweizerdeutsch, österreichisches Deutsch.
Moderne STT-Modelle wie Whisper sind mit DACH-Trainingsdaten ausgestattet und erkennen gemäßigte Dialekte zuverlässig; sehr starke Dialekte wie Plattdeutsch oder Berndeutsch können je nach Modell-Tuning Schwierigkeiten bereiten.
Mehr in: Voicebot-TechnologieDSGVO
Die Datenschutz-Grundverordnung (DSGVO) regelt seit Mai 2018 EU-weit den Schutz personenbezogener Daten. Für Voice-KI-Anwendungen relevant sind insbesondere Auftragsverarbeitung (Art. 28), Standardvertragsklauseln (Art. 46) sowie Informationspflichten gegenüber Anrufern.
Voice-KI-Anbieter mit EU-Hosting sind ohne zusätzlichen Compliance-Aufwand DSGVO-konform einsetzbar; US-Anbieter erfordern Standardvertragsklauseln und Schrems-II-Risikoabwägungen.
Mehr in: DSGVO und EU AI ActDPIA (Datenschutz-Folgenabschätzung)
Die Datenschutz-Folgenabschätzung nach Artikel 35 DSGVO (englisch: Data Protection Impact Assessment, DPIA) ist verpflichtend, wenn eine Verarbeitung personenbezogener Daten voraussichtlich ein hohes Risiko für die Betroffenen birgt. Bei Voice-KI-Einsätzen in regulierten Branchen wie Heilberufen, Versicherungen oder bei umfangreicher Profilbildung kann eine DPIA erforderlich sein.
Mehr in: DSGVO und EU AI ActE
EU AI Act
Die EU-Verordnung über Künstliche Intelligenz wurde 2024 verabschiedet und tritt ab 2025/2026 schrittweise in Kraft. Sie kategorisiert KI-Systeme nach Risiko: minimales Risiko, begrenztes Risiko, hohes Risiko und unzulässiges Risiko.
Voice-KI-Systeme können je nach Use-Case in unterschiedliche Kategorien fallen – etwa bei biometrischer Stimmerkennung oder kritischen Infrastruktur-Anwendungen. Anbieter müssen Transparenz-, Dokumentations- und ggf. Konformitätsbewertungs-Pflichten erfüllen.
Mehr in: DSGVO und EU AI ActF
Flow-Builder
Ein Flow-Builder ist ein visuelles No-Code-Werkzeug zur Konfiguration von Voicebot-Dialogen. Statt zu programmieren, werden Gesprächspfade als Flussdiagramm aufgebaut – mit Knoten für KI-Antworten, Entscheidungslogik, Datenabfragen und Integrationen. Die meisten Voice-KI-Plattformen wie Voicery, Synthflow oder Voiceflow bieten Flow-Builder als zentrales Konfigurations-Interface.
Mehr in: Voicebot selbst bauenFunction Calling
Function Calling ist eine Fähigkeit moderner Large Language Models, während eines Dialogs externe Funktionen oder APIs aufzurufen. Beispiel: Der Voicebot erkennt "Ich möchte einen Termin", ruft die Kalender-API auf, prüft Verfügbarkeit und bestätigt den Termin – alles während des Gesprächs.
Function Calling ermöglicht es, dass KI-Telefonassistenten echte Aktionen ausführen, nicht nur Auskünfte geben.
Mehr in: Voicebot-TechnologieG
Gladia
Gladia ist eine europäische Speech-to-Text-API mit Fokus auf niedrige Latenz, hohe Genauigkeit in europäischen Sprachen und EU-Hosting. Gladia wird in DACH-Voice-KI-Plattformen häufig als STT-Komponente eingesetzt, wenn EU-Hosting und DSGVO-Konformität entscheidend sind und Whisper (OpenAI) aus Drittland-Gründen ausscheidet.
Mehr in: Voicebot-TechnologieH
Hallucination
Halluzination bezeichnet das Phänomen, dass ein Large Language Model Inhalte erfindet, die nicht in den Trainingsdaten enthalten sind oder dem aktuellen Kontext widersprechen. Bei Voice-KI besonders kritisch, weil falsche Auskünfte (etwa falsche Öffnungszeiten oder falsche Preise) den Anrufer in die Irre führen.
Gegenmaßnahmen sind RAG (Retrieval-Augmented Generation), strenge System-Prompts und Validierungs-Schritte.
Mehr in: Voicebot-TechnologieHochrisiko-System (EU AI Act)
Hochrisiko-KI-Systeme im Sinne des EU AI Act sind KI-Anwendungen in sensiblen Bereichen wie kritischer Infrastruktur, Bildung, Beschäftigung, Strafverfolgung oder essentiellen privaten und öffentlichen Dienstleistungen. Sie unterliegen strengen Pflichten zu Risikomanagement, Datenqualität, Dokumentation, Transparenz, menschlicher Aufsicht und Konformitätsbewertung. Voice-KI-Anwendungen können je nach Einsatzkontext in die Hochrisiko-Kategorie fallen.
Mehr in: DSGVO und EU AI ActI
IVR (Interactive Voice Response)
Interactive Voice Response sind die klassischen "Drücken Sie die 1 für..."-Telefonmenüs, die seit den 1990er Jahren in Callcentern eingesetzt werden. IVR-Systeme funktionieren über DTMF-Töne (Tastendrucke) oder sehr begrenzte Schlüsselwort-Erkennung – sie sind keine echte KI, sondern starre Entscheidungsbäume. Moderne KI-Telefonassistenten ersetzen klassische IVR-Systeme zunehmend.
Mehr in: Was ist Voice-KI?K
KI-Anrufannahme
KI-Anrufannahme beschreibt den Use-Case, dass eingehende Anrufe automatisiert von einer Voice-KI entgegengenommen werden. Die KI begrüßt den Anrufer, qualifiziert das Anliegen und leitet entweder weiter oder beantwortet die Anfrage selbst.
KI-Anrufannahme ist einer der häufigsten Voice-KI-Use-Cases im Mittelstand, besonders außerhalb der regulären Geschäftszeiten – verbreitet bei Anwaltskanzleien, Hotels, Versicherungen, Handwerksbetrieben, Steuerberatern und Hausverwaltungen.
Mehr in: Voicebot-AnwendungsfälleKI-Empfang
KI-Empfang – auch virtuelle Rezeption oder digitale Empfangsdame genannt – ist ein KI-Telefonassistent, der eingehende Anrufe rund um die Uhr entgegennimmt, qualifiziert und an die zuständige Stelle weiterleitet. Im Gegensatz zu klassischen Sprachdialogsystemen versteht ein KI-Empfang frei formulierte Anfragen, kann Termine vereinbaren und FAQs direkt beantworten.
KI-Empfangslösungen sind besonders verbreitet in Hotels, Anwaltskanzleien, Arztpraxen und mittelständischen Dienstleistungsbetrieben.
Mehr in: Was ist Voice-KI?KI-Telefonassistent
Ein KI-Telefonassistent ist eine Software, die Telefonanrufe eigenständig entgegennimmt oder tätigt, gesprochene Anliegen in Echtzeit versteht und in natürlicher Sprache antwortet – ohne menschliches Eingreifen. Synonym werden Voicebot, Voice-Agent und im Englischen AI Receptionist oder AI Phone Agent verwendet.
KI-Telefonassistenten basieren auf einer Pipeline aus Speech-to-Text, Large Language Model und Text-to-Speech.
Mehr in: Was ist Voice-KI?KI-Telefonzentrale
KI-Telefonzentrale bezeichnet eine zentrale KI-gestützte Anrufannahme- und Verteilstelle. Im Gegensatz zu klassischen Vermittlungszentralen versteht eine KI-Telefonzentrale Anliegen frei formuliert, qualifiziert sie inhaltlich und leitet sie an die zuständige Person, Abteilung oder Branchen-Anwendung weiter.
Besonders relevant für Multi-Standort-Unternehmen, Filialisten und mittelständische Dienstleister.
Mehr in: Was ist Voice-KI?Kaskoo
Kaskoo ist eine spezialisierte Voice-KI-Branchenlösung für KFZ-Sachverständige im DACH-Raum. Die Lösung bildet branchenspezifische Workflows wie Schadenaufnahme, Gutachten-Termine und Anfragenmanagement direkt ab und wird als fertige Branchenplattform statt als konfigurierbares Baukasten-System vertrieben.
Mehr in: KFZ-SachverständigeL
Large Language Model (LLM)
Ein Large Language Model ist ein neuronales Netzwerk, das auf riesigen Textmengen trainiert wurde und darauf spezialisiert ist, menschliche Sprache zu verstehen und zu generieren. Bekannte LLMs sind GPT-Varianten von OpenAI, Claude von Anthropic, Gemini von Google sowie europäische Modelle wie Mistral.
In Voice-KI-Pipelines übernimmt das LLM die zentrale Aufgabe des Verstehens und der Antwort-Generierung.
Mehr in: Voicebot-TechnologieLatenz
Latenz bezeichnet im Voice-KI-Kontext die Reaktionszeit der KI – also die Zeit zwischen dem Ende der Anrufer-Aussage und dem Beginn der KI-Antwort. Bei guten Voice-KI-Plattformen liegt die Latenz unter 800 Millisekunden, bei Best-in-Class-Anbietern wie Retell sogar unter 600 Millisekunden. Höhere Latenz wird vom Anrufer als unangenehme Verzögerung wahrgenommen.
Mehr in: Voicebot-TechnologieLead-Qualifizierung
Lead-Qualifizierung ist ein Voice-KI-Use-Case, bei dem eingehende Anfragen in einem strukturierten Gespräch qualifiziert werden – Branche, Unternehmensgröße, Budget, Zeitrahmen, Anforderungen. Qualifizierte Leads werden mit Gesprächs-Transkript an den passenden Vertriebsmitarbeiter weitergeleitet.
Lead-Qualifizierung durch Voice-KI spart Sales-Zeit und erhöht die Lead-Qualität. Voice-KI-SaaS-Plattformen wie Voicery oder Synthflow bieten vorkonfigurierte Lead-Qualifizierungs-Templates für gängige B2B-Branchen.
Mehr in: Voicebot-AnwendungsfälleM
Mehrsprachigkeit
Mehrsprachigkeit bezeichnet die Fähigkeit eines KI-Telefonassistenten, in mehreren Sprachen Gespräche zu führen – idealerweise mit dynamischem Sprachwechsel mitten im Gespräch. Besonders relevant für Hotels, internationale Mittelständler und Konzerne.
Mehrsprachige Voice-KI-Plattformen unterstützen typischerweise Deutsch (inklusive Schweizerdeutsch und österreichisches Deutsch), Englisch, Französisch, Spanisch und weitere europäische Sprachen. DACH-Voice-KI-SaaS-Plattformen wie Voicery, Synthflow oder fonio sind besonders auf deutschsprachige Mehrsprachigkeit optimiert.
Mehr in: Voicebot-AnwendungsfälleMake-or-Buy
Make-or-Buy bezeichnet die strategische Entscheidung, ob ein Unternehmen eine Lösung selbst entwickelt (Make), fertig einkauft (Buy) oder eine Hybrid-Variante wählt. Im Voice-KI-Kontext geht es um die Wahl zwischen Eigenbau auf Basis von APIs (LLM, STT, TTS), dem Bezug einer SaaS-Plattform und dem Full-Service-Bezug inklusive Konzeption und Betrieb.
Mehr in: Voice-KI Build vs. BuyN
NLP (Natural Language Processing)
Natural Language Processing ist der übergeordnete Forschungsbereich, der sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. NLP umfasst Speech-to-Text, Text-Verstehen (NLU), Übersetzung, Zusammenfassung und Sprachgenerierung. In Voice-KI-Systemen sind NLP-Komponenten an mehreren Stellen der Pipeline beteiligt.
Mehr in: Voicebot-TechnologieNLU (Natural Language Understanding)
Natural Language Understanding ist ein Teilbereich des NLP und beschäftigt sich speziell mit dem Verstehen von Bedeutung in Texten – Intent-Erkennung, Entity-Extraktion, Kontext-Verarbeitung. Klassische Voicebot-Systeme nutzten oft eigene NLU-Engines; moderne KI-Telefonassistenten auf LLM-Basis erledigen NLU implizit durch das Sprachmodell.
Mehr in: Voicebot-TechnologieO
Outbound / Inbound
Outbound und Inbound bezeichnen die Anruf-Richtung. Inbound-Voicebots nehmen eingehende Anrufe entgegen (KI-Empfang, KI-Anrufannahme, Lead-Qualifizierung). Outbound-Voicebots tätigen ausgehende Anrufe – etwa für Terminbestätigungen, Vertragsverlängerungen, Inkasso-Erinnerungen oder Zufriedenheits-Umfragen. Die meisten Voice-KI-Plattformen unterstützen beide Richtungen.
Mehr in: Voicebot-AnwendungsfälleP
PBX (Private Branch Exchange)
Eine PBX ist eine private Telefonanlage in einem Unternehmen – sie verbindet interne Telefone untereinander und stellt die Verbindung zum öffentlichen Telefonnetz her. Moderne IP-PBX-Systeme wie 3CX, Cisco oder Mitel sind über SIP-Trunks an Voice-KI-Plattformen anbindbar, sodass KI-Telefonassistenten als Ergänzung zur bestehenden Telefonanlage eingesetzt werden können.
Mehr in: Voice-KI nutzenPrompt
Ein Prompt ist eine Anweisung an ein Large Language Model. Im Voice-KI-Kontext wird zwischen System-Prompt (übergreifende Rolle und Regeln des KI-Telefonassistenten) und User-Prompt (Anliegen des Anrufers) unterschieden. Prompt Engineering – also die Kunst, präzise Prompts zu formulieren – ist entscheidend für die Qualität eines Voicebots.
Mehr in: Voicebot-TechnologieR
RAG (Retrieval-Augmented Generation)
RAG bezeichnet eine Technik, bei der ein Large Language Model vor der Antwort-Generierung auf eine externe Wissensdatenbank zugreift. Statt nur auf Trainingsdaten zu vertrauen, sucht das System aktiv nach relevanten Informationen – etwa in einer FAQ-Datenbank, einem Produktkatalog oder einem CRM.
Im Voice-KI-Kontext verhindert RAG Halluzinationen und stellt aktuelle, faktisch korrekte Antworten sicher.
Mehr in: Voicebot-TechnologieS
Schrems II
Schrems II ist ein EuGH-Urteil aus 2020, das den Datentransfer zwischen EU und USA stark eingeschränkt hat. Für Voice-KI-Anbieter relevant: Datenübertragung an US-Anbieter wie Vapi, Retell oder Bland erfordert Standardvertragsklauseln nach Artikel 46 DSGVO und eine zusätzliche Schrems-II-Risikoabwägung. Für regulierte DACH-Branchen ist EU-Hosting daher häufig die einfachere Wahl.
Mehr in: DSGVO und EU AI ActSIP-Trunk
Ein SIP-Trunk ist eine virtuelle Telefonleitung auf Basis des Session Initiation Protocol. Über SIP-Trunks werden Voice-KI-Plattformen an bestehende Telefonanlagen (PBX) oder Cloud-Telefonie-Anbieter angedockt – der KI-Telefonassistent erhält dadurch Zugriff auf Rufnummern und kann eingehende sowie ausgehende Telefonate abwickeln. SIP-Trunks sind der Standard für moderne IP-Telefonie.
Mehr in: Voice-KI nutzenSpeech-to-Text (STT)
Speech-to-Text bezeichnet die automatische Umwandlung gesprochener Sprache in Text – auch ASR (Automatic Speech Recognition) genannt. STT ist die erste Komponente in der Voice-KI-Pipeline und entscheidet maßgeblich darüber, wie gut der Voicebot Anliegen versteht. Verbreitete STT-Engines sind Whisper (OpenAI), Deepgram und Gladia.
Mehr in: Voicebot-TechnologieSystem-Prompt
Der System-Prompt definiert die übergreifende Rolle und das Verhalten eines KI-Telefonassistenten. Hier wird festgelegt, wer die KI ist (etwa "Empfangsmitarbeiter einer Anwaltskanzlei"), wie sie kommuniziert (formell oder locker), welche Aufgaben sie übernimmt und wo ihre Grenzen liegen. Ein guter System-Prompt ist die Grundlage für konsistentes, markengerechtes Voicebot-Verhalten.
Mehr in: Voicebot-TechnologieSCC (Standardvertragsklauseln)
Standardvertragsklauseln (Standard Contractual Clauses, SCC) nach Artikel 46 DSGVO sind von der EU-Kommission vorgegebene Vertragsklauseln, mit denen die Übermittlung personenbezogener Daten in Drittländer abgesichert werden kann. Beim Einsatz von Voice-KI-Anbietern aus den USA sind SCC plus eine ergänzende Schrems-II-Risikoabwägung in der Regel zwingend erforderlich.
Mehr in: DSGVO und EU AI ActT
Telefonanlage
Eine Telefonanlage ist die zentrale Vermittlungseinheit für Telefonie in einem Unternehmen – traditionell als Hardware-PBX, heute meist als Cloud-Telefonie oder IP-PBX. Voice-KI-Plattformen werden über SIP-Trunks oder API-Schnittstellen an bestehende Telefonanlagen angebunden, sodass keine Komplett-Neuanschaffung nötig ist, um einen KI-Telefonassistenten einzusetzen.
Mehr in: Voice-KI nutzenText-to-Speech (TTS)
Text-to-Speech bezeichnet die Sprachsynthese – also die Umwandlung von Text in hörbare Sprache. TTS ist die letzte Komponente in der Voice-KI-Pipeline. Moderne TTS-Engines wie ElevenLabs, Azure Speech oder Google Cloud TTS erzeugen Stimmen, die von menschlichen kaum noch zu unterscheiden sind. Für den deutschsprachigen Markt sind europäische TTS-Anbieter wegen EU-Hosting häufig bevorzugt.
Mehr in: Voicebot-TechnologieTOMs (Technische und organisatorische Maßnahmen)
Technische und organisatorische Maßnahmen nach Artikel 32 DSGVO sind die konkreten Schutzmaßnahmen, die ein Auftragsverarbeiter zur Sicherung personenbezogener Daten ergreift. Bei Voice-KI-Plattformen umfassen TOMs typischerweise Verschlüsselung, Zutrittsschutz, Aufbewahrungsfristen, Mitarbeiter-Schulungen und Notfallpläne. TOM-Dokumentationen sind Teil eines Auftragsverarbeitungsvertrags.
Mehr in: DSGVO und EU AI ActTurn-Taking
Turn-Taking beschreibt die Fähigkeit eines KI-Telefonassistenten, zu erkennen, wann der Anrufer ausgeredet hat und die KI antworten darf. Schlechtes Turn-Taking führt zu unnatürlichen Pausen oder zum Unterbrechen des Anrufers. Gute Voice-KI-Plattformen kombinieren Voice-Activity-Detection mit semantischer Pausenanalyse, um menschliche Gesprächs-Rhythmen zu imitieren.
Mehr in: Voicebot-TechnologieTCO (Total Cost of Ownership)
Total Cost of Ownership bezeichnet die Gesamtkosten einer Lösung über ihren gesamten Lebenszyklus – inklusive Setup, Lizenzen, Integration, internem Aufwand, Wartung und Optimierung. Bei Voice-KI-Make-or-Buy-Entscheidungen ist die TCO-Betrachtung über drei bis fünf Jahre üblich, da reine Listenpreise (etwa Minutenpreise) den tatsächlichen internen Aufwand häufig verdecken.
Mehr in: Voice-KI Build vs. BuyV
Voice Agent
Ein Voice Agent (auch AI Voice Agent) ist ein KI-Telefonassistent, der nicht nur Dialoge führt, sondern aktiv Aktionen ausführt – über Function Calling Termine bucht, CRM-Einträge erstellt, E-Mails versendet oder Datenbanken durchsucht. Der Begriff Voice Agent grenzt sich vom klassischen Voicebot ab, indem er stärker auf autonomes Handeln statt nur Sprachverarbeitung betont.
Mehr in: Was ist Voice-KI?Voicebot
Ein Voicebot ist der älteste und im DACH-Raum verbreitetste Begriff für einen sprachfähigen Bot, der Telefonanrufe abwickelt. Technisch beschreibt ein Voicebot meist ein KI-System mit klar definierten Dialog-Pfaden – ein moderner Voicebot auf LLM-Basis ist allerdings funktional identisch mit einem KI-Telefonassistenten oder Voice-Agent.
Mehr in: Was ist Voice-KI?Voice-KI
Voice-KI ist der deutsche Sammelbegriff für KI-gestützte Sprachtechnologien – insbesondere KI-Telefonassistenten, Voicebots und Voice-Agents. Auch Voice AI oder Voice Artificial Intelligence wird synonym verwendet. Voice-KI umfasst die gesamte Pipeline aus Speech-to-Text, Large Language Model und Text-to-Speech sowie die Telefonie-Integration.
Mehr in: Was ist Voice-KI?Voice-KI-Plattform
Eine Voice-KI-Plattform ist ein cloudbasierter Self-Service-Dienst, auf dem Unternehmen Voicebots konfigurieren und betreiben können – meist im SaaS-Modell mit monatlicher Lizenz plus Minutenpreisen. Voice-KI-Plattformen bieten typischerweise Flow-Builder, Sprachmodelle, Telefonie-Anbindung und CRM-Integrationen aus einer Hand. Im DACH-Raum sind Voicery und Synthflow verbreitet.
Mehr in: Voicebot selbst bauenVAD (Voice Activity Detection)
Voice Activity Detection erkennt in einem Audiosignal in Echtzeit, ob gerade gesprochen wird oder Stille bzw. Hintergrundgeräusch herrscht. VAD ist eine Kernkomponente für gutes Turn-Taking in Voice-KI-Telefonassistenten: Sie entscheidet, wann der Anrufer ausgeredet hat und die KI antworten darf, und ermöglicht zusammen mit Barge-in-Erkennung natürliche Gesprächsdynamik.
Mehr in: Voicebot-TechnologieVoiceMind
VoiceMind ist ein deutscher Full-Service-Anbieter für KI-Telefonassistenten mit Sitz in München. VoiceMind übernimmt Konzeption, Konfiguration, Telefonie-Integration und laufenden Betrieb von Voice-KI-Lösungen für Mittelstand und Konzerne. Im DACH-Raum betreibt VoiceMind 2026 zusätzlich ein mehrstufiges Vertriebspartner-Karrieremodell.
Mehr in: Vertriebspartner-ProgrammVoicery
Voicery ist eine vollintegrierte Voice-KI-Plattform aus Deutschland mit EU-Hosting. Voicery liefert Sprachmodell, Dashboard, Telefonie-Anbindung und Whitelabel-Frontend aus einer Hand und richtet sich an Mittelstand, Konzerne und insbesondere Whitelabel-Agenturen im DACH-Raum. Voicery betreibt zusätzlich ein Affiliate-Programm sowie einen optionalen Setup-Service für die operative Voicebot-Entwicklung.
Mehr in: Voicery-Affiliate-ProgrammW
Whisper
Whisper ist eine Open-Source-Speech-to-Text-Engine von OpenAI, die für ihre hohe Erkennungsgenauigkeit auch bei Dialekten und Akzenten bekannt ist. Whisper unterstützt über 90 Sprachen und ist sowohl als Open-Source-Modell als auch als kommerzielle API verfügbar. Viele Voice-KI-Plattformen nutzen Whisper als STT-Komponente.
Mehr in: Voicebot-TechnologieWhitelabel
Whitelabel bezeichnet das Geschäftsmodell, bei dem eine Voice-KI-Plattform unter eigenem Branding einer Agentur, eines Systemhauses oder eines Resellers verkauft wird – mit eigener Domain, eigenem Logo, eigener Preisgestaltung. Der Endkunde nimmt die Lösung als Produkt der Agentur wahr. Im DACH-Raum bietet Voicery eine vollintegrierte Whitelabel-Lösung.
Mehr in: Whitelabel-AgenturWhitelabel-Voice-KI
Whitelabel-Voice-KI bezeichnet eine Voice-KI-Plattform, die unter eigener Marke einer Agentur, eines Systemhauses oder eines Resellers vertrieben wird – mit eigener Domain, eigenem Logo, eigener Preisgestaltung. Der Endkunde nimmt die Lösung als Produkt der Agentur wahr. Eine vollintegrierte Whitelabel-Voice-KI umfasst Sprachmodell, Dashboard, Telefonie und Frontend aus einer Hand.
Mehr in: Whitelabel-AgenturHäufige Fragen
Was ist der Unterschied zwischen Voicebot, Voice-Agent und KI-Telefonassistent?
Was bedeutet AVV bei Voice-KI?
Welche Voice-KI-Begriffe sind im EU AI Act relevant?
Was sind die wichtigsten technischen Komponenten einer Voice-KI?
Welche Bedeutung hat Function Calling für Voice-KI?
Was ist der Unterschied zwischen NLU und LLM?
Wie funktioniert ein KI-Telefonassistent technisch?
Im Pillar-Beitrag werden die Begriffe und Konzepte aus diesem Glossar in einen zusammenhängenden Kontext gesetzt – von der Pipeline-Architektur über die Abgrenzung zu klassischen IVR-Systemen bis zu typischen Anwendungsfällen und Branchen.
Was ist Voice-KI?Hinweis: Die Definitionen in diesem Glossar beschreiben den allgemeinen Marktusus im DACH-Voice-KI-Markt. Sie ersetzen keine technische oder rechtliche Fachberatung. Bei Compliance-relevanten Begriffen wie AVV, DSGVO, EU AI Act oder Schrems II ist im Einzelfall fachkundige Beratung sinnvoll.