Phonetisches Wissen in der Sprachsynthese

Sprechende Maschinen mit künstlichen Stimmen setzen einen in elektronischer Form vorliegenden Text in gesprochene Sprache um. Durch die Kenntnis phonetischer Prozesse kann gewährleistet werden, dass geeignete Bausteine für die Synthese erstellt und in angemessener Weise miteinander verkettet werden.
Grundsätzlich können zwei verschiedene Synthese-Ansätze unterschieden werden. Zum einen vollständige Text-to-Speech-Systeme (TTS) und zum anderen Phrasensynthese-Systeme.

Text-to-Speech-Systeme

Text-to-Speech-Synthesesysteme (TTS) werden angewendet, wenn das System in der Lage sein soll, jeden beliebigen Text in gesprochene Sprache umwandeln zu können. Text-to-Speech-Synthese findet vielfältig Einsatz, so z.B. als:
  • Vorlesemaschine für blinde und sehbehinderte Personen
  • Sprechprothese für beeinträchtigte Personen
  • E-Mail-Reader und SMS-Reader
  • Informationen in Dialog-Systemen

Bei der Entwicklung einer Computerstimme fallen verschiedene Arbeiten an, die phonetisches Wissen benötigen.

Dabei sind professionelle Sprachaufnahmen eine Grundvoraussetzung für hochwertige TTS-Systeme. Folgende Arbeitsschritte sind für die Qualität der Synthese von großer Bedeutung:
  • die Auswahl des Sprechers
  • die Erstellung des Aufnahmeskripts
  • die Durchführung der Aufnahmen
  • die manuelle Bereitstellung der Sprachbausteine


Des Weiteren ist die Qualität der Modellierung folgender Faktoren für die Akzeptanz und damit den Verkaufserfolg von TTS-Systemen mitverantwortlich:

  • Prosodie (Sprechmelodie, Rhythmus)
  • Umsetzung textueller Gegebenheiten (Satzzeichen, Sonderzeichen, Zahlenformate)
  • Aussprachelexikon und Buchstabe-Laut-Umwandlung

Die Bewertung (Stichwort: Usability) unterschiedlicher Parameter durch verschiedene Benutzergruppen ist notwendig, um TTS-Synthese effektiv verbessern zu können. Zu diesen Benutzergruppen gehören:

  • Personen mit Sehbehinderungen
  • Personen mit Beeinträchtigung des Gehörs
  • Einmal-Benutzer
  • Viel-Benutzer

Falls Interesse an den o.g. Dienstleistungen im Bereich Sprachaufnahmen, Modellierung und Bewertung besteht, dann nutzen Sie doch die langjährige Erfahrung im Bereich Entwicklung und Evaluierung von TTS-Synthese (Überblick über die Forschungsaktivitäten auf diesem Gebiet).

Dabei ist Forschungs- und Entwicklungsarbeit gerade in diesem Bereich enorm wichtig. Zwar weisen heutige TTS-Systeme bereits eine hohe Qualität auf, dennoch gibt es noch viel Spielraum zur Verbesserung der Natürlichkeit und Verständlichkeit synthetischer Sprecher.

Um Ihnen einen Überblick zu deutschsprachiger TTS-Synthese zu geben, gibt es hier eine Zusammenstellung einiger Synthesesysteme.

Phrasensynthese

Phrasensynthese ist vor allem dann zu empfehlen, wenn die Computerstimme nur eine begrenzte Anzahl an Äußerungen sprechen können muss. Dies ist z.B. in Dialogsystemen der Fall, in denen Auskünfte und Informationen innerhalb bestimmter Domänen abgefragt werden können, wie z.B.:
  • Telefonnummern und Sportergebnisse
  • Verkehrsmeldungen und Autonavigation
  • Persönliche Daten wie Kontoabfragen
  • Börsenkurse und Wetterberichte
  • Fahrgastinformation (z.B. auf Bahnhöfen und Flughäfen)
Details zu dieser sehr natürlichen klingenden Art von Synthese gibt es bei der Beschreibung der prosodischen Phrasensynthese.

Letztmalige Änderung: 14-03-04

 

Seite drucken