Prosodische Phrasensynthese

1. Voice Prompts - Satzteilsynthese - Text-to-Speech-Synthese
2. Phrasen-basierte Sprachsynthese
3. Audio-Beispiele

1. Voice Prompts - Satzteilsynthese - Text-to-Speech-Synthese

Viele automatisierte Ansagen und Auskünfte, die durch Telefon oder Navigationsgerät übertragen werden, benutzen keine vollständige Text-to-Speech-Synthese (TTS), sondern entweder sog. Voice Prompts oder die Zusammenfügung einzelner Wörter oder Satzteile.

Voice Prompts sind einzeln aufgenommene Äußerungen, die den höchsten Grad an Verständlichkeit und Natürlichkeit bieten. Allerdings ist die Flexibilität stark eingeschränkt: Jeder Satz, vor allem jeder neue Satz, muss neu aufgenommen und verwaltet werden.

Die Zusammenfügung einzelner Wörter oder Satzteile zu neuen Äußerungen, die hier kurz als Satzteilsynthese bezeichnet wird, bietet eine viel größere Flexibilität. Die Sätze werden schablonenartig erstellt: Manche Satzteile bleiben bestehen ("Templates"), Satzteile und Wörter mit wichtiger und neuer Information werden in die Schablone als "Fillers" eingefügt. (Bsp.: In der Bundesliga trennten sich heute [Verein] und [Verein] mit [Zahl] zu [Zahl].) Obwohl sehr gut verständlich, wird in aller Regel mit dieser Methode nicht die Natürlichkeit von Voice Prompts erreicht.

Die größtmögliche Flexibilität hingegen wird man mit einer vollständigen TTS-Synthese erreichen, die Texte unbeschränkt als gesprochene Sprache wiedergeben kann. TTS-Synthese hat heutzutage oft ihren Robotercharme abgestreift und klingt auch nicht immer langweilig. Häufig wird sogar eine hohe Verständlichkeit erreicht. Auch in puncto Natürlichkeit gibt es einige positive Entwicklungen, vor allem durch die sog. "Unit Selection Synthesis", die auf große Mengen an Sprachdaten zurückgreift. Dennoch muss in Hinblick auf die Natürlichkeit festgestellt werden, dass es spürbare Unterschiede zwischen TTS-Systemen und den erstgenannten Methoden gibt. Möglicherweise trifft dies auch auf die Verständlichkeit zu.

Die nachstehende Auflistung fasst kurz die Kriterien zusammen, die neben Formulierung, Informationsgehalt und Dialogführung die Akzeptanz eines Informationsdienstes entscheidend beeinflussen.

Voice Prompts

  • Verständlichkeit: sehr hoch
  • Natürlichkeit: sehr hoch
  • Flexibilität: sehr gering

Satzteilsynthese

  • Verständlichkeit: sehr hoch
  • Natürlichkeit: mittelmäßig bis ziemlich hoch
  • Flexibilität: mittelmäßig

Vollständige TTS-Synthese

  • Verständlichkeit: mittelmäßig bis hoch
  • Natürlichkeit: mittelmäßig bis niedrig
  • Flexibilität: sehr hoch
top nach oben

2. Phrasen-basierte Sprachsynthese

Aufgrund des Balance-Verhältnisses zwischen Natürlichkeit und Verständlichkeit einerseits und der Flexibilität andererseits scheint es sinnvoll zu hinterfragen, ob die Satzteilsynthese wirklich nur auf einem mittelmäßigen Natürlichkeitsniveau machbar ist. Günstig wäre es für die Satzteilsynthese eine Natürlichkeit ähnlich der von Voice Prompts anzuvisieren.

Eine phonetische Analyse einiger Beispiele aus alltäglichen Anwendungen hat ergeben, dass sehr oft eine sub-optimale prosodische Realisierung für die eher mittelmäßig zu bewertenden Äußerungen mittels Satzteilsynthese verantwortlich ist.

Man erkennt diese sub-optimale Umsetzung oft an Rhythmus, Pausierung, Intonation, aber auch an der Intensität der verschiedenen Bausteine, die zu einem Satz bzw. zu einem kurzen Text zusammengefügt werden.

Versucht man, die prosodischen Unzulänglichkeiten so weit wie möglich auszuschalten, so sollten prosodische Phrasen anstatt den rein text-basierten "Templates" und "Fillers" für die gesprochenen Aufnahmen als Grundeinheit angenommen werden.

Um den Aspekt der prosodischen Phrase mit abzudecken ohne die Information über Satzteile zu ignorieren nennen wir die Satzteilsynthese, so wie wir sie hier vorstellen phrasen-basierte Sprachsynthese. Die unten aufgeführten Beispiele verdeutlichen die Unterschiede zwischen drei verschiedenen Methoden:

  • "herkömmliche" Satzteilsynthese
  • phrasen-basierte Sprachsynthese unter Berücksichtigung prosodischer Eigenschaften
  • Sätze, die als als ganzes gesprochen wurden (quasi als Voice Prompt)

Da sich in informellen Tests gezeigt hat, dass die Qualität von phrasen-basierter Synthese sich deutlich von der Qualität einer "herkömmlichen" Satzteilsynthese unterscheidet, sind Perzeptionsexperimente geplant, die überprüfen sollen, ob für Hörer ein signifikanter Unterschied zwischen phrasen-basierter Synthese und Voice Prompts besteht.

top nach oben

3. Audio-Beispiele (im wav-Format)

Kontostand

Fußballergebnis

Wertpapierkennnummer

Wenn Sie mehr über phrasen-basierte Synthese erfahren möchten, schreiben Sie bitte an Jürgen Trouvain: .

 

Letztmalige Änderung: 22-02-04

Seite drucken