Prosodieerkennung

Die Prosodieerkennung (auch Prosodieklassifikation) ist ein Teilgebiet der automatischen Mustererkennung bzw. der Musterklassifikation. Die zu klassifizierenden Muster stellen prosodische Eigenschaften der Sprache dar. Daher findet auch oft eine Klassifikation prosodischer Merkmale in Kombination mit Spracherkennung statt.

Analysierte prosodische Eigenschaften

Intonation (Messung der Grundfrequenz)

Intonationskurvenvergleiche
Besonderheiten im Intonationsverlauf: Nach Äußern eines Satzes und darauffolgendem Luftholen erfolgt häufig ein sogenannter Pitch Reset, eine Erhöhung der Grundfrequenz bei Beginn eines neuen Satzes. Die Grundfrequenz zeigt im Verlauf des Äußerns eines Satzes eine fallende Tendenz, dies liegt im Ausatmen begründet. Bei der Äußerung eines Satzes und gleichzeitigem Einatmen steigt die Grundfrequenz tendenziell.
Intonation am Ende einer Phrase: Dieser kommt im Deutschen besondere Bedeutung zu, zum Beispiel findet sich bei Ja-Nein-Fragen oft eine steigende Intonation, Aussagesätze sind in ihrer Endintonation eher fallend.
Ironie zeigt eine gänzlich andere Intonation als so gemeinte Sätze.
Zur Hervorhebung (Akzentuierung) von Silben, Wörtern oder Phrasen, z. B. zur Vermeidung von Mehrdeutigkeiten, kann die Intonation ebenfalls verändert werden. Die Silbe, das Wort oder die Phrase wird somit anders betont.

Energie, Lautstärke und Lautheit

relative Lautstärkeschwankungen

Dauer, Quantität, Rhythmus, Sprechgeschwindigkeit

Pausen zwischen Wörtern (Rhythmus)
mittlere Sprechgeschwindigkeit
Abweichung vom mittleren Sprechtempo
Mittlere Phonemlänge
Mittlere Silbenlänge
Mittlere Wortlänge
Mittlere Phrasenlänge (bis wieder Luft geholt wird)

Diese Merkmale werden häufig auf linguistische Modelle der Prosodie, insbesondere der Intonation, abgebildet, denn nur diese ermöglichen Aussagen über die Bedeutung der Messungen. Anders gesagt, sie liefern die Klassen, welche für eine Mustererkennung und Musteranalyse benötigt werden.

Vorverarbeitungen

Glättung mikroprosodischer Effekte

Jitter und Shimmer, bekannt aus der Mikroprosodie, erzeugen Unregelmäßigkeiten in der Amplitude und der Frequenz und müssen vor einer automatischen Klassifikation (z. B. der Intonation) aus dem Sprachsignal entfernt werden. Dies kann durch eine Glättung geschehen, indem das diskret abgetastete Sprachsignal mit einem Medianfilter geglättet wird.

Interpolationen

Plosive erzeugen einen kurzzeitigen Glottisverschluss. Während dieser Zeit schwingen die Stimmbänder nicht und es entsteht somit auch keine messbare Grundfrequenz. Somit finden sich kleine Lücken in der Abtastung, an welchen keine Information vorliegt. Dies kann einen Intonationsklassifikator dazu verleiten, in eine falsche Kategorie zu klassifizieren. Eine Interpolation kann die korrekte Erkennung verbessern.

Erkennungsbeispiele

Der Intonation entspricht in etwa auf akustischer Ebene die Grundfrequenz. Diese kann mit sogenannten Pitchtrackern (das Programm Praat enthält beispielsweise eine Pitchtrackingfunktion) automatisch aus einem Audiosignal extrahiert werden. Es entstehen Serien von Grundfrequenzwerten. Diese diskreten Wertereihen können nach einer Interpolation und einer Medianglättung durch Polynome, zum Beispiel Geradenstücke, mittels Regressionsanalyse approximiert werden. Durch mehrere mehr oder weniger kleine Geradestücke kann der Verlauf der Grundfrequenz dann modelliert werden. Aus dieser angenäherten Betonungskurve der Äußerung können nun Rückschlüsse gezogen werden auf besondere prosodische Ereignisse, zum Beispiel können stark ansteigende Geradenstücke auf einen Gipfel in der Kontur hindeuten, also ein akzentuiertes Wort. Dies kann dem Dialogverständnis eines Roboters nützen, denn die reine Spracherkennung liefert keine Akzentinformation.

Einsatzgebiete

Emotionserkennung

Die Veränderungen in den suprasegmentalen Eigenschaften der Sprache werden dazu eingesetzt, Gefühlszustände aus dem Sprachsignal „abzulesen“. Erregte Menschen sprechen schneller, wütende Menschen sprechen lauter, verängstigte Menschen dagegen eher leiser. Traurige Menschen sprechen langsamer und langgezogener.

Robotik

Damit Roboter Mehrdeutigkeiten in verschiedenen, linguistischen Ebenen auflösen können, kann eine Prosodieerkennung eingesetzt werden. Dies verbessert die Leistung der Spracherkennung und steigert die Akzeptanz des Roboters als Gesprächs- oder Interaktionspartner in der Mensch-Maschine-Kommunikation. Auch erscheint ein Roboter menschlicher, wenn er die emotionalen Merkmale der Stimme einsetzen kann, um seine eigene Stimme in passender Weise zu verändern (Mitleidige Stimme bei traurig klingenden Menschen, freudige Stimme bei glücklichen Menschen) oder um seine Mimik den Emotionen anzupassen. Ebenso verbessert eine Erkennung von Ironie oder Humor die Akzeptanz als natürlichen Interaktionspartner.

Sprachverstehende Systeme und Dialogsysteme

Sprachverstehende Systeme gibt es (außerhalb der Robotik) viele, in Navigationssystemen, Diktiergeräten, als alternatives Steuerungsgerät von Computern (z. B. Spracherkennung in Windows Vista) oder in automatischen, telefonischen Auskunftsystemen. Der Einsatz von Prosodieerkennung kann dort ebenfalls die Spracherkennung verbessern, indem Mehrdeutigkeiten (z. B. durch elliptische Sätze) oder Referenzen auf bestimmte Satzteile aufgelöst werden. Ebenfalls können Zitate mitten im Satz besser erkannt werden („Wie der Professor es in ‚Die Geschichte der Wikinger‘ erwähnte“: Eigentlich kein gültiger grammatikalischer Satz, es sei denn, man erkennt ‚Die Geschichte der Wikinger‘ als ein Zitat bzw. als zitierten Titel eines Buches).

Medizin

Unter anderem werden Prosodieerkennungsmodule in der Logopädie eingesetzt, um Sprachstörungen gezielt zu messen und zu behandeln.

Sprechererkennung

Um zu erkennen, welcher Sprecher bei vielen gleichzeitig sprechenden Menschen was gesagt hat, muss die Stimme des Sprechers genau von den Stimmen anderer Sprecher unterschieden werden können. Dabei können typische Merkmale wie Grundfrequenz, mittlere Sprechgeschwindigkeit etc. helfen, aber auch Merkmale der Mikroprosodie, beispielsweise jitter und shimmer, welche bei jedem Menschen in unterschiedlicher und charakteristischer Weise ausgeprägt sind. Das Problem, eine von vielen Stimmen zu verfolgen, tritt häufig bei Diktiersystemen auf, welche in Firmenbesprechungen oder Meetings eingesetzt werden, um das komplette Gespräch wortgetreu in Text zu übersetzen. Menschen können sich leicht auf eine von vielen gleichzeitig redenden Stimmen konzentrieren, automatischen Systemen fällt dies jedoch sehr schwer. Dieses Problem ist unter anderem als der Cocktailparty-Effekt bekannt und es existieren immer noch keine optimalen Lösungen.

Sprecherverifizierung

In Hochsicherheitsbereichen wie in Forschungszentren dürfen nur autorisierte Mitarbeiter bestimmte Bereiche betreten. Um dies zu gewährleisten, werden häufig neben biometrischen Merkmalen auch prosodische und mikroprosodische Merkmale zur Verifikation eingesetzt. Häufig ist dies eine Passphrase.

Sprachenerkennung

Um automatisch zu erkennen, welche Sprache ein Sprecher spricht, können neben Merkmalen der Spracherkennung auch Merkmale der Prosodie eingesetzt werden (siehe B-Prosodie). So besitzt jede Sprache einen typischen Klang, eine typische Folge von häufigen Lautkombinationen oder gar charakteristische Laute (z. B. kehlige Laute im Arabischen).

Maschinelle Übersetzung

In der maschinellen Übersetzung werden Prosodiemodule zur Verbesserung der Spracherkennung und zur Auflösung von syntaktischen, semantischen und pragmatischen Mehrdeutigkeiten benutzt, um adäquat in die Zielsprache übersetzen zu können. Gutes Beispiel ist das Verbmobil Projekt.

Siehe auch

Weblinks

Universität Bonn: INTARC Prosodieerkennungsmodul
Wolfgang Hess: Prosodie
NIMITEK: Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme