Diskussion:Duplex perception of speech

Letzter Kommentar: vor 14 Jahren von Nolispanmo

Beim ersten Lesen des Artikels habe ich so gut wie nichts verstanden, fand aber interessant, dass es solche Phänomene gibt (gehört wohl nicht zu den alltäglichen Erscheinungsformen). Nach und nach habe ich dann versucht, die Bedeutung der Fachbegriffe herauszubekommen, habe aber zugegebener Maßen mit der Verständlichkeit immer noch meine Schwierigkeiten. Die Sache mit F3 und Formant verstehe ich z.B. immer noch nicht.

Die Sache mit dem Glissando ist mir dagegen geläufig. Bei der Posaune macht man das, indem man den Zug ohne sonstige Veränderung der Mundstellung oder des Atemstroms nach unten schiebt oder nach oben zieht. Bei der Gitarre benutzt man einen "Metallfinger" oder auch eine Glasflasche, den/die man über die Saiten schiebt. Beim Stimmen einer Gitarre entsteht übrigens auch dieses Glissando, wenn man an den sogenannten Wirbeln die Tonhöhe für die Saite einstellt.

Und beim Klavier (wie auch bei vielen anderen Instrumenten) gibt es gar kein Glissando, weil man nur bestimmte Töne erzeugen kann, aber nicht von einer Tonhöhe zur anderen "fließen" kann. Und die gesprochene Sprache besteht im Gegensatz zum Gesang aus Unmengen von kleinen Glissandi hintereinander.

Man kann sich die Veränderung der Tonhöhe beim Klavier oder auch meist beim Gesang wie eine Treppe vorstellen. Jede Stufe entspricht einer Tonhöhe. Eine Melodie entsteht allerdings nur dann, wenn die Treppe nicht wie gewohnt entweder nur nach oben oder nur nach unten führt, sondern immer wieder die Richtung wechselt, wobei die Stufenhöhen sehr verschieden (also mal größer, mal kleiner) sein können.

Und wie sieht nun ein Glissando aus? Bleiben wir bei dem Bild oben. Ein Glissando kann man sich wie eine Fahrt auf einer Achterbahn vorstellen, es geht immer rauf und runter (mal kurze Stücke, mal längere), aber es gibt keine Sprünge, die Bahn gleitet von einer Höhe zur anderen. Hoffe, das ist einigermaßen verständlich und sorgt nicht für noch größere Verwirrung. Herzliche Grüße Senator2108 16:41, 21. Jul. 2009 (CEST)Beantworten


Formanten sind Frequenzbereiche, in denen ein Teil aus einem Klangspektrum (aber ein anderer Teil als die Grundfrequenz und die damit erzeugten Obertöne) verstärkt wird. Je nach Lage und Ausprägung dieser Frequenzbereiche verändert sich die Klangfarbe einer Stimme. Während die ersten beiden Formanten (F1 und F2) für die Verständlichkeit der Vokale wichtig sind (tragen zur Charakterisierung des gesprochenen Vokals bei), sind der dritte und der vierte Formant (F3 und F4) für das Sprachverständnis (meiner Meinung nach muss das hier "Sprechverstehen" heißen, es geht schließlich noch nicht um das Verständnis und damit die Bedeutung des Gesprochenen, sondern lediglich um die Wahrnehmung der verschiedenen Laute) nicht mehr wesentlich. Diese Frequenzbereiche bzw. Verstärkungen von Frequenzbereichen beeinflussen also mehr den Klang einer Stimme.

Akustisch (oder wie dieser Bereich auch heißen mag) ist das für mich immer noch schwer zu verstehen. Ich stelle mir das mal wie beim Kochen vor. Nehmen wir einfach mal Spaghetti alla Bolognese. Kennt jeder und besteht aus so langen Nudeln mit Hackfleischsoße. Es schmeckt aber nicht immer gleich. Das liegt vielleicht an den Nudeln, vielleicht am Hackfleisch, an der Soße, an der Kochdauer der Nudeln usw. Nudeln und Hackfleischsoße sorgen dafür, dass das Gericht als Spaghetti alla Bolognese erkannt wird, während weitere Zutaten, die Kochdauer etc. dafür nicht mehr wichtig sind. Auch mit matschig gekochten Spaghettis oder mit einer Soße, die fade schmeckt, ist das Ganze noch als Spaghetti alla Bolognese zu erkennen, es schmeckt nur eben nicht. Der Akustiker drückt es wohl vornehmer aus: Der Klang ist verändert, aber der Laut ist trotzdem immer noch ein "a".

Kommen wir zum wohl größten Problem dieses Artikels. Es geht hier um das "Fehlen der F3-Transition" bei bestimmten ("pa", "to" oder "du") vorgesprochenen Silben. So wie ich das verstehe, ist dies nahezu gleichbedeutend mit dem Glissando. Wird die Silbe also ohne Glissando vorgesprochen, so wird sie nicht erkannt. Wird das akustische Phänomen in die Abfolge der beiden Laute und in das Glissando getrennt und jeweils einem Ohr vorgespielt, so wird dies im Kopf wieder zusammengesetzt, wobei das Gehirn scheinbar erkennt, dass das Glissando etwas mit Sprache zu tun haben muss.

Und das soll dann die "duplex perception" sein?

Vielleicht sollte sich doch mal lieber jemand mit dem Artikel beschäftigen, der sich mit der Materie auskennt UND das Laien erklären kann. Herzliche Grüße Senator2108 18:49, 21. Jul. 2009 (CEST)Beantworten

PS: Ach, was ich fast vergessen hätte. In einem Bericht über "duplex perception" habe ich gelesen, dass eine zuschlagende Tür ein Beispiel für dieses Phänomen ist. Weitere Erklärungen dazu gab es leider nicht, aber ich verstehe das mal so, dass das Geräusch eine sprachliche Assoziation zur Folge hat. Wir hören nur einen dumpfen Knall, aber wir denken gleich: aha, die Tür ist zugeschlagen. Aber dann müssten praktisch doch sehr viele Geräusche Beispiele für dieses Phänomen sein, oder? Senator2108 18:56, 21. Jul. 2009 (CEST)Beantworten

Hab tatsächlich ein Buch im Regal gefunden, das zumindest die Sache mit den Formanten etwas besser erklärt. Der Vergleich mit den Spaghettis ist dadurch aber im Prinzip hinfällig.

Wie bereits erwähnt sind die Formanten Frequenzbereiche, in denen irgendetwas verstärkt wird. Was wir hören können, spielt sich normalerweise im Bereich zwischen 20 und 20.000 Hertz ab. Es ist aber scheinbar so, dass sich ein Laut nicht nur durch eine Frequenz auszeichnet, sondern in unterschiedlichen Stärken auch die anderen Frequenzen mit abdeckt, weil er aus vielen verschiedenen Einzeltönen zusammen gesetzt ist. Und jetzt kommen wieder die Formanten ins Spiel. Sie stellen die Punkte (oder besser Bereiche) dar, die bei einem bestimmten Laut besonders stark vertreten sind. Beim Laut "o" ist z.B. der Laut so um 500 Hertz besonders stark und auch der Frequenzbereich um 1000 Hz bildet einen sogenannten Gipfel. Bei der Bezeichnung der Formanten geht man jetzt einfach von den niedrigen Frequenzen zu den höheren. Der Laut "o" hat also den Formant F1 bei 500 Hz und den Formant F2 bei 1000 Hz.

Die beiden ersten "Gipfel" in den unteren Frequenzbereichen sind wohl entscheidend für die Erkennung eines Lauts, die Gipfel in den oberen Frequenzbereichen bestimmen Klangfarbe u.ä.

Zurück zu den Übergängen oder Transitionen. Bei Silben wie "pa", "ta" oder "ga" (natürlich auch bei allen anderen) gehen die Sprachlaute fließend ineinander über, so dass das "a" jeweils von einer anderen Ausgangsposition angegangen wird. Das bedeutet für den üblichen Formanten eine kurzzeitige Beeinflussung. Die Werte für die Formanten, die normalerweise beim "a" bei 1000 Hz (F1) und bei 1400 Hz (F2) liegen, werden erst nach einem kurzen Übergang (aha: Transition) erreicht. Bei der Silbe "ba" beispielsweise werden F1 und F2 jeweils von unten erreicht, d.h., dass für einen kurzen Zeitraum (20-40 msec) die Frequenzbereiche etwas unterhalb von 1000 bzw. 1400 Hz (immer bezogen auf das "a") verstärkt sind (was in diesem Fall natürlich an dem "b" vorher liegt) und sich dann (blitzschnell) den Normalwerten angleicht, wobei dieses Angleichen als Glissando bezeichnet wird, weil sich die Tonhöhe ja etwas nach oben verschiebt.

Bei anderen Silben sieht die Sache natürlich anders aus. Beim "da" und beim "ga" wird F1 ebenfalls von unten erreicht, F2 aber von oben (wobei mir völlig schleierhaft ist, wie das Ohr sowas hören und das Gehirn sowas verstehen kann). Wir haben es demnach mit gegensätzlichen Glissandi zu tun.

Die Übergänge geben uns also durch diese Bewegungen hin zu den "richtigen" Tonhöhen eines Lautes wichtige Informationen, welchen Laut wir vorher gehört haben.

Stellen wir uns die Sache mal wieder dilettantisch vor. Jemand spricht die Silbe "ba", aber ich habe den Laut "b" nicht richtig wahrnehmen können. Ich nehme aber die beiden Glissandi von unten zu den beiden ersten Formanten des Lautes "a" wahr und kann daran erkennen, dass es sich bei dem vorhergehenden Laut wohl um ein "b" gehandelt haben muss. So weit, so gut!

Schauen wir uns das durchgeführte Experiment mal näher an.

"Bei Experimenten wurden Versuchspersonen zunächst Silben vorgesprochen, die jeweils aus der Kombination eines sogenannten Plosivlauts und aus einem Vokal bestanden (also Silben wie "pa", "to" oder "du"), welchen aber die F3-Transition (siehe Formant) fehlte."

Gehen wir mal davon aus, dass es technisch möglich ist, die Silbe "ba" ohne die oben beschriebenen Glissandi zu "artikulieren" (Computerstimmen können das ja vielleicht). Das fehlende Glissando bewirkt dann scheinbar, dass der Plosivlaut (also p, b, g, k, t oder d) nicht eindeutig bestimmt werden kann.

"Wurde den Probanden der Übergang (die Transition) isoliert dargeboten, so nahmen sie diesen als nicht-sprachliches Phänomen (...) wahr.

Nehmen wir also weiter an, dass es auch möglich ist, nur den Übergang von einem zum anderen Laut (also das Glissando) hörbar zu machen, ohne dass man aber (bleiben wir mal bei dem Beispiel) das "b" oder das "a" wahrnehmen kann. Dieses isolierte Glissando reicht aber offensichtlich nicht aus, um Vermutungen zu dem Laut davor oder danach anzustellen. Wahrgenommen wird ausschließlich das Glissando und das ist von Sprache und ihrer Bedeutung vollkommen abgekoppelt, also nicht-sprachlich.

"Wurde den Versuchspersonen auf einem Ohr die defekte Plosiv-Vokal-Silbe und auf dem anderen Ohr die Transition vorgespielt, wurde nicht nur die Silbe eindeutig mit Artikulationsstelle identifiziert, sondern gleichzeitig auch das Glissando wahrgenommen."

Im zweiten Teil des Experiments wurden diese beiden "Übergänge" wieder kombiniert. Dabei zeigt sich, dass das vorher nicht erkannte "b" jetzt wieder erkannt wird, wenn gleichzeitig (auf dem anderen Ohr) das Glissando (also der Übergang ohne die Laute "b" und "a") eingespielt wird. Zusätzlich wird aber auch das Glissando als solches erkannt, also als nicht-sprachliches Ereignis.

Ich sehe das mal so: mit duplex perception ist gemeint, dass das Glissando, das beim Übergang von einem plosiven Laut wie dem "b" zu einem Vokal wie dem "a" entsteht, einerseits ausschließlich als Glissando und damit nicht-sprachlich wahrgenommen wird, andererseits aber auch in Kombination mit der Einspielung der Silbe "ba" (Beispiel), bei der die beiden Laute nicht korrekt durch das Glissando verbunden sind, das Verstehen des plosiven Lauts ("b") und damit der Silbe ("ba") möglich macht. Das Glissando hat dann also eine sprachliche Funktion, weil es das Verstehen der Silbe "ba" ermöglicht.

Lässt sich der Artikel dadurch verständlich machen? Herzliche Grüße Senator2108 00:21, 22. Jul. 2009 (CEST)Beantworten

Hallo Senator2108. Ich beende mal den Monolog hier. Imho ist der Artikel durchaus verständlich, auch wenn an der einen oder anderen Stelle noch gefeilt werden könnte. Ich habe noch ein wenig daran gefeilt und den Baustein entfernt. -- Nolispanmo Disk. Hilfe? 12:59, 22. Jul. 2009 (CEST)Beantworten

Nette Art, sich über die Bemühungen anderer zu äußern, aber leider wenig hilfreich! Senator2108 22:16, 22. Jul. 2009 (CEST)Beantworten

Da hast du mich wohl falsch verstanden, denn ich meinte meinen Kommentar keineswegs dispektierlich! Warum haste die Disk. geleert und warum ist der Baustein wieder drin. Er macht imho keinen Sinn mehr. Selbst den Überabeiten-Baustein bräuchte es nicht mehr. Grüße -- Nolispanmo Disk. Hilfe? 19:58, 23. Jul. 2009 (CEST)Beantworten