Multi-Stimulus Test with Hidden Reference and Anchor

Der Multi-Stimulus Test with Hidden Reference and Anchor (MUSHRA) ist ein Hörtest zur vergleichenden Beurteilung der Audio-Qualität verschiedener Hörproben. Er wird zur Prüfung der Übertragungsqualität von Systemen zur verlustbehafteten Audio-Übertragung eingesetzt. Gegenüber dem älteren Mean Opinion Score (MOS) soll er schon bei einer kleineren Anzahl an Testpersonen statistisch signifikante Ergebnisse liefern können. Der Funksektor der Internationalen Fernmeldeunion (ITU-R) empfiehlt den Test offiziell in der Empfehlung Nummer BS.1534-3.[1] für Übertragungen beziehungsweise Codierungstechniken mittlerer Audio-Qualität; für Übertragungssysteme mit transparenter Kodierung, also nicht oder kaum wahrnehmbaren Artefakten gilt stattdessen die Empfehlung BS.1116-3, die eine Doppelblind-Hörtestmethode beschreibt.[2] Für Signale von Telefonqualität (niedriger als die in MUSHRA getestete Qualität) gilt die Empfehlung der ITU-T P.800.[3]

Beim MUSHRA-Test wird das uncodierte Original zusammen mit mehreren codierten Versionen des gleichen Signals dargeboten. Der Hörer soll die codierten Signale auf einer Skala von 0 bis 100 MUSHRA-Punkten bewerten. Dazu kann dieser beliebig zwischen allen Signalen hin- und herschalten oder sich auf einen kürzeren Ausschnitt des Signals konzentrieren und diesen wiederholt hören. Bei der Bewertung soll der Unterschied der codierten Signale zum Original bewertet werden. Unter den zu bewertenden Signalen befinden sich eine weitere Kopie des uncodierten Originals (die versteckte Referenz), sowie mehrere Ankersignale. Dies sind zumeist bandbegrenzte Signale mit einer Bandbreite von 3,5 kHz und 7 kHz. Sie dienen dazu, dass bei wiederholten Tests oder Tests in verschiedenen Laboren die Skala ähnlich benutzt wird und Biases (Verzerrungen der Ergebnisse) vermieden werden.[4][5]

Im Gegensatz zu Tests nach Empfehlung der ITU-T P.800 wird sowohl in MUSHRA-Tests als auch in BS.1116-Tests die Qualitätsbeurteilung von trainierten Expertenhörern durchgeführt. Expertenhörer sind im Allgemeinen kritischer als untrainierte Hörer und sind besser in der Lage, ihre Ergebnisse zu reproduzieren. Generell haben sie eine geringere Standardabweichung, weshalb weniger Hörer benötigt werden als bei Tests mit untrainierten Hörern. Außerdem vergleichen Expertenhörer mehr zwischen den einzelnen Signalen und konzentrieren sich häufiger auf kürzere Abschnitte des Signals.[6]

Man nimmt an, dass die Präferenzen von Expertenhörern und untrainierten Hörern ähnlich sind. Allerdings gewichten Expertenhörer räumliche Artefakte etwas stärker als untrainierte Hörer.[7]

Mögliche Kriterien dafür, ob jemand ein Expertenhörer ist, sind, wie gut er/sie in der Lage ist, seine/ihre Ergebnisse zu reproduzieren und ob er/sie Unterschiede zwischen den verschiedenen Signalen hört.[8] Wird die versteckte Referenz (also das uncodierte Original) mehrfach mit weniger als 90 MUSHRA-Punkten bewertet, gilt dies ebenfalls als Hinweis auf einen unzuverlässigen Hörer.

In P.800-Tests präsentiertes Sprachmaterial muss in der Muttersprache der Hörer sein,[3] da Hörer mit geringeren Sprachkenntnissen die Audioqualität als schlechter bewerten als Muttersprachler oder Hörer, welche die Sprache fließend sprechen.[9] Im Gegensatz dazu können in MUSHRA-Tests auch Sprachsignale in einer fremden Sprache beurteilt werden, da die Hörer die Möglichkeit haben, die Signale mehrfach zu hören und etwaige Schwierigkeiten beim Wahrnehmen der Artefakte dadurch ausgleichen können, dass sie diese Signale länger hören und mehr zwischen den einzelnen codierten Versionen und dem Original vergleichen.[10]

Literatur

Bearbeiten
  1. itu.int
  2. https://www.itu.int/rec/R-REC-BS.1116
  3. a b ITU-T: P.800 : Methods for subjective determination of transmission quality. Abgerufen am 2. Juli 2017.
  4. Zielinski, Slawomir, Rumsey, Francis, Bech, Søren: On Some Biases Encountered in Modern Audio Quality Listening Tests-A Review. In: Journal of the Audio Engineering Society. Band 56, Nr. 6, 15. Juni 2008 (aes.org [abgerufen am 2. Juli 2017]).
  5. Zielinski, Slawomir: On Some Biases Encountered in Modern Audio Quality Listening Tests (Part 2): Selected Graphical Examples and Discussion. In: Journal of the Audio Engineering Society. Band 64, Nr. 1/2, 5. Februar 2016 (aes.org [abgerufen am 2. Juli 2017]).
  6. Schinkel-Bielefeld, Nadja, Lotze, Netaya, Nagel, Frederik: Audio quality evaluation by experienced and inexperienced listeners. In: Proceedings of Meetings on Acoustics. Band 19, Nr. 1, 14. Mai 2013, S. 060016, doi:10.1121/1.4799190 (scitation.org [abgerufen am 2. Juli 2017]).
  7. Francis Rumsey, Slawomir Zielinski, Rafael Kassier, Søren Bech: Relationships between experienced listener ratings of multichannel audio quality and naïve listener preferences. In: The Journal of the Acoustical Society of America. Band 117, Nr. 6, 31. Mai 2005, ISSN 0001-4966, S. 3832–3840, doi:10.1121/1.1904305 (scitation.org [abgerufen am 2. Juli 2017]).
  8. Lorho, Gaëtan, Le Ray, Guillaume, Zacharov, Nick: eGauge—A Measure of Assessor Expertise in Audio Quality Evaluations. Hrsg.: 38th Conference of the Audio Engineering Society. 13. Juni 2010 (aes.org [abgerufen am 2. Juli 2017]).
  9. Blašková, Ľubica, Holub, Jan: How Do Non-native Listeners Perceive Quality of Transmitted Voice? In: Communications. Band 10, Nr. 4, 2008, ISSN 1335-4205, S. 11–15 (researchgate.net [abgerufen am 1. Juli 2017]).
  10. Schinkel-Bielefeld, Nadja, Jiandong, Zhang, Yili, Qin, Leschanowsky, Anna Katharina, Shanshan, Fu: Is it Harder to Perceive Coding Artifact in Foreign Language Items? – A Study with Mandarin Chinese and German Speaking Listeners. Hrsg.: 142nd Convention of the Audio Engineering Society, Berlin. Paper #9739, 11. Mai 2017 (aes.org [abgerufen am 2. Juli 2017]).