Themenmodellierung ist eine Methode des maschinellen Lernens, die verwendet wird, um Themen in einem Textkorpus zu identifizieren und zu klassifizieren.[1] Sie verwendet statistische Methoden, um die Häufigkeit von Wörtern in Bezug auf bestimmte Themen zu analysieren und Muster zu erkennen. Das Ergebnis ist eine Darstellung des Textkorpus in Form von Themen, die als Gruppe von Wörtern definiert sind, die häufig zusammen auftreten. Es wird oft in der Textanalyse, der Informationssuche und der Dokumentenklassifizierung verwendet.

Im Allgemeinen können Themenmodelle in zwei Klassen eingeteilt werden: probabilistische und nicht-probabilistische Modelle.[2] Nicht-probabilistische Modelle funktionieren über einen algebraischen Matrixfaktorisierungsansatz und sind die älteren Modelle der beiden Klassen. Die probabilistischen Modelle wurden entwickelt, um die Ergebnisse der nicht-probabilistschen Modelle zu verbessern, indem durch Verwendung generativer Modellansätze ein Wahrscheinlichkeitssinn hinzugefügt wurde.[1]

Nicht-probabilistische Modelle

Bearbeiten

In den frühen 1990ern wurden die Konzepte der Latent Semantic Analysis (LSA) und der Non-Negative Matrix Factorization (NMF) entwickelt. Beide Modelle basieren auf der Bag-of-Words-Methode. Die Idee hinter der Bag-of-Words-Methode besteht darin, einen Text in eine Folge von Wörtern zu zerlegen und diese Wörter als Einzelzeichen zu behandeln, ohne die grammatikalischen oder semantischen Beziehungen zwischen ihnen zu berücksichtigen. Ein Text wird in eine Liste von Wörtern (manchmal auch als Tokens bezeichnet) zerlegt, und jedes Wort wird als einzelnes Feature betrachtet.

Nonnegative Matrix Factorization (NMF)

Bearbeiten

Bei NMF wird eine Dokument-Begriffs-Matrix mit den Gewichtungen verschiedener Begriffe aus einem Satz von Dokumenten erstellt. Diese Matrix wird in eine Begriff-Merkmal- und eine Merkmal-Dokument-Matrix faktorisiert. Die Merkmale werden aus den Inhalten der Dokumente abgeleitet, und die Merkmal-Dokument-Matrix beschreibt Datencluster verwandter Dokumente.[3]

Latent Semantic Analysis (LSA)

Bearbeiten

LSA basiert auf dem Prinzip der Singulärwertzerlegung und der Verteilungshypothese, bei der Begriffe mit ähnlicher Bedeutung auch näher in ihrer kontextuellen Benutzung sind. Deswegen werden die Texte in Vektoren umgewandelt und nach ähnlichen Wörtern in den Texten gesucht, um sie dann in Themen zu gruppieren. Dabei werden die Begriffe mithilfe einer Gewichtungsfunktion gewichtet. Diese sollte hochfrequenten Begriffen, die in vielen Dokumenten vorkommen, eine geringe Gewichtung geben und solchen eine hohe Gewichtung, die in einigen Dokumenten vorkommen, aber nicht in allen. Diese Methode weicht leicht von der Bag-of-Words-Methode ab und wird deswegen auch als Sequence-of-Words-Methode bezeichnet. LSA kann allerdings auch ohne die kontextuelle Benutzung mit der reinen Bag-of-Words-Methode angewandt werden.

Sentence-Transformer

Bearbeiten

Neuere Ansätze benutzen Satz-Embeddings[4] aus Sentence-Transformern (vgl. Transformer (Maschinelles Lernen)), welche auf Large Language Models basieren, und clustern die Embeddings.

Probabilistische Modelle

Bearbeiten

Die probabilistischen Modelle wurden ursprünglich auf Basis der nicht-probabilistischen entwickelt. Aus diesem Grund ist das erste solche Modell auch die Probabilistic Latent Semantic Analysis (PLSA). Wie bei der latenten semantischen Analyse, kann man eine niedrigdimensionale Darstellung der beobachteten Variablen in Bezug auf ihre Affinität zu bestimmten verborgenen Variablen ableiten. Dafür wird jedes Dokument als eine Liste von Mischungsverhältnissen von Begriffen dargestellt und auf eine Wahrscheinlichkeitsverteilung von einer festen Menge von Themen reduziert.

Latent Dirichlet Allocation ist eine häufig eingesetzte Methode zur Themenmodellierung. Sie wurde von David Blei, Andrew Ng und Michael I. Jordan entwickelt.[5] Dokumente sind in diesem Fall gruppierte, diskrete und ungeordnete Beobachtungen (im Folgenden „Wörter“ genannt). In den meisten Fällen werden Textdokumente verarbeitet, in denen Wörter gruppiert werden, wobei die Wortreihenfolge keine Rolle spielt.

Bearbeiten

Einzelnachweise

Bearbeiten
  1. a b David M. Blei: Probabilistic topic models. In: Communications of the ACM. Band 55, Nr. 4, 1. April 2012, ISSN 0001-0782, S. 77–84, doi:10.1145/2133806.2133826.
  2. Pooja Kherwa, Poonam Bansal: Topic Modeling: A Comprehensive Review. In: EAI Endorsed Transactions on Scalable Information Systems. Band "7", Nr. 24, 24. Juli 2019, ISSN 2032-9407, doi:10.4108/eai.13-7-2018.159623 (eudl.eu [abgerufen am 23. Januar 2023]).
  3. Weixiang Liu, Nanning Zheng, Qubo You: Nonnegative matrix factorization and its applications in pattern recognition. In: Chinese Science Bulletin. Band 51, Nr. 1, 1. Januar 2006, ISSN 1001-6538, S. 7–18, doi:10.1007/s11434-005-1109-6.
  4. https://arxiv.org/abs/2203.05794
  5. Blei, David M. and Ng, Andrew Y. and Jordan, Michael I.: Latent dirichlet allocation. In: The Journal of Machine Learning Research. Nr. 3, 3. Januar 2003, S. 993–1022.