Maziminke

Über mich

Ich bin Jahrgang 1980 und habe 2006 mein Master-Studium im Bereich "Informationsmanagement und Informationstechnologie" an der Universität Hildesheim erfolgreich abgeschlossen. Aktuell arbeite ich als Consultant für die Open-Source Umfragesoftware Limesurvey ~~schreibe ich meine Doktorarbeit am Institut für Mathematik und Angewandte Informatik der Universität Hildesheim (weitere Infos dazu gibt es weiter unten)~~.

Basierend auf meinen Erfahrungen als ehrenamtlicher Leiter des Supports beim Limesurvey-Projekt biete ich rund um Limesurvey Hilfe und Support an. Neben der Erstellung von Limesurvey Umfragen umfasst dies das Design von professionellen Limesurvey Templates oder auch die Programmierung neuer Limesurvey Features.

Außerdem leite ich den Limesurvey Template Shop, wo neben professionellen Limesurvey Business Templates auch spezielle Limesurvey Smartphone/Tablet Templates wie das erste offizielle Limesurvey iPhone Template oder das erste Limesurvey Tablet Template heruntergeladen werden können.

Meine Beiträge bei Wikipedia ...

... wurden bisher nur unter verschiedenen IPs gespeichert und sind aktuell noch recht bescheiden. Wenn ich Rechtschreibfehler finde, korrigiere ich diese; inhaltliche Änderungen waren bisher auch nur auf die Korrektur von Fehlern oder das Ergänzen zusätzlicher Informationen beschränkt. Diese Arbeiten bezogen sich meist auf Artikel aus dem Gebiet des Zweiten Weltkriegs, in dem ich mich als geschichtlich Interessierter ganz gut auskenne.

Meine Doktorarbeit mit Wikipedia

...ist seit Juli 2012 abgeschlossen und hier verfügbar: "Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“". Ein Screen-Cast des entwickelten Prototyps ist hier zu finden: Simpedia Screen-Cast

Basis für meine Dissertation ist eine frühere Seminararbeit über die "Analyse automatisch generierter Ähnlichkeitsstrukturen einschließlich einer Untersuchung der Navigation verschiedener Benutzer in dem erzeugten Gefüge". In der Enzyklopädie "Bertelsmann Lexikodisk" gibt es eine Zusatzfunktion, die zu einem Artikel eine Liste mit inhaltlich ähnlichen Artikeln anzeigt. Diese Liste wurde nicht per Hand von den Autoren, sondern über eine spezielle Software erstellt. Gibt man nun einem Benutzer die Aufgabe über die Liste der ähnlichen Artikel von dem Artikel über Mozart zu dem Artikel über die Mondlandung zu navigieren, so ließen sich in Experimenten nach ein paar Benutzerinteraktionen Vermutungen anstellen, in welchen Wissensgebieten die Nutzer tiefergehende bzw. keine Kenntnisse haben. Ziel meiner Arbeit ist es nun, diesen Sachverhalt weiter zu analysieren, und zwar auf Basis der freien Enzyklopädie Wikipedia.

Die einzelnen Arbeitsschritte meiner Dissertation

(Der folgende Abschnitt ist etwas veraltet. Schaut einfach in das oben verlinkte PDF und die Einleitung zu den einzelnen Kapiteln für aktuellere Information.) Hier möchte ich die einzelnen Arbeitsschritte jeweils kurz vorstellen. Am Ende jedes Abschnittes befinden sich ein paar offene Fragen, die ich gerne mit anderen Nutzern diskutieren würde.

Wikipedia auf dem eigenen Rechner

Auf meinem mit dem Weihnachtsgeld aufgerüsteten Rechner (3GHz, 2GB RAM, 240GB HD) ist aktuell der Databasedump von Ende April 2007 installiert. Allein das Einspielen der Daten in die Datenbank und das Hinzufügen zusätzlicher Tabellen dauerte mehrere Tage. Dabei hat mir die Anleitung sehr geholfen. Probleme ergeben sich hin und wieder bei umfangreicheren SQL-Abfragen, was auf die Größe der Datenbank zurückzuführen ist.

Bestimmung der Oberkategorien zu einem Artikel

Die Oberkategorien der Wikipedia sollen letztendlich Basis zur Bestimmung einzelner Wissensgebiete sein. Nach meinen Informationen sind weniger als 1% aller Artikel unkategorisiert. Allen anderen sind 1 oder mehrere Unterkategorien auf verschiedenen Ebenen zugeordnet. Um auf Grundlage der zugeordneten Kategorien die jeweiligen obersten Kategorien zu bestimmen, habe ich ein PHP-Skript geschrieben, das sich – ausgehend von den zugeordneten Kategorien – den Kategorienbaum bis zu einer der Oberkategorien hochschlängelt. Basis sind zwei neue Tabellen in der Datenbank, in denen zum einen Infos zu den einzelnen Kategorien (ID und Name) und zum anderen die Eltern-Kind-Relationen zwischen den Kategorien eingetragen sind. Die Ansätz beruhen auf den Arbeiten vom Benutzer SirJective.

Bestimmung ähnlicher Artikel

Über eine spezielle Software werden - durch Analyse des Artikeltextes zu einem Artikel - die inhaltlich ähnlichen Artikel bestimmt. Dazu wurde eine weitere Tabelle in die Wikipediadatenbank eingeführt, die die Primärschlüssel der ähnlichen Artikel enthält und auch die Zuordnung zu den Oberkategorien erfasst. Die Liste der ähnlichen Artikel soll dann in die Wikipediaoberfläche integriert werden. Jeder Listeneintrag soll als Link direkt auf den Wikipediaartikel zeigen.
-> Es hat sich gezeigt, dass aufgrund der großen Datenmenge enorme Performanceprobleme bei der Berechnung der Ähnlichkeiten auftreten. Dies resultiert daraus, dass die Berechnung mit zunehmender Artikelanzahl exponentiell ansteigt. Um die Artikelmenge zu begrenzen, selektiere ich nur Artikel, die eine bestimmte Mindestlänge besitzen und auf die durch eine Mindestanzahl von Artikeln verlinkt wird. Diese Filterung lässt sich durch eine einfache Datanbankabfrage durchführen.

Protokollierung der Benutzerinteraktionen

Über die Mediawiki-Software lassen sich Benutzerkonten für verschiedene Benutzer anlegen. Später muss jeder Klick auf einen Link in der Liste ähnlicher Artikel sowie auch Rücksprünge zum vorherigen Artikel protokolliert werden. Dabei werden statt eines einfachen Links auf die ähnlichen Artikel drei Buttons mit Pro, Neutral, Kontra (natürlich ohne die Schrift dazu) genutzt, die angeben, ob ein Benutzer den Link wegen Hintergrundwissens (+), einer Ahnung (=) oder einfach ohne Hintergrundwissen (-) angeklickt hat.
Die Auswertung erfolgt dann für jede Navigation von Artikel X zu Artikel Y (über die Liste der ähnlichen Artikel) und für jeden Nutzer in aggregierter Form.

Auswertung der Protokolldaten

Kern ist die Formulierung von Aussagen zu Wissen bzw. Nicht-Wissen des Benutzers. Folgende Überlegungen habe ich bisher getroffen:

Rücksprünge werden als Nicht-Wissen gewertet. Eventuell könnte man die von einem Artikel ausgehenden Rücksprünge nach Kategorien ordnen, um zu sehen, aus welchen Kategorien oder in welche Kategorien gesprungen wird. Dies könnte auf Vorlieben/spezifisches Wissen hindeuten.
Vergleich des vom Benutzer gewählten Weges mit dem theoretisch kürzesten Weg (müsste berechnet werden -> sehr komplex)
Für jeden ähnlichen Artikel Berechnung der Schritte bis zum Zielpunkt. Wählt Benutzer ähnlichen Artikel mit wenigsten Schritten, kann dies als Wissen gewertet/gewichtet werden (Gewichtung anhand der Schritte bis zum Ziel) -> sehr komplexe Berechnungen, kaum in Realtime durchzuführen
Artikel, auf die wenig intern verlinkt wird, könnten als Spezialwissen interpretiert werden.
Artikellänge: Lange Artikel = bekanntes Thema, kurzer Artikel = Spezialwissen
Dauer: lange Bearbeitungszeit -> Nutzer musste (erst alle Links lesen und) lange überlegen = schlecht
~~Artikel mit wenigen Aufrufen = spezielles Wissen, das evtl. höher gewichtet werden könnte (analog viele Aufrufe = Allgemeinwissen mit geringerer Gewichtung)~~ -> Leider sind keine Daten zur Anzahl der Artikelaufrufe verfügbar.

Maziminke
(letztes Update: 04.10.2012 (CET))