Benutzer Diskussion:Sabrieleauftistik/Alternative Löschentscheidungen

Letzter Kommentar: vor 1 Jahr von Sabrieleauftistik in Abschnitt "völlies Desinteresse"

"völlies Desinteresse"

Bearbeiten

Naja, ich beobachte das Experiment durchaus. Aber es ist noch zu früh, meinen Senf dazu zu geben. :-) Der Experimentaufbau ist völlig in Ordnung. Spannend wird die Auswertung. Es sieht oberflächlich betrachtet so aus, als würde eine hohe Übereinstimmung vorliegen. Aber wir haben auch keine 50/50 Verteilung von Behalten und Löschen und daher wäre allein schon per Zufall eine höhere Übereinstimmung als 50% zu erwarten. Die Frage ist, wie stark es sich vom Zufall unterscheidet. Wenn ich mich nicht verzählt habe, müssten ca. 70% der Artikel gelöscht sein. Wenn ich stattdessen eine "gezinkte" Münze werfe, die ebenfalls 70% Löschen anzeigt, müsste man in ca. 60% der Fälle einig sein. (Die Rechnung ist 0.7*0.7 + 0.3*0.3) In den bisher gesammelten Daten gibt es derzeit eine Übereinstimmung in 80% der Fälle. Das heißt es ist besser als der Zufall, aber auch nicht ganz perfekt. Es liegt so auf dem halben Weg zwischen komplett random und perfekt korreliert. Aber vielleicht sind auch alternative Auswertungen denkbar. Was auch interessant ist dass gerade da, wo man eine Checkliste durchgehen kann, natürlich eine Übereinstimmung auftritt. Checklisten sind allgemein als gute Instrumente zur Verringerung von Noise bekannt. --TheRandomIP (Diskussion) 21:33, 7. Sep. 2022 (CEST)Beantworten

Oh, erst einmal danke für die Rückmeldung. Da keine Reaktion kam, dachte ich echt, das sei ignoriert worden…
Die Fälle, wo man Checklisten durchgehen kann, sind auch sehr „dankbare“ Fälle, in denen man sich nicht tief in das jeweilige Thema einarbeiten muss. Für dieses Experiment sind sie natürlich eher weniger interessant; man könnte höchstens mal sehen, ob es bei der Interpretation der Checklisten-Items an sich Auslegungsspielraum gibt.
Was mir auffällt, ist, dass ich sorgfältiger oder zumindest umfangreicher begründe als die echten Admins. Die schreiben oft einfach nur lapidar „enzyklopädische Relevanz nicht ausreichend dargestellt“ oder dergleichen. Ich vermute zwar, dass das das ganz pragmatische Arbeitsersparnis ist (die Relevanzkriterien kann schließlich jeder selbst nachlesen), aber so lässt sich natürlich mitunter schwer(er) nachvollziehen, ob wir denselben Artikel zum Beispiel aus denselben Gründen löschen würden. Ich meine, es sind ein paar Entscheidungen dabei, wo ich zum selben Ergebnis wie der Admin komme, aber mit anderer Begründung (etwa Relevanz vs. Artikelqualität).
Die Stichprobe ist noch recht klein; (ich habe mich nie eingehend mit Konfidenzintervallen befasst, aber) ob die jetzt festgestellten 80 % ausreichend weit von der bei Zufall zu erwartenden Übereinstimmung abweichen, bin ich unsicher. Der Fisher-Test gibt mir ein   von etwa 0,7 %. --Sabrieleauftistik (Diskussion) 11:56, 8. Sep. 2022 (CEST)Beantworten