Wikipedia:Projektdiskussion/Übersichtlichkeit über Nichtindexierung von Projektseiten verbessern

Dies ist eine archivierte Unterseite der Seite Wikipedia:Projektdiskussion. Benutze bitte die aktuelle Diskussionsseite, auch um eine archivierte Diskussion weiterzuführen. Um auf diese Diskussion zu verlinken, kopiere den Seitennamen aus der Adresszeile deines Browsers.

Hallo,

die Seiten in Wikipedia-Namensräumen werden relativ unterschiedlich von Suchmaschinen indiziert. Ein Beispiel: Alle Diskussionsseiten werden nicht indiziert, bis auf die Portal-Diskussion. Das Anlegen von Adminkandidaturdiskus mit dem noindex-Tag ist also oft gar nicht notwendig. Anderes Beispiel: In der MediaWiki:Robots.txt stehen eine Seiten im Wikipedia-Namensraum, die nicht indiziert werden. Die Einordnung dorthin ist teilweise nicht nachvollziehbar. Wieso stehen beispielsweise die Entsperrwünsche drin, aber nicht die Benutzersperrung oder der Vermittlungsausschuss?

In einer Diskussion mit Geitost sind uns diese Unregelmäßigkeiten aufgefallen. Vor Allem fehlt es aber an einer zentralen Seite, auf der erläutert wird, was von Suchmaschinen indiziert wird und was nicht. Daher machte Geitost den Vorschlag einer Seite Wikipedia:Suchmaschinenindex, auf der sowohl vorhandene Nicht-Indizierungen eingetragen als auch neue Vorschläge für Nicht-Indizierung eingebracht werden können.

Was haltet ihr von der Idee? Gruß, --Inkowik 20:29, 21. Jun. 2012 (CEST)[Beantworten]

Die Benutzersperrung und der Vermittlungsausschuss sind bereits in http://de.wikipedia.org/robots.txt eingetragen (über eine globale Liste für alle Wikipedia-Ausgaben). Per MediaWiki:Robots.txt lassen sich lokal für die deutschsprachige Wikipedia zusätzliche Einträge einfügen.
Ich weiß nicht, was gegen eine Übersichtsseite zu dem Thema sprechen sollte. WP:SM! Beste Grüße -- kh80 ?! 20:43, 21. Jun. 2012 (CEST)[Beantworten]
Natürlich kann eine solche zentrale Seite angelegt werden; nur bin ich mir nicht so sicher, ob es nicht schon etwas analoges in einer Hilfeseite oder WP-Seite schon gibt? Zumindest einen Abschnitt?
  • In jedem Fall sollte die Suchmaschinen-Methodik auf einer Wiki-Seite für alle Benutzer verständlich erläutert werden, die Grundprinzipien und Gründe für diese Indexierungs-Ausnahmen erklärt werden; auf das jüngste MB verwiesen sein.
  • Neben einigen Fallbeispielen sollte aber nicht die vollständige Seite MediaWiki:Robots.txt nachgebetet werden, weil es sonst zu Inkonsistenzen kommen würde; aktuelle Details sind dem Link auf die robots.txt zu entnehmen.
Liebe Grüße --PerfektesChaos 20:59, 21. Jun. 2012 (CEST)[Beantworten]
Viel einfacher ist, Robots.txt einzustampfen (also zu leeren) und auf jeder Seite mit __NOINDEX__ zu arbeiten, dann kann es auch jeder beeinflussen und man braucht auch sonst keinen Admin um Anpassungen vorzunehmen, beispielsweise bei Verschiebungen oder wenn eine Unterseite doch ausgenommen werden soll. MediaWiki bietet die Möglichkeit, alle Seiten mit noindex in eine Kategorie zu bekommen, aber das halte ich für weniger sinnvoll. Der Umherirrende 21:40, 21. Jun. 2012 (CEST)
Wenn eine Seite nicht im Suchindex von Google auftauchen soll, hat das doch in der Regel einen guten Grund – und dann sollte das m.E. auch lieber nicht jeder beeinflussen können. Zum Beispiel muss der erste Googletreffer für irrelevante C-Promis ja nicht unbedingt unsere Löschhölle sein, in der einige Benutzer gerne mal herablassende oder ehrenrührige Kommentare abgeben. Ohne robots.txt könnte es genügen, dass irgendein angemeldeter Benutzer aus Versehen für ein paar Stunden das __NOINDEX__ aus Vorlage:Löschkandidaten entfernt, und u.U. stünden dann für Wochen und Monate die LK-Seiten im Google-Index. -- kh80 ?! 08:07, 22. Jun. 2012 (CEST)[Beantworten]
  • Die MediaWiki:Robots.txt gibt für ganze Klassen von Seiten (also alle LK und künftig vielleicht alle Entsperrwünsche oder dergleichen) die unerwünschte Indexierung bekannt. Bei einer Einfügung in jeder einzelnen Seite besteht immer das Risko, dass dies unbemerkt beim Editieren entfernt wird; selbst wenn wie bei LK über Vorlage eingebunden.
  • Es gab tatsächlich bisher keine nachvollziehbaren Infos dazu. Dies sollte wie vorgeschlagen nachgeholt werden.
    • Der WP-NR ist richtig, weil spezifische project policy dargestellt wird.
  • Links und Infos zum Einbauen zusammengestellt:
    • wikipedia.org/robots.txt ist die für alle Wikipedia-Projekte gleiche Seite.
      • Hier konnten früher nur per bugzilla:4937 Eintragungen vorgenommen werden. Seit einiger Zeit wird außerdem dort das projektspezifische MediaWiki:Robots.txt angehängt. bugzilla:36181 wäre im Prinzip nicht nötig gewesen; dafür ist die standardmäßige BNR-Nichtindizierung jetzt auch Admin-geschützt.
      • Bereits vorhanden sind aber beispielsweise:
        Disallow: /wiki/Wikipedia:Vandalensperrung/
        Disallow: /wiki/Wikipedia:Benutzersperrung/
        Disallow: /wiki/Wikipedia:Vermittlungsausschuss/
        Disallow: /wiki/Wikipedia:Administratoren/Probleme/
        Disallow: /wiki/Wikipedia:Adminkandidaturen/
        Disallow: /wiki/Wikipedia:Qualitätssicherung/
        Disallow: /wiki/Wikipedia:Qualit%C3%A4tssicherung/
        Disallow: /wiki/Wikipedia:Vandalismusmeldung/
        Disallow: /wiki/Wikipedia:Gesperrte_Lemmata/
        Disallow: /wiki/Wikipedia:Administratoren/Notizen/
        Disallow: /wiki/Wikipedia:Schiedsgericht/Anfragen/
        Disallow: /wiki/Wikipedia:L%C3%B6schpr%C3%BCfung/
        Disallow: /wiki/Wikipedia:Checkuser/
        Disallow: /wiki/Wikipedia_Diskussion:Checkuser/
        Disallow: /wiki/Wikipedia_Diskussion:Adminkandidaturen/
        – der eingangs dieser Seite genannte Vermittlungsausschuss steht also schon drin, wie kh80 bereits anmerkte.
    • Eine weitere Technik für ganze NR arbeitet mit mw:Manual:$wgNamespaceRobotPolicies in PHP.
    • Hilfe:Magic Words (besser als WL)
    • Robots Exclusion Standard #Metainformationen
    • Wikipedia:Meinungsbilder/Indizierung von Benutzerseiten
    • Wikipedia:Meinungsbilder/Nichtindizierung von Diskussionsseiten durch Suchmaschinen

Beste Grüße --PerfektesChaos 10:26, 22. Jun. 2012 (CEST)[Beantworten]

Die Einträge der Robots.txt lassen sich vom normalen Benutzer nicht überschreiben, bei Verwendung von $wgNamespaceRobotPolicies kann aber jeder Benutzer auf seiner Seite per __INDEX__ das namensraumweite Noindex überschreiben. Dies war ja im Meinungsbild auch gefordert. Der Umherirrende 20:48, 26. Jun. 2012 (CEST)
MediaWiki:Robots.txt ist eine WMF-Lösung, wobei ein Serverskript die Änderungen der Seite in die eigentliche robots.txt überführt, von wo aus die Crawler das dann lesen können. Wie der allerdings getriggert wird, weiß ich auch nicht. Der Umherirrende 20:48, 26. Jun. 2012 (CEST)
Wikipedia:Suchmaschinenindex ist nun gestartet. Kann das jemand nochmal überprüfen? Gruß, --Inkowik 16:21, 10. Jul. 2012 (CEST)[Beantworten]
Gut gemacht! Vielleicht noch [[Wikipedia:Noindex]] umbiegen oder verlinken? Perfekt wäre jetzt noch ein Kurierartikel dazu... auch zur Umsetzung des NOINDEX-Meinungsbilds neulich. Grüsse --Atlasowa (Diskussion) 12:36, 11. Jul. 2012 (CEST)[Beantworten]
(Dankeschön) Naja, das „[[Wikipedia:Noindex]]“ soll das Syntaxelement __NOINDEX__ beschreiben; und müsste heutzutage auch überlagert sein mit einem [[Hilfe:Noindex]]. Um diesen Aspekt werde ich mich bei Gelegenheit kümmern und habe mir eine Notiz gemacht. Am Zielort wurde bereits auf die neue Seite verlinkt. Liebe Grüße --PerfektesChaos 14:42, 11. Jul. 2012 (CEST)[Beantworten]

Letzter Beitrag am 11.Jul.2012.