Die Spezialseite Spezial:Weblinksuche ermöglicht die Suche nach Wikipedia-Seiten, in denen bestimmte Weblinks enthalten sind. Das sind Seiten (meist Artikel), in denen die Verlinkung im Format einer URL erfolgt.

Mögliche Protokolle Bearbeiten

Alle theoretisch möglichen Protokolle sind auf der Spezialseite angegeben.

  • Längst nicht alle diese Protokolle können überhaupt in einer Wikipedia vorkommen.
  • Praktisch relevant sind nur
    • http://
    • https://
    • ftp://

Bis Sommer 2023 war eine gezielte Suche nach dem protokoll-relativen Format beginnend mit // möglich, das mittlerweile in den Wikis der WMF wirkungsgleich mit https:// ist.

Seit Juli 2023 gilt außerdem:

  • Wird beginnend mit der Domain angegeben, also ohne ein Protokoll, dann wird (zunächst?) nach http:// und dann nach https:// sowie nach Protokoll-relativen Links (beginnend mit //) gesucht. Dabei werden im Ergebnis die Protokoll-relativen Links genau wie http://-Links angezeigt.

Suchmuster Bearbeiten

  • Generell ist der Beginn einer URL anzugeben:
    • http://spam.example.com/stuff
    • Findet alle URL, die auf diese Weise beginnen.
    • In der Domain sub.example.com sind Groß- und Kleinschreibung gleichgültig.
      • Generell soll die Domain in Artikeln jedoch nur in Kleinschreibung geschrieben werden, um Suchvorgänge aller Art zu ermöglichen.
    • Das Protokoll wird exakt getroffen; Groß- und Kleinschreibung wären gleichgültig. Allerdings wird es ohnehin praktisch immer in Kleinschreibung notiert.
    • Der Schrägstrich am Ende der Domain ist nicht erforderlich, wenn nur diese angegeben ist.
      • Es werden auch Seiten gefunden, in denen dieser Schrägstrich nicht in der Verlinkung vorkommt.
    • Vom Pfad wird der Anfang exakt berücksichtigt, soweit er nach dem Schrägstrich angegeben wurde.
    • Für den Pfad ist Groß- und Kleinschreibung signifikant.
    • Andere Zeichen als einfache Buchstaben, Ziffern und gängige Sonderzeichen müssen durch Prozentkodierung verschlüsselt werden; also eine Folge aus einem Prozentzeichen % und zwei Ziffern bzw. Großbuchstaben, ggf. mehrfach.
    • ? am Ende der URL wird zurzeit ignoriert; es handelt sich um die sogenannte query (Abfrage) und eine leere Abfrage ist nicht signifikant.
    • Fragmentbezeichner # (sogenannte Anker) sind grundsätzlich nicht suchbar.
      • Es wird in den Tabellen nur die eigentliche Ressource vermerkt.
  • Das eigene Projekt, also hier de.wikipedia.org für die deutschsprachige Wikipedia, kann nie gefunden werden.
    • Das würde die Trefferliste und die Datenbank fluten, weil sehr oft interne Angelegenheiten im URL-Format verlinkt werden.
  • Nur innerhalb der Domain (also etwa sub.example.com) sind * als Platzhalter möglich.
    • Beispiel:
      • http://*.wikipedia.org
      • findet sowohl Verlinkungen mit
        • http://en.wikipedia.org
      • wie auch mit
        • http://fr.wikipedia.org
      • wie auch mit
        • http://wikipedia.org
      • und weitere.
    • Alternativ lässt sich auch ein * ohne das Protokoll angeben; dann wird alles gefunden, was zu der danach angegebenen Domain passt.
    • Durch einen langjährigen Programmierfehler werden die Pfade im Anschluss an die Domain ignoriert, sobald ein * auftritt.[1]

Erweiterte Suchoptionen Bearbeiten

Aus Performancegründen steht aktuell kein Namensraum-Filter zur Verfügung. [2]

Es lassen sich mittels URL-Parameter auch Abfragen vorab bilden und zur Wiederverwendung speichern; Parameter dazu.

Angezeigt werden bis zu 60.000 Ergebnisse.

Andere Werkzeuge Bearbeiten

Anmerkungen Bearbeiten

  1. Phabricator – Bug/Feature: 17218
  2. Phabricator – Bug/Feature: 12593