Wikipedia:Technik/Cloud/Datenschutz

Datenschutz und WikiMedia Cloud Services


Diese Projektseite stellt Informationen zu Datenschutzfragen im Zusammenhang mit den Cloud-Tools zusammen.

Auf allen Tools unter tools.wmflabs.org bzw. toolforge.org soll die IP-Adresse ausgeblendet werden, bevor den Tools und damit letztlich ihren Autoren die Anfrage übermittelt wird.

AllgemeinesBearbeiten

Die Werkzeuge werden auf toolforge.org bzw. wmflabs.org betrieben, deren Domain-Inhaber die Wikimedia Foundation ist; deren Abkürzung WMF ist in wmflabs explizit enthalten. Für ihre Angebote gilt die Datenschutzerklärung der Wikimedia.

Für die Werkzeuge gibt es weiterhin in den wikitech:Wikitech:Cloud Services Terms of use #What uses of Cloud Services do we not like? eine Erinnerung:

  1. […] accessing other systems without authorization, accessing private data without authorization […].
  2. Misuse of Private Information: Do not collect or misuse private information of users, as defined in “Private Information”, below.

Weitergabe an DritteBearbeiten

Auf Wikipedia:Datenschutz #Unsere Antwort auf Do-Not-Track-Signale (DNT-Signale) heißt es:

„Wir fühlen wir uns nachdrücklich verpflichtet, nichtöffentliche Informationen, die wir von dir erfassen, nicht mit Dritten zu teilen. Insbesondere erlauben wir kein Tracking durch Internetseiten Dritter, die du nicht besucht hast […].“

Wer eine URL der Tools aufruft, kann nicht erwarten, ohne Vorwarnung auf eine externe Domain weitergeleitet zu werden; im Moment der Verarbeitung auf der Zielseite werden dann sämtliche Browser-Informationen und die IP-Adresse Dritten zugänglich.

Weiterhin kann niemand erwarten, dass in einer Ergebnisseite der Tools externe Ressourcen eingebunden sind, wodurch IP-Adresse und Browser-Profil an Externe übermittelt werden.

Zwar heißt es unter Wikipedia:Datenschutz #Zum Verstehen und Experimentieren:

„[…] geben wir einigen Entwicklern gegebenenfalls eingeschränkten Zugriff auf Systeme, die Ihre personenbezogenen Daten enthalten […].“

Dies gilt aber nur für die im Auftrag der Foundation entwickelten Angebote der MediaWiki-Software und durch explizite Ermächtigung. Bei den aus eigenem Antrieb von Freiwilligen angebotenen Tools außerhalb der MediaWiki-Software und ohne eine ausdrückliche Beauftragung und Vereinbarung ist dies regelmäßig nicht der Fall.

Eine Auswertung ist allgemein nur zulässig, wenn sie den Zielen der Wikimedia Foundation und insbesondere der Verbesserung von Wikimedia-Seiten dient. Private Neugier von Tool-Autoren fällt regelmäßig nicht darunter.

VermeidungBearbeiten

Um entsprechend lizensierte Standardbibliotheken verfügbar zu machen, ohne die Anfragedetails der Tools mit einem externen Anbieter in Verbindung zu bringen, gibt es eine Kopie des cdnjs – dies kann in Ergebnisseiten eingebunden werden, die entsprechende Ressourcen verwenden sollen.

Browser-ProfilBearbeiten

Hauptartikel: Anonymität im Internet #Browser-Profil

Bei jedem Besuch einer Internet-Seite, aber schon beim Abruf einer Ressource wie etwa eines Bildes werden eine Vielzahl von Kenndaten übermittelt: Browser-Typ, spezifische Browser-Version, Betriebssystem des Rechners, Bildschirm-Eigenschaften (Größe, Farbdarstellung, Hardware-Unterstützung), installierte Plug-Ins nebst deren Versionen und der Reihenfolge ihrer Installation, Sprachpräferenzen (Muttersprache des Benutzers) und Zeitzone, akzeptierte Datentypen und deren Reihenfolge. Bei manchen Mobilgeräten kommt sogar noch eine eindeutige Gerätekennung hinzu, die keinerlei Zweifel mehr übrig lässt.

Auch wenn sich einzelne Eigenschaften gelegentlich ändern (moderne Browser sorgen alle paar Wochen für eine Aktualisierung), so bleiben die restlichen Angaben und meist auch die IP-Adresse unverändert. Auf diese Weise unterbrochene Profile können mit großer Sicherheit wieder aneinandergefügt werden; dazu ist inzwischen frei erhältliche Software verfügbar. Beim Abruf einer neuen Browser-Version wir oft eine Mikro-Versionsnummer eingebettet, die sich alle paar Stunden ändert. Damit wird die Spezifität zwischen den Versionswechseln sogar noch erhöht. Der Austausch eines Bildschirms wird durch die konstant gebliebenen sonstigen Daten kompensiert.

Dieses Profil oder „Browser-Fngerabdruck“ ermöglicht eine problemlose Wiedererkennung der Benutzer. Die traditionell eingesetzten Cookies machen die Auswertung für den Sammler zwar einfacher; die Cookies werden jedoch oft systematisch gelöscht. Gegen das Browser-Profil können die meisten Benutzer hingegen wenig unternehmen, es insbesondere nicht vor jedem Seitenabruf austauschen.

Unter den weltweit wenigen Zehntausend Anwendern der Tools wird es kaum zwei geben, die gleiche Profile und IP-Range hätten. Damit ist die Abfolge von Werkzeuganfragen eindeutig zuzuordnen, und bei der nachfolgenden Seitenbearbeitung im Wiki, die im Zusammenhang mit speziellen Abfragen stehen, ist dann auch die Zuordnung zum lokalen wie globalen Benutzerkonto möglich. Damit lassen sich IP-Adresse und Wiki-Nickname einander zuordnen; eine Möglichkeit, die ausdrücklich Checkusern vorbehalten ist.

Auf panopticlick.eff.org kann sich jeder über die Einzigartigkeit seines Browsers informieren.

Für Tools zugängliche NutzerdatenBearbeiten

Unter tools.wmflabs.org bzw. toolforge.org wird die IP-Adresse des Anwenders ausgeblendet.

Mit dem www ist die Cloud über spezielle Server verknüpft; man könnte sie Proxy (oder auch Gateway) nennen.

Diese Proxy-Server eliminieren die wahre IP-Adresse aus der Anfrage, reichen dann die sonstige Anfrage an das jeweilige Werkzeug weiter. Die wirkliche IP-Adresse im www wird dabei ersetzt durch eine „private“, üblicherweise die interne „Hausnummer“ dieses Servers in der Cloud. Das ist für ihn immer der gleiche Wert und lässt keine Rückschlüsse auf das www zu. Typisch sind Adressen wie 10.*.*.* oder 127.*.*.* oder 192.168.*.* usw.; mehrere Abrufe können von verschiedenen Servern entgegengenommen werden.

Die Proxy-Server filtern nicht nur die Eingabe; sie kontrollieren auch die vom Werkzeug generierte Antwort und fügen in die Antwort eine Content-Security-Policy ein – damit wird im Browser des Anwenders überwacht, ob Werkzeuge vermeidbare externe Ressourcen laden oder womöglich verbotene Tracking-Methoden über fremde Server einbauen; Verstöße werden der WMF zurückgemeldet.

Die Zugriffe werden optional einzeln protokolliert[1] (nur mit internen IP-Adressen) und sind dann auch für Werkzeugbetreiber einsehbar. Unabhängig davon wird durch die Serverfarm-Betriebsgruppe ein Log mit den echten IP-Adressen für alle Zugriffe geführt und rund drei Tage zur Abwehr aktueller Angriffe und Behebung technischer Störungen aufgehoben; dieses überschreibt sich zyklisch immer wieder und wird auch vor neugierigen kommerziellen wie staatlichen Stellen geschützt.

Den Tools steht ein Satz an Umgebungsvariablen zur Verfügung, die mitsamt Werten für den aktuellen Benutzer unter toolforge:tools-info/phpinfo abgerufen werden können.

Kritische Informationen in Umgebungsvariablen
Variable Bedeutung Erläuterungen
_SERVER["REMOTE_ADDR"] IP-Adresse des Benutzers Überschrieben durch eine (eher fiktive) lokale Adresse.
_SERVER["HTTP_USER_AGENT"] Kennung des Browsers Soll eine maßgeschneiderte Antwort ermöglichen. Charakteristischstes Element. Enthält auch das Betriebssystem.
_SERVER["HTTP_ACCEPT"] Vom Browser verwertbare MIME-Typen. Zu jedem Browser recht einheitlich zugeordnete Information, kaum überraschend. Plug-Ins könnten sich auswirken.
_SERVER["HTTP_ACCEPT_LANGUAGE"] Vom Benutzer verstandene Sprachen.
  • Vorgesehen, um die Antwort möglichst in der Muttersprache des Benutzers zu geben (Content Negotiation, seit einem Vierteljahrhundert üblich).
  • Problematisch bei ungewöhnlicher Kombination aus Staat des Providers bzw. der Browser-Installation und Sprachkompetenz.
  • Individuell durch Anwender spezifizierte Kenntnisse über 100 % Muttersprache und 50 % Englisch hinaus sind wiedererkennbar.
_SERVER["HTTP_ACCEPT_ENCODING"] Mögliche Kodierungsverfahren. Zu jedem Browser recht einheitlich zugeordnete Information, kaum überraschend.
Weitere Angaben können vorhanden sein, je nach Datensparsamkeit oder Auskunftsfreudigkeit des Browsers. Alle unaufgefordert vom Browser mitgeschickten Informationen (wie DNT) werden ebenfalls in Umgebungsvariablen abgelegt.
Zusätzliche Konfigurationsinformationen lassen sich nur aktiv mittels JavaScript ermitteln und nachsenden.

CookiesBearbeiten

Tools können Cookies setzen, um ihre Stammkunden wiederzuerkennen und deren Präferenzen voreinzustellen. Unter tools.wfmlabs.org können sie auch die Cookies anderer Tools erkennen. Benutzer können Cookies löschen. Alle Cookies sind in der Umgebungsvariablen _SERVER["HTTP_COOKIE"] zusammengestellt.

Der Wechsel von tools.wfmlabs.org/TOOLNAME nach TOOLNAME.toolforge.org ist für Cookies relevant. Cookies werden je Subdomain gesetzt , somit kann bei tools.wfmlabs.org jedes Tool alle Cookies aller anderen Tools auslesen. Wenn jedes Tool eine eigene Subdomain hat, dann verhindert das der Browser.

Verschiedene Tools verwenden eindeutige Session-IDs und können mehrfache Anfragen desselben Anwenders zweifelsfrei wiedererkennen.

VPSBearbeiten

Über Datensparsamkeit bei VPS-Werkzeugen wurde bisher nichts bekannt. Deren Betreiber haben Vollzugriff auf einen kompletten Webserver und damit üblicherweise auch auf das vollständige Log; also womöglich einschließlich IP-Adressen. Ob sie aktuell nur noch über einen Proxy verknüpft sind, ist nicht bekannt; in den Labs war eine Direktverbindung möglich gewesen.

Weitere InformationenBearbeiten

AnmerkungenBearbeiten

  1. access.log