Internet Archive

gemeinnütziges Projekt zur Langzeitarchivierung digitaler Daten
Internet Archive
Logo von Internet Archive
www.archive.org
Motto Universal access to all knowledge
Beschreibung Web-Archivierung
Registrierung optional
Sprachen Oberfläche engl.
Eigentümer Internet Archive, San Francisco CA[1]
Urheber Brewster Kahle
Erschienen 1996

Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde. Gestartet als reines Webarchiv, wurde es schon 1999 um weitere Archive erweitert. Heute umfasst es Sammlungen von Texten und Büchern, Audiodateien, Videos, Bilder und Software. Es hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht und legt dabei Wert auf Zugangsmöglichkeiten für blinde oder anders eingeschränkte Nutzer.

Neben der Funktion als Archiv versteht sich das Internet Archive auch als Aktivist für ein offenes und freies Internet sowie den Erhalt und die Verbreitung gemeinfreier Werke.[2]

Seit den Wahlen vom 8. November 2016 plant das Internetarchiv nach Aussage auf seiner Website, eine permanent aktualisierte Kopie in Kanada zu hinterlegen.

Inhaltsverzeichnis

EntstehungBearbeiten

 
Brewster Kahle, Gründer von Alexa Internet und des Internet Archive, im Jahr 2009.

Brewster Kahle gründete das Internet Achive im Mai 1996 als Non-Profit Organisation nach Paragraph 501(c)(3) des amerikanischen Einkommensteuerrechts. Es erhielt gleich zu Beginn eine große Datenlieferung von Alexa Internet. Es speichert im Rahmen der Web-Archivierung sogenannte Mementos, d. h. Momentaufnahmen von Webseiten und Usenet-Beiträgen.[3]

Ab 1999 wurde durch die Aufnahme der Prelinger Archives und später weiterer Sammlungen das Ziel auf eine umfassende frei zugängliche Bibliothek erweitert. Heute umfasst das Internet Archive eine Sammlung von über 10 Millionen Büchern und Texten, fast 3 Millionen Videos und Filmen, über 3 Millionen Audiodateien, 150.000 Computerprogrammen und mehr als einer Million Bilddateien. Das in der Wayback Machine enthaltene Webarchiv enthält inzwischen fast 300 Milliarden Webseiten.

Die Daten werden in vier Rechenzentren auf 20.000 Festplatten gespeichert. Ein Spiegelserver der Daten von San Francisco befindet sich unter anderem in der ägyptischen Bibliotheca Alexandrina. Im August 2014 erreichte die Sammlung eine Größe von 18,5 Petabytes.[4]

Das Archiv ist vom US-Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.[5]

DiensteBearbeiten

WebarchivBearbeiten

Die Wayback Machine („Take Me Back“) ist ein Online-Dienst, mit dem man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die Auswahl der zu speichernden Seiten erfolgt über den Dienst Alexa Internet. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Man kann eine noch nicht gespeicherte Internet-Ressource neuerdings auch von Hand, durch Suchen nach der Seite und anschließendes Bestätigen der Aufnahme, aufnehmen lassen (Dateiinhalte, z. B. JPG-Bilder, werden ohne vorherige Nachfrage gespeichert). Der Gesamtumfang betrug im November 2009 etwa 150 Milliarden Seiten und wuchs bis Oktober 2016 auf über 273 Milliarden Seiten an.

Mit Archive-It wurde 2006 ein weiters Webarchiv-Service für individuelle Webarchivierung bereitgestellt. Hierbei haben Institutionen und Einzelpersonen die Möglichkeit, digitale Sicherungen ihrer Sammlungen anzulegen und die Freigabe der Daten selbst festzulegen. Derzeit verfügt Archive-It über 400 Partner aus 16 Staaten weltweit, wobei sich diese vor allem aus Universitäten, staatlichen Archiven, Museen und Kunstbibliotheken, öffentlichen Bibliothen, sowie weitere öffentlich-rechtlicher Institutionen und NGOs zusammensetzen. Archive-IT bietet für teilnehmende Partner eine Volltextsuche auf ihre Inhalte, aber auch die Möglichkeit, mit Metadaten angereicherte strukturierte Datensätze für Forscher zu exportieren.[6]

VideoarchivBearbeiten

Mit der Aufnahme der Prelinger Archives[7] im Jahr 1999 erfolgte die erste über die Webarchivierung hinausgehende Erweiterung des Internet Archive. Es enthält heute gut 3.000.000 Videos und Filme, die unter freier Lizenz oder Public Domain stehen. Es wird hier auch an einem Archiv für Fernsehsendungen gearbeitet.

TextarchivBearbeiten

In dem Million Book Project werden durch das Internet Archive Bücher, die durch das Ablaufen des Copyrights (US-amerikanisches Urheberrecht) oder aus anderen Gründen gemeinfrei geworden sind, digitalisiert und zum Herunterladen zur Verfügung gestellt. Die Digitalisate sind Teil der Open Library. Inzwischen sind mehr als 10.000.000 Bücher und Texte archiviert.

Es werden mehrere Scan-Center (2009 insgesamt zwölf) unterhalten, zum Beispiel in Richmond. Gescannt wird per Auftrag, berechnet werden pro Seite zehn US-Cent (Stand 2009). Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine per OCR erstellte Textdatei, eine persistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Vereins zu speichern.[8] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und redundantes Hosting.

SoftwarearchivBearbeiten

Die Library of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-Gesetzes Digital Millennium Copyright Act gewährt.[9] Das Internet Archive darf somit Computer-Software oder -Spiele, welche zu Abandonware[10] wurden, mit der Absicht der Erhaltung speichern, wenn die Originalhardware, -formate oder -technologie veraltet sind. 2013 begann das Internet Archive damit, Spieleklassiker als spielbares Webbrowser-Streaming via M.E.S.S.-Emulation anzubieten[11], z. B. das Atari-2600-Videospiel E.T. the Extra-Terrestrial.[12] Ab 23. Dezember 2014 werden zu Lehr- und Forschungszwecken[13] mithilfe von DOSBox-Emulation im Browser tausende von klassischen DOS-Computerspielen präsentiert.[14][15][16][17]

 
Internet Archive in San Francisco (1996–2009)
 
Neue Zentrale des Internet Archive seit November 2009 in einer ehemaligen „Christian Science“-Kirche
 
Internet Archive in der Bibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern.
Video einer Vorführung der Digitalisierungstechnik des Internet Archives von Brewster Kahle, 29. März 2013.

AudioarchivBearbeiten

Das Audioarchiv enthält derzeit 3.100.000 Tonaufnahmen, sie reichen von Radiosendungen und Radio-Feature, Hörbüchern, Dichterlesungen, Live-Konzertmitschnitten bis hin zu Musik, die von Benutzern hochgeladen wurde.

BildarchivBearbeiten

Im Bildarchiv sind derzeit gut 1.200.000 Bilddateien verfügbar. Es handelt sich dabei um Abbildungen von Kunstwerken, so existiert eine Sammlung von Abbildungen des Metropolitan Museum of Art mit über 100.000 Einträgen, Abbildungen von historischen Landkarten, Astronomische Aufnahmen von der NASA, Schallplattencovers bis hin zu frei verfügbaren Aufnahmen von Privatpersonen.

Siehe auchBearbeiten

WeblinksBearbeiten

EinzelnachweiseBearbeiten

  1. Internet Archive: Contact
  2. Internet Archive, Prelinger Archives, and Project Gutenberg Literary Archive Foundation: FILED ON BEHALF OF PETITIONERS – INTEREST OF AMICI CURIAE
  3. About the Internet Archive abgefragt am 29. Oktober 2016.
  4. archive.org
  5. Internet Archive forum: Internet Archive officially a library
  6. Archive-It About Us
  7. Prelinger Archives: Thousands Of Old Films To Watch, Remix & Use In Your Own Projects makeuseof.com abgefragt am 29. Oktober 2016
  8. Das digitale Alexandria. In: Die Zeit. 4/2008.
  9. Internet Archive wins copyright reprieve. In: The Register. 1. Dezember 2006
  10. Ross Miller: US Copyright Office grants abandonware rights (englisch) joystiq.com. Abgerufen am 7. Februar 2013.
  11. Tilman Baumgärtel: Timothy Leary, der Games-Entwickler – Wie erhält man historische Computerspiele? Das Internet-Archive streamt Dutzende Klassiker, in New York werden Games von Timothy Leary für die Forschung aufgearbeitet. In: Die Zeit. 14. November 2013. Abgerufen am 14. November 2013: „Weil das Internet Archive die Spiele ‚streamt‘, man sie also nicht auf den eigenen Rechner lädt, verletzt man auch das Urheberrecht nicht, wenn man die Programme benutzt.“
  12. Adi Robertson: The Internet Archive puts Atari games and obsolete software directly in your browser (englisch) In: The Verge. 25. Oktober 2013. Abgerufen am 29. Oktober 2013.
  13. Internet Archive’s Terms of Use, Privacy Policy, and Copyright Policy (englisch) archive.org. 31. Dezember 2014. Abgerufen am 8. Januar 2015: „Access to the Archive’s Collections is provided at no cost to you and is granted for scholarship and research purposes only.“
  14. Abby Ohlheiser: You can now play nearly 2,400 MS-DOS video games in your browser (englisch) In: The Washington Post. 5. Januar 2015. Abgerufen am 8. Januar 2015.
  15. Each New Boot a Miracle by Jason Scott (23. Dezember 2014)
  16. collection:softwarelibrary_msdos im Internet Archive (29. Dezember 2014)
  17. Kris Graft: Saving video game history begins right now. Gamasutra. 5. März 2015. Abgerufen am 5. März 2015.

Koordinaten: 37° 46′ 56″ N, 122° 28′ 18″ W