Scrapy (Software)

Webcrawling- und Scraping-Framework für Python

Scrapy ([skrɛɪ̯pi̯]) ist ein „Free and Open Source“-Webcrawling- und Scraping-Framework, das in der Programmiersprache Python geschrieben wurde.[7] Ursprünglich wurde Scrapy für Webscraping designt, jedoch kann es als Allzweck-Webcrawler oder auch zur Extraktion von Daten mittels API genutzt werden. Gegenwärtig wird es von der Firma Zyte Limited (früher Scrapinghub Ltd.) betreut.

Scrapy

Logo
Basisdaten

Entwickler Zyte Limited
Erscheinungsjahr 26. Juni 2008
Aktuelle Version 2.11.2[1]
(14. Mai 2024)
Betriebssystem Microsoft Windows[2], Linux[2], macOS[2], Berkeley Software Distribution[3]
Programmier­sprache Python[4]
Kategorie Webcrawler, Screen Scraping
Lizenz 3-Klausel-BSD[5][6]
scrapy.org, GitHub

Die Architektur baut auf sogenannten Spiders auf. Dies sind in sich geschlossene Crawler, denen eine Reihe von Anweisungen gegeben werden. Nach dem Prinzip anderer „Don’t repeat yourself“-Frameworks, wie beispielsweise Django,[8] vereinfacht das Framework den Aufbau und die Skalierung von großen Crawling-Projekten, indem es Entwicklern erlaubt, den Code wiederzuverwenden. Scrapy bietet auch eine Shell, die Entwickler nutzen können, um ihre Annahmen auf das Verhalten einer Website zu testen.[9]

Einige Unternehmen und Produkte, die Scrapy nutzen, sind:[10]

Geschichte

Bearbeiten

Scrapy entstand in dem in London ansässigen E-Commerce-Unternehmen Mydeco, wo es von Angestellten von Mydeco und Insophia (ein Unternehmen für Web-Beratung, ansässig in Montevideo, Uruguay) entwickelt und betrieben wurde. Die erste Veröffentlichung fand im August 2008 unter der BSD-Lizenz statt; die Version 1.0 erschien im Juni 2015.[17] Im Jahre 2011 wurde Scrapinghub der offizielle Betreuer des Projekts.[18][19]

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Release 2.11.2. 14. Mai 2024 (abgerufen am 17. Mai 2024).
  2. a b c Installation guide. (abgerufen am 9. April 2022).
  3. Scrapy. (abgerufen am 9. April 2022).
  4. The scrapy Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 18. Juli 2018).
  5. directory.fsf.org. In: Free Software Directory. (abgerufen am 26. März 2017).
  6. The scrapy Open Source Project on Open Hub: Licenses Page. In: Open Hub. (abgerufen am 18. Juli 2018).
  7. Scrapy auf GitHub
  8. Frequently Asked Questions. Abgerufen am 28. Juli 2015.
  9. Scrapy shell. Abgerufen am 28. Juli 2015.
  10. Scrapy | Companies using Scrapy. Abgerufen am 9. April 2022 (englisch).
  11. Eddie Bell, Jonathan Heusser: Scalable Scraping Using Machine Learning. Archiviert vom Original am 9. Oktober 2016; abgerufen am 28. Juli 2015.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/talks.lystit.com
  12. Scrapy | Companies using Scrapy
  13. Andrew Montalenti: Web Crawling & Metadata Extraction in Python.
  14. Scrapy Companies. In: Scrapy website.
  15. Hyphe v0.0.0: the first release of our new webcrawler is out!
  16. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords http://bit.ly/5jU3La #opendata #datastore.
  17. Scrapy 1.0 official release out! 19. Juni 2015;.
  18. Pablo Hoffman: List of the primary authors & contributors. 2013 (github.com [abgerufen am 18. November 2013]).
  19. Interview Scraping Hub.