Linguistic Linked Open Data

Linguistic Linked Open Data (LLOD) bezeichnet die Sammlung und Verknüpfung quelloffener linguistische Ressourcen wie Lexika, Ontologien, Metadatensammlungen, Annotationen mit Hilfe von Linked-Open-Data-Technologien.

Linguistic Linked Open DataBearbeiten

 
Linguistic Linked Open Data (LLOD) cloud, Version vom August 2017

In der Computerlinguistik/Sprachtechnologie, Linguistik und benachbarten Wissenschaftsgebieten bezeichnet Linguistic Linked Open Data eine Methode und eine interdisziplinäre wissenschaftliche Gemeinde, die sich mit der Schaffung, der Teilung und der (Nach-)Nutzung von Sprachressourcen in Übereinstimmung mit den Prinzipien des Linked Open Data beschäftigt. Die Linguistic Linked Open Data Cloud wurde und wird durch die Open Linguistics Working Group (OWLG) der Open Knowledge Foundation entwickelt und hat sich seitdem zu einem Arbeitsschwerpunkt für mehrere W3C Community Groups, zahlreiche Forschungsprojekte und verschiedene Infrastrukturprojekte entwickelt.

Linguistic Linked Open Data bezeichnet die Veröffentlichung von Daten für Sprachwissenschaft und Sprachtechnologie auf Basis der folgenden Prinzipien:[1]

  • Daten sollten gemäß der Open Definition quelloffen lizenziert sein, beispielsweise unter Verwendung von Creative Commons-Lizenzen.
  • Die einzelnen Elemente eines Datensatzes sollten mit Hilfe von URIs eindeutig bezeichnet werden.
  • URIs sollten als Webadressen aufgelöst werden können, so dass Nutzer mit Hilfe von Webbrowsern auf weitere Informationen zugreifen können.
  • Der maschinelle Zugriff auf eine LLOD-Ressource sollte Ergebnisse auf Basis von Web-Standards wie dem Resource Description Framework (RDF) liefern.
  • Daten sollten Links zu anderen Ressourcen einhalten, um Nutzern das Auffinden weiterer Informationen zu ermöglichen, beispielsweise die Bedeutung der Elemente des verwendeten Vokabulars.

Als wesentliche Vorteile von LLOD wurden bestimmt:[2]

  • Darstellung: Miteinander verknüpfte Wissensgraphen bieten eine flexible Möglichkeit, linguistische Daten zu modellieren.
  • Interoperabilität: Daten, die sich auf gemeinsame (RDF-)Vokabulare beziehen, können leicht miteinander verknüpft werden.
  • Föderation: Daten von unterschiedlichen Standorten können mit RDF und LOD leicht integriert werden.
  • Ökosystem: Es gibt eine reiche Palette von quelloffen verfügbaren Werkzeugen für RDF und Linked Data.
  • Expressivität: Existierende Vokabularien für die Repräsentation von Sprachressourcen bestehen i. d. R. bereits.
  • Semantik: Links zu externen Vokabularien bezeichnen eindeutig, was gemeint ist.
  • Dynamik: Über das Internet verfügbare Daten können jederzeit in aktueller Form bezogen werden.

Eine wichtige Visualisierung der als LLOD verfügbaren Daten ist das derzeit unter linguistic-lod.org verfügbare LLOD-Cloud-Diagramm.[3]

NutzungBearbeiten

Linguistic Linked Open wird und wurde für verschiedene wissenschaftliche Probleme eingesetzt:

  • In allen Zweigen der empirischen Sprachwissenschaft, der Computerphilologie und der Sprachtechnologie stellen linguistische Annotationen und linguistisches Markup wesentliche Basiselemente der wissenschaftlichen Arbeit dar. LLOD kann helfen, Interoperabilitätsprobleme zu kompensieren, z. B. unterschiedliche Vokabularien und Annotationsschemata, die in unterschiedlichen Ressourcen bzw. von verschiedenen Annotations- oder Analysewerkzeugen verwendet werden. Die Verknüpfung von Sprachressourcen mit Ontologien und Wissensgraphen ermöglicht die Nachnutzung gemeinsamer Vokabularien und ihre Interpretation auf einer konkreten gemeinsamen Grundlagen.[4]
  • RDF und LLOD sind graphen-basierte Formalismen, die geeignet sind, beliebige linguistische Datenstrukturen zu repräsentieren, und entsprechende Daten in Beziehung zu setzen; beispielsweise Korpora in unterschiedlichen Formaten mit Wörterbüchern.
  • Mehrsprachigkeit, z. B. bei der Verknüpfung von lexikalischen Netzen wie WordNet und in heterogenen Ressourcen wie der Wikipedia.
  • Möglicher Ausgangspunkt für die Standardisierung von Datenstrukturen und Metadaten von Sprachressourcen

Ausgewählte RessourcenBearbeiten

Oktober 2018 waren die 5 meist-verknüpften Ressourcen im LLOD Diagram (in der Reihenfolge der Zahl der mit ihnen verknüpften Ressourcen):

  • Die Ontologies of Linguistic Annotation (OLiA, verknüpft mit 74 Ressourcen) stellen Referenzterminologie für linguistische Annotationen und grammatische Metadaten bereit;
  • WordNet (verknüpft mit 51 Ressourcen), eine lexikalische Datenbank für das Englische und Ausgangspunkt für die Entwicklung ähnlicher Datenbanken für andere Sprachen, in mehreren Editionen (Princeton WordNet verknüpft mit 36 Ressourcen; W3C-Edition verknüpft mit 8 Ressourcen; Edition der VU Amsterdam verknüpft mit 7 Ressourcen);
  • DBpedia (verknüpft mit 50 Ressourcen) mehrsprachiger Wissensgraph für allgemeines Weltwissen, basierend auf der Wikipedia;
  • lexinfo.net (verknüpft mit 36 Ressourcen) bietet Referenzgterminologie für Wörterbücher und lexikalische Ressourcen;
  • BabelNet (verknüpft mit 33 Ressourcen) mehrsprachiges lexikalisiertes semantisches Netz, basierend auf der Aggregation verschiedener anderer Sprachressourcen, v. a. WordNet und Wikipedia;

Entwicklung und Community-AktivitätenBearbeiten

Das LLOD-cloud-Diagram wird von der Open Linguistics Working Group (OWLG) der Open Knowledge Foundation (seit 2014 Open Knowledge International) entwickelt und bereitgestellt, einer offenen und interdisziplinären Gruppe von Experten in verschiedenen, v. a., europäischen Bildungs- und Forschungsinstitutionen.

Die OWLG organisiert verschiedene Community-Events, koordiniert die LLOD-Entwicklung und trägt zur interdisziplinären Kommunikation zwischen LLOD-Nutzern und -Entwicklern bei. Verschiedene W3C Business and Community Groups konzentrieren sich auf spezifischere Aspekte von LLOD. Vor allem die W3C Ontology-Lexica Community Group (OntoLex) ist sehr aktiv und entwickelt Spezifikationen für die Veröffentlichung von maschinenlesbaren Wörterbüchern in der LLOD-Cloud bzw. als RDF.

Die Entwicklung der LLOD-Cloud ist auch durch verschiedene internationale Workshops, Datathons und Publikationen dokumentiert und vorangetrieben worden. Diese beinhalten u. a.

  • Linked Data in Linguistics (LDL), jährlicher Workshop in Verbindung mit internationalen Konferenzen, seit 2012; seit 2017 zwei-jährlich und alternierend mit der einschlägigen Konferenzreihe Language, Data and Knowledge (LDK)
  • Summer Datathon on Linguistic Linked Open Data (SD-LLOD), zweijährliche Sommerschule und Hands-on-Workshops (Datathon), seit 2015

Nutzung und Entwicklung von LLOD-Technologien und -Ressourcen waren und sind Gegenstand verschiedener größerer Forschungsprojekte, z. B.

  • LOD2. Creating Knowledge out of Interlinked Data (11 EU-Länger + Korea, 2010–2014)[5]
  • MONNET. Multilingual Ontologies for Networked Knowledge (5 EU-Länder, 2010–2013)[6]
  • LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 EU-Länder, 2013–2015)[7]
  • QTLeap. Quality Translation by Deep Language Engineering Approaches (6 EU-Länder, 2013–2016)[8]
  • LiODi. Linked Open Dictionaries (BMBF eHumanities-Nachwuchsgruppe, Goethe-Universität Frankfurt, 2015–2020)[9]
  • FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 EU-Länder, 2015–2017)[10]
  • POSTDATA. Poetry Standardization and Linked Open Data (ERC Starting Grant, UNED, Spanien, 2016–2021)[11]
  • Linking Latin (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Italien, 2018–2023)[12]
  • Pret-a-LLOD (5 EU-Länder, 2019–2021)[13]
  • NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 COST-Länder, Belarus, Georgien, USA, 2019–2023)[14]

EinzelnachweiseBearbeiten

  1. Open Linguistics Working Group: Linguistic LOD. LIDER project. Abgerufen am 24. Mai 2016.
  2. Christian Chiarcos, John McCrae, Philipp Cimiano, Christiane Fellbaum: Towards open data for linguistics: Lexical Linked Data. In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer, Heidelberg 2013 (Abgerufen am 24. Mai 2016).
  3. Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data.. Abgerufen am 10. Dezember 2019.
  4. linguistik.de: Linguistic Linked Open Data. 9. August 2017, abgerufen am 1. Januar 2020.
  5. lod2.okfn.org (archived version). Abgerufen am 9. Dezember 2019.
  6. Multilingual Ontologies for Networked Knowledge (Monnet). European Commission, CORDIS EU research results. Abgerufen am 10. Dezember 2019.
  7. LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe. European Commission, CORDIS EU research results. Abgerufen am 10. Dezember 2019.
  8. Quality Translation by Deep Language Engineering Approaches. European Commission, CORDIS EU research results. Abgerufen am 10. Dezember 2019.
  9. Linked Open Dictionaries (LiODi). Abgerufen am 10. Dezember 2019.
  10. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content. Abgerufen am 10. Dezember 2019.
  11. POSTDATA – Poetry Standardization and Linked Open Data. Abgerufen am 10. Dezember 2019.
  12. Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin. Abgerufen am 10. Dezember 2019.
  13. Pret-a-LLOD project home page. Abgerufen am 10. Dezember 2019. Pret-a-LLOD. European Commission, CORDIS EU research results. Abgerufen am 10. Dezember 2019.
  14. CA18209 - European network for Web-centred linguistic data science. cost. European Cooperation in Science and Technology. Abgerufen am 10. Dezember 2019.