Linguistic Linked Open Data

Linguistic Linked Open Data (LLOD) bezeichnet die Sammlung und Verknüpfung quelloffener linguistische Ressourcen wie Lexika, Ontologien, Metadatensammlungen, Annotationen mit Hilfe von Linked-Open-Data-Technologien.

Linguistic Linked Open Data

Linguistic Linked Open Data (LLOD) cloud, Version vom August 2017

In der Computerlinguistik/Sprachtechnologie, Linguistik und benachbarten Wissenschaftsgebieten bezeichnet Linguistic Linked Open Data eine Methode und eine interdisziplinäre wissenschaftliche Gemeinde, die sich mit der Schaffung, der Teilung und der (Nach-)Nutzung von Sprachressourcen in Übereinstimmung mit den Prinzipien des Linked Open Data beschäftigt. Die Linguistic Linked Open Data Cloud wurde und wird durch die Open Linguistics Working Group (OWLG) der Open Knowledge Foundation entwickelt und hat sich seitdem zu einem Arbeitsschwerpunkt für mehrere W3C Community Groups, zahlreiche Forschungsprojekte und verschiedene Infrastrukturprojekte entwickelt.

Linguistic Linked Open Data bezeichnet die Veröffentlichung von Daten für Sprachwissenschaft und Sprachtechnologie auf Basis der folgenden Prinzipien:^[1]

Daten sollten gemäß der Open Definition quelloffen lizenziert sein, beispielsweise unter Verwendung von Creative-Commons-Lizenzen.
Die einzelnen Elemente eines Datensatzes sollten mit Hilfe von URIs eindeutig bezeichnet werden.
URIs sollten als Webadressen aufgelöst werden können, so dass Nutzer mit Hilfe von Webbrowsern auf weitere Informationen zugreifen können.
Der maschinelle Zugriff auf eine LLOD-Ressource sollte Ergebnisse auf Basis von Web-Standards wie dem Resource Description Framework (RDF) liefern.
Daten sollten Links zu anderen Ressourcen einhalten, um Nutzern das Auffinden weiterer Informationen zu ermöglichen, beispielsweise die Bedeutung der Elemente des verwendeten Vokabulars.

Als wesentliche Vorteile von LLOD wurden bestimmt:^[2]

Darstellung: Miteinander verknüpfte Wissensgraphen bieten eine flexible Möglichkeit, linguistische Daten zu modellieren.
Interoperabilität: Daten, die sich auf gemeinsame (RDF-)Vokabulare beziehen, können leicht miteinander verknüpft werden.
Föderation: Daten von unterschiedlichen Standorten können mit RDF und LOD leicht integriert werden.
Ökosystem: Es gibt eine reiche Palette von quelloffen verfügbaren Werkzeugen für RDF und Linked Data.
Expressivität: Existierende Vokabularien für die Repräsentation von Sprachressourcen bestehen i. d. R. bereits.
Semantik: Links zu externen Vokabularien bezeichnen eindeutig, was gemeint ist.
Dynamik: Über das Internet verfügbare Daten können jederzeit in aktueller Form bezogen werden.

Eine wichtige Visualisierung der als LLOD verfügbaren Daten ist das derzeit unter linguistic-lod.org verfügbare LLOD-Cloud-Diagramm.^[3]

Nutzung

Linguistic Linked Open wird und wurde für verschiedene wissenschaftliche Probleme eingesetzt:

In allen Zweigen der empirischen Sprachwissenschaft, der Computerphilologie und der Sprachtechnologie stellen linguistische Annotationen und linguistisches Markup wesentliche Basiselemente der wissenschaftlichen Arbeit dar. LLOD kann helfen, Interoperabilitätsprobleme zu kompensieren, z. B. unterschiedliche Vokabularien und Annotationsschemata, die in unterschiedlichen Ressourcen bzw. von verschiedenen Annotations- oder Analysewerkzeugen verwendet werden. Die Verknüpfung von Sprachressourcen mit Ontologien und Wissensgraphen ermöglicht die Nachnutzung gemeinsamer Vokabularien und ihre Interpretation auf einer konkreten gemeinsamen Grundlagen.^[4] Ein Beispiel für einen Standard unter der Nutzung dieser Prinzipien ist Akoma Ntoso, auf dessen Grundlage in Deutschland offene, maschinenlesbare, vernetzte und adressierbare Rechtsetzungs- und Parlamentsdokumente veröffentlicht werden sollen.^[5]

RDF und LLOD sind graphen-basierte Formalismen, die geeignet sind, beliebige linguistische Datenstrukturen zu repräsentieren, und entsprechende Daten in Beziehung zu setzen; beispielsweise Korpora in unterschiedlichen Formaten mit Wörterbüchern.
Mehrsprachigkeit, z. B. bei der Verknüpfung von lexikalischen Netzen wie WordNet und in heterogenen Ressourcen wie der Wikipedia.
Möglicher Ausgangspunkt für die Standardisierung von Datenstrukturen und Metadaten von Sprachressourcen

Ausgewählte Ressourcen

Oktober 2018 waren die 5 meist-verknüpften Ressourcen im LLOD Diagram (in der Reihenfolge der Zahl der mit ihnen verknüpften Ressourcen):

Die Ontologies of Linguistic Annotation (OLiA, verknüpft mit 74 Ressourcen) stellen Referenzterminologie für linguistische Annotationen und grammatische Metadaten bereit;
WordNet (verknüpft mit 51 Ressourcen), eine lexikalische Datenbank für das Englische und Ausgangspunkt für die Entwicklung ähnlicher Datenbanken für andere Sprachen, in mehreren Editionen (Princeton WordNet verknüpft mit 36 Ressourcen; W3C-Edition verknüpft mit 8 Ressourcen; Edition der VU Amsterdam verknüpft mit 7 Ressourcen);
DBpedia (verknüpft mit 50 Ressourcen) mehrsprachiger Wissensgraph für allgemeines Weltwissen, basierend auf der Wikipedia;
lexinfo.net (verknüpft mit 36 Ressourcen) bietet Referenzgterminologie für Wörterbücher und lexikalische Ressourcen;
BabelNet (verknüpft mit 33 Ressourcen) mehrsprachiges lexikalisiertes semantisches Netz, basierend auf der Aggregation verschiedener anderer Sprachressourcen, v. a. WordNet und Wikipedia;

Entwicklung und Community-Aktivitäten

Das LLOD-cloud-Diagram wird von der Open Linguistics Working Group (OWLG) der Open Knowledge Foundation (seit 2014 Open Knowledge International) entwickelt und bereitgestellt, einer offenen und interdisziplinären Gruppe von Experten in verschiedenen, v. a., europäischen Bildungs- und Forschungsinstitutionen.

Die OWLG organisiert verschiedene Community-Events, koordiniert die LLOD-Entwicklung und trägt zur interdisziplinären Kommunikation zwischen LLOD-Nutzern und -Entwicklern bei. Verschiedene W3C Business and Community Groups konzentrieren sich auf spezifischere Aspekte von LLOD. Vor allem die W3C Ontology-Lexica Community Group (OntoLex) ist sehr aktiv und entwickelt Spezifikationen für die Veröffentlichung von maschinenlesbaren Wörterbüchern in der LLOD-Cloud bzw. als RDF.

Die Entwicklung der LLOD-Cloud ist auch durch verschiedene internationale Workshops, Datathons und Publikationen dokumentiert und vorangetrieben worden. Diese beinhalten u. a.

Linked Data in Linguistics (LDL), jährlicher Workshop in Verbindung mit internationalen Konferenzen, seit 2012; seit 2017 zwei-jährlich und alternierend mit der einschlägigen Konferenzreihe Language, Data and Knowledge (LDK)
Summer Datathon on Linguistic Linked Open Data (SD-LLOD), zweijährliche Sommerschule und Hands-on-Workshops (Datathon), seit 2015

Nutzung und Entwicklung von LLOD-Technologien und -Ressourcen waren und sind Gegenstand verschiedener größerer Forschungsprojekte, z. B.

LOD2. Creating Knowledge out of Interlinked Data (11 EU-Länger + Korea, 2010–2014)^[6]
MONNET. Multilingual Ontologies for Networked Knowledge (5 EU-Länder, 2010–2013)^[7]
LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 EU-Länder, 2013–2015)^[8]
QTLeap. Quality Translation by Deep Language Engineering Approaches (6 EU-Länder, 2013–2016)^[9]
LiODi. Linked Open Dictionaries (BMBF eHumanities-Nachwuchsgruppe, Goethe-Universität Frankfurt, 2015–2020)^[10]
FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 EU-Länder, 2015–2017)^[11]
POSTDATA. Poetry Standardization and Linked Open Data (ERC Starting Grant, UNED, Spanien, 2016–2021)^[12]
Linking Latin (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Italien, 2018–2023)^[13]
Pret-a-LLOD (5 EU-Länder, 2019–2021)^[14]
NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 COST-Länder, Belarus, Georgien, USA, 2019–2023)^[15]

Anwendungsgebiete der LLOD

Linguistic Linked Open Data wird zur Lösung folgender wissenschaftlicher Forschungsprobleme eingesetzt:

In den Bereichen der empirischen Linguistik, der Computerphilologie und der Computerlinguistik bzw. der empirischen Datenverarbeitung stellen linguistische Anmerkungen und Markups zentrale Elemente der Analyse dar. Der Fortschritt in diesem Bereich wird jedoch durch Probleme mit der Interoperabilität erschwert. Dies geschieht vor allem durch Unterschiede in Annotationsschemata und Vokabularen, die für verschiedene Ressourcen und Tools verwendet werden. Der Einsatz von LLOD zur Verknüpfung von Sprachressourcen und Ontologien erleichtert die Wiederverwendung gemeinsamer Vokabulare und deren Interpretation auf einer gemeinsamen Basis.^[16]
In der Korpuslinguistik und in der Computerphilologie stellen sich überlappende Markups ein offenkundiges Problem für herkömmliche XML-Formate dar. Folglich werden seit den späten 1990er Jahren graphenbasierte Datenmodelle vorgeschlagen, die gängig durch mehrere miteinander verknüpfte XML-Dateien dargestellt werden.^[17] Allerdings werden diese von den gängigen Technologien und Standards, die im Bereich XML eingesetzt werden, nicht ausreichend unterstützt. Die Modellierung solch komplexer Annotationen als LLOD erfordert keine spezielle Technologie, da sie stattdessen auf den bereits bestehenden RDF-Standard zurückgreift.
Komplexität der Mehr- bzw. Vielsprachigkeit, einschließlich der Verknüpfung lexikalischer Ressourcen wie WordNet, wie sie durch die Global Association im Interlingualen Index vorgenommen wurde und der Verknüpfung heterogener Ressourcen wie Wikipedia und WordNet, wie sie im BabelNet vorgenommen wurde.^[18]
Anbietung für die Standardisierung von Informationen über sprachliche Ressourcen

Linguistic Linked Open Data ist bedeutsam für die Entwicklung von:

Best Practices für die Verkettung lexikalischer Daten im Web (Daten, die gemäß den OntoLex-Konventionen veröffentlicht werden)
Best Practices für die Erstellung von Annotationen im Web (z. B. unter Verwendung des Web Annotation Standards)
erprobten Verfahren für die gemeinsame Nutzung und Modellierung von Textressourcen mit überlappendem Markup

Einzelnachweise

↑ Open Linguistics Working Group: Linguistic LOD. In: linguistic-lod.org. LIDER project, abgerufen am 24. Mai 2016.
↑ Christian Chiarcos, John McCrae, Philipp Cimiano, Christiane Fellbaum: Towards open data for linguistics: Lexical Linked Data. In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer, Heidelberg 2013 (springer.com (Memento des Originals vom 15. Februar 2016 im Internet Archive) [abgerufen am 24. Mai 2016]). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.springer.com
↑ Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data. Abgerufen am 10. Dezember 2019.
↑ linguistik.de: Linguistic Linked Open Data. 9. August 2017, abgerufen am 1. Januar 2020.
↑ Amelie Flatt, Arne Langner, Olof Leps: Model-Driven Development of Akoma Ntoso Application Profiles. Hrsg.: Springer Nature. 1. Auflage. Springer Nature, Heidelberg 2022, ISBN 978-3-03114131-7 (springer.com [abgerufen am 19. August 2022]).
↑ lod2.okfn.org (archived version). Archiviert vom Original am 7. März 2014; abgerufen am 21. März 2024.
↑ Multilingual Ontologies for Networked Knowledge (Monnet). European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.
↑ LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.
↑ Quality Translation by Deep Language Engineering Approaches. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.
↑ Linked Open Dictionaries (LiODi). Archiviert vom Original am 17. Januar 2020; abgerufen am 10. Dezember 2019. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content. Abgerufen am 10. Dezember 2019.
↑ POSTDATA – Poetry Standardization and Linked Open Data. Abgerufen am 10. Dezember 2019.
↑ Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin. Abgerufen am 10. Dezember 2019.
↑ Pret-a-LLOD project home page. Abgerufen am 10. Dezember 2019. Pret-a-LLOD. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.
↑ CA18209 - European network for Web-centred linguistic data science. cost. European Cooperation in Science and Technology, abgerufen am 10. Dezember 2019.
↑ OLiA – Ontologies of Linguistic Annotation. Abgerufen am 26. Februar 2022.
↑ Language resource management – Linguistic annotation framework (LAF). Abgerufen am 26. Februar 2022.
↑ Guidelines for Linguistic Linked Data Generation: Multilingual Dictionaries (BabelNet). Abgerufen am 26. Februar 2022.

[1] Open Linguistics Working Group: Linguistic LOD. In: linguistic-lod.org. LIDER project, abgerufen am 24. Mai 2016.

[2] Christian Chiarcos, John McCrae, Philipp Cimiano, Christiane Fellbaum: Towards open data for linguistics: Lexical Linked Data. In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer, Heidelberg 2013 (springer.com (Memento des Originals vom 15. Februar 2016 im Internet Archive) [abgerufen am 24. Mai 2016]). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.springer.com

[3] Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data. Abgerufen am 10. Dezember 2019.

[4] uistik.de: Linguistic Linked Open Data. 9. August 2017, abgerufen am 1. Januar 2020.

[5] Amelie Flatt, Arne Langner, Olof Leps: Model-Driven Development of Akoma Ntoso Application Profiles. Hrsg.: Springer Nature. 1. Auflage. Springer Nature, Heidelberg 2022, ISBN 978-3-03114131-7 (springer.com [abgerufen am 19. August 2022]).

[6] lod2.okfn.org (archived version). Archiviert vom Original am 7. März 2014; abgerufen am 21. März 2024.

[7] Multilingual Ontologies for Networked Knowledge (Monnet). European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.

[8] LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.

[9] Quality Translation by Deep Language Engineering Approaches. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.

[10] Linked Open Dictionaries (LiODi). Archiviert vom Original am 17. Januar 2020; abgerufen am 10. Dezember 2019. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[11] Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content. Abgerufen am 10. Dezember 2019.

[12] POSTDATA – Poetry Standardization and Linked Open Data. Abgerufen am 10. Dezember 2019.

[13] Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin. Abgerufen am 10. Dezember 2019.

[14] Pret-a-LLOD project home page. Abgerufen am 10. Dezember 2019. Pret-a-LLOD. European Commission, CORDIS EU research results, abgerufen am 10. Dezember 2019.

[15] CA18209 - European network for Web-centred linguistic data science. cost. European Cooperation in Science and Technology, abgerufen am 10. Dezember 2019.

[16] OLiA – Ontologies of Linguistic Annotation. Abgerufen am 26. Februar 2022.

[17] Language resource management – Linguistic annotation framework (LAF). Abgerufen am 26. Februar 2022.

[18] Guidelines for Linguistic Linked Data Generation: Multilingual Dictionaries (BabelNet). Abgerufen am 26. Februar 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]