CuneiForm (engl. für keilschriftlich) ist eine Texterkennungssoftware für gedruckte Erkennungsvorlagen des russischen Unternehmens Cognitive Technologies (Präsidentin Olga Anatoljewna Uskowa), die mittlerweile als freie Software verfügbar ist.

CuneiForm
Basisdaten

Entwickler Cognitive Technologies
Aktuelle Version 1.1.0
(19. April 2011)
Betriebssystem Windows (Linux- und FreeBSD-Portierungen verfügbar)
Programmiersprache C++[1], C[1]
Kategorie Texterkennung
Lizenz BSD (Freie Software)
deutschsprachig ja
launchpad.net

Merkmale Bearbeiten

CuneiForm erkennt gedruckte Vorlagen, jedoch keine Handschrift oder ähnliches, mit Sprachmodellen für über 20 verschiedene Sprachen. Gut funktioniert auch die Erkennung komplizierter Tabellenstrukturen. Ergebnisse können in RTF, HTML oder als ASCII-Text gespeichert oder direkt an die Textverarbeitung Word oder die Tabellenkalkulation Excel exportiert werden. Es erhält Dokumentstruktur und Schriftarten und ermöglicht Stapelverarbeitung.

Geschichte Bearbeiten

CuneiForm war einst marktführend in Russland (in Konkurrenz zu FineReader des Unternehmens ABBYY) und wurde mit einigen Scannern mitgeliefert.

1993 ging Cognitive Technologies einen OEM-Vertrag mit der kanadischen Corel Corporation ein, der die Einbindung der Erkennungsbibliothek in das Corel-Draw-Paket erlaubte, das ab Version 3.0 diese enthielt.

1996 wurde OCR CuneiForm'96 veröffentlicht. Es war das erste Texterkennungspaket, das mit einer adaptiven Erkennungsmethode arbeitete, d. h. einer Methode, die Multifont- und Omnifont-Erkennung verbindet: Es erfolgt eine interne Nachbildung der in der Erkennungsvorlage verwendeten Fonts (engl. für Schriftarten) aus Zeichen, die in erkennbarer Qualität abgebildet sind. Dadurch wird im Anschluss auch die Erkennung von schlechter abgebildeten Zeichen möglich, da sich die Software bei der Erkennung dynamisch anpasst. Mit dieser Erkennungsmethode wird die Erkennungsgenauigkeit wesentlich gesteigert.

1997 wurde die Nutzung neuronaler Netze bei der Erkennung eingeführt.

Seit 1999 kann die Software das Aussehen der Vorlage erhalten, indem die Anordnung der Elemente in der Ausgabe nachgebaut wird.

Im Rahmen eines Programmes, das erklärtermaßen Texterkennungstechnologie für jedermann verfügbar machen soll, hat Cognitive Technologies am 2. April 2008 angekündigt, die Software letzten Endes komplett als freie Software verfügbar zu machen. Als erster Schritt wurde nach einigen Jahren ohne Entwicklungsfortschritte am 12. Dezember 2007 eine Freeware-Version veröffentlicht. Weiterhin wurde im Juni 2008 ein kostenloser Texterkennungsdienst im World Wide Web eingerichtet.

Als Investor und Projektkoordinator will Cognitive Technologies die Entwicklung einer neuen Version der Software fördern. Seit Anfang April 2008 ist der Kern der Erkennungsengine unter der vereinfachten BSD-Lizenz frei verfügbar, um auch eine kommerzielle Verwendung zu ermöglichen.[2] Am 30. August 2009 wurde auch die originale Benutzerschnittstelle offengelegt.

Cuneiform Linux Bearbeiten

Jussi Pakkanen hat eine plattformunabhängig kompilierbare Version der Software erstellt, die auf Linux, BSD, macOS und Windows läuft.[3] Diese unabhängigen Entwicklungen sollen schließlich in den Hauptzweig von Cognitive Technologies integriert werden. Es handelt sich um eine reine Kommandozeilen-Version, die mittels der Einbindung von ImageMagick das Lesen einer Vielzahl von Dateiformaten erlaubt, während sonst einzig unkomprimiertes Windows Bitmap (BMP) unterstützt wird. Ab Version 0.5 kann die Software auch in die Beschreibungssprache hOCR ausgeben.

Frontends Bearbeiten

  • YAGF[4] ist eine Qt-4-basierte graphische Benutzeroberfläche, die via XSane Bilder direkt von einem Scanner einlesen und mittels libaspell eine Rechtschreibprüfung durchführen kann.
  • Cuneiform-Qt[5] ist ein weiteres Qt-basiertes Frontend.
  • OCRFeeder stellt eine komplette (scannen, Bildaufbereitung, Seitengestaltung analysieren und erhalten, Korrekturlesen, …) Desktop-OCR-Lösung zur Verfügung, mit der man neben anderen auch CuneiForm als Backend nutzen kann.
  • WatchOCR[6] ist ein kostenloser OCR-Server für PDFs. WatchOCR verwendet CuneiForm, um aus PDFs mit (gescannten) Bildern durchsuchbare PDFs zu erstellen. Mittels eines Web-Interface kann WatchOCR so konfiguriert werden, dass es neu gescannte PDFs (in einem bestimmten Ordner) automatisch in durchsuchbare PDFs umwandelt. WatchOCR ist im Deb-Format für Ubuntu und als vorkonfigurierte LiveCD erhältlich.

Mittels eines Skripts (xsane2cunei) kann CuneiForm auch in die Scan-Software XSane eingebunden werden. Aus der hOCR-Ausgabe von CuneiForm können mittels des Kommandozeilenprogrammes hocr2pdf[7] Bilder-PDF-Dateien maschinell durchsuchbar gemacht werden. Die Kommandozeilenwerkzeuge pdfsandwich[8] oder pdfocr[9] automatisieren diesen Prozess. Auch das Dokumentenmanagementsystem Archivista macht mittels CuneiForm und hocr2pdf PDFs maschinell durchsuchbar.

Weblinks Bearbeiten

Einzelnachweise Bearbeiten

  1. a b www.openhub.net.
  2. Cognitive Technologies открыла код OCR Cuneiform (Memento vom 6. November 2009 im Internet Archive). Abgerufen am 30. März 2024.
  3. siehe das Projekt cuneiform-linux auf launchpad.net
  4. symmetrica.net: YAGF – graphical front-end for cuneiform and tesseract (Memento vom 20. Juli 2012 im Webarchiv archive.today) (englisch)
  5. http://en.altlinux.org/Cuneiform-Qt
  6. WatchOCR (Memento vom 17. Februar 2013 im Internet Archive) (englisch)
  7. exactcode.de/site/open_source/exactimage/hocr2pdf
  8. http://tobias-elze.de/pdfsandwich/
  9. https://github.com/gkovacs/pdfocr