Hutter-Preis

Geldpreis für die stärkstmöglich Kompression eines Textkorpus

Der Hutter-Preis ist ein Preis in der Informatik, der seit dem 6. August 2006 vergeben wird. Er belohnt Fortschritte in den Teilgebieten verlustfreie Datenkompression und künstliche Intelligenz. Er ist benannt nach Marcus Hutter, einem deutschen Informatiker, der zurzeit an der Australian National University lehrt.

Der Wettbewerb besteht darin, ein bestimmtes Textkorpus – nämlich die ersten 100 Mio. Zeichen einer bestimmten Version der englischsprachigen Wikipedia – möglichst stark und verlustfrei zu komprimieren. Dieses Korpus besteht zu 75 % aus natürlicher, englischer Sprache. Marcus Hutter und die anderen Mitglieder des Preiskomitees gehen davon aus, dass verlustfreie Datenkompression und künstliche Intelligenz dasselbe Problem darstellen – es gehe nämlich um das Verhalten eines Software-Agenten in einer ihm unbekannten, aber berechenbaren Umwelt. Sie argumentieren auch, dass die Voraussage des jeweils nächsten Satzbestandteils in einem Text Wissen und damit Intelligenz voraussetze. Einige Datenkompressionsverfahren stehen nämlich vor demselben Problem: Gelingt es, in einer Zeichenkette das nächstfolgende Zeichen zu erraten, muss dieses nicht abgespeichert werden.

Regeln Bearbeiten

  • Das eingereichte Programm muss ein selbstextrahierendes Archiv mit Größe S sein. Andernfalls bildet S die Summe aus der Größe des Programms und jener der mitgelieferten komprimierten Datei.
  • Das Programm muss eine Datei erzeugen, die identisch ist mit der unkomprimierten Referenzdatei („enwik9“).
  • Das Programm muss auf Windows oder Linux laufen (x86, 32 oder 64 Bit).
  • Das Programm darf keine Informationen beziehen, so zum Beispiel aus anderen Dateien oder Rechnernetzen.
  • Hardware: Das Programm darf auf dem Testsystem höchstens 50 Stunden auf einem CPU-Kern laufen. Dafür können maximal 10 GB RAM, und 100 GB temporäre Dateien auf der Festplatte verwendet werden.

Das eingereichte Programm muss nicht quelloffen sein (Open Source).

Um den Preis zu gewinnen, muss der bisherige Rekord (Größe S des selbstextrahierenden Archivs) um mindestens ein Prozentpunkt unterboten werden. Für jeden Prozentpunkt werden 5000 Euro Preisgeld ausgelobt.

Die Regeln und Referenzdateien haben sich in der Vergangenheit geändert. Die jeweils aktuellen Regeln werden auf der Webseite veröffentlicht[1].

Geschichte Bearbeiten

Die Startlinie markierte die Software PAQ8F mit einem Kompressionsfaktor von 5,46 bzgl. der ursprünglichen Referenzdatei „enwik8“. PAQ8F benötigte zur Dekompression der Daten fünf Stunden. Der derzeitige Rekord wurde am 16.Jul 2023 von Saurabh Kumar aufgestellt. Sein Programm „fast cmix“ benötigte 43 Stunden Laufzeit für „enwik9“ mit einem Kompressionsfaktor von 8,76.[2]

Weblinks Bearbeiten

Einzelnachweise Bearbeiten

  1. Human Knowledge Compression Contest: Detailed Rules for Participation. Abgerufen am 20. September 2023.
  2. Marcus Hutter: 500'000€ Prize for Compressing Human Knowledge. Abgerufen am 20. September 2023 (englisch).