Für einige Textersetzungen ist es nötig, dass ComillaBot Einheiten als solche erkennt. Das derzeitige Verfahren funktioniert wie folgt:

Ein Einheit-Textelement besteht aus (in dieser Reihenfolge)

  • einer Zahl
  • einer einzelnen Einheit
  • optional einem Nenner bestehend aus „/“ sowie noch einmal einer einzelnen Einheit (wie 2.)

Die einzelne Einheit besteht aus

  • optional einem Präfix (etwa k für Kilo)
  • einem Einheitenzeichen (etwa m für Meter)
  • optional einem Exponenten (etwa ²))

oder aus

  • einer feststehenden Zeichenkombination (etwa °C für Grad Celsius)


Einheiten

Bearbeiten

Ein Zeichen

Bearbeiten
  • m (Meter)
  • g (Gramm)
  • s (Sekunde)
  • h (Stunde)
  • l (Liter)
  • N (Newton)
  • J (Joule)
  • C (Coulomb)
  • A (Ampere)
  • Ω (Ohm)
  • V (Volt)
  • K (Kelvin)
  • T (Tesla)
  • F (Farad, Fahrenheit)
  • W (Watt)
  • J (Joule)
  • S (Siemens)
  • H (Henry)
  • B (Byte)

Mehrere Zeichen

Bearbeiten

Siehe auch SI-Einheitensystem

Präfixe

Bearbeiten

(können vor den oben genannten Einheiten stehen)

Ein Zeichen

Bearbeiten
  • f (Femto)
  • p (Piko)
  • n (Nano)
  • µ (Mikro)
  • m (Milli)
  • d (Dezi)
  • c (Centi)
  • h (Hekto)
  • k (Kilo)
  • M (Mega)
  • G (Giga)
  • T (Tera)

Mehrere Zeichen

Bearbeiten
  • da (Deka)


Feststehende Zeichenkombinationen

Bearbeiten
  • % (Prozent etc.: ist zwar keine echte Einheit, wird aber ebenso wie diese mit nbsp von der Zahl abgesetzt)
  • °C (Grad Celsius)
  • PS (Pferdestärken)

Regulärer Ausdruck

Bearbeiten

Insgesamt ergibt sich so folgender regulärer Ausdruck für eine einzelne Einheit:

  ((([fpnµmdchkMGT]|da)?([mgshlNJCAΩVKTFWJSHB]|Hz|bit|Wb|eV|Pa|Sv|Gy|lx|lm|cd|mol|Bq)([²³⁴⁵⁶⁷⁸⁹]|<sup>[0-9]+</sup>)?)|[%‰‱]|°C|PS) 

Erklärung:

  • in der ersten eckigen Klammer stehen die einbuchstabigen Präfixe
  • danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die mehrbuchstabigen Präfixe
  • in der zweiten eckigen Klammer stehen die einbuchstabigen Präfixe
  • danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die mehrbuchstabigen Einheiten
  • in der dritten eckigen Klammer stehen diejenigen Exponenten, die durch ein Unicode-Zeichen gebildet werden können
  • danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt andere Arten von Exponenten (derzeit: mit <sup>…</sup> codierte)
  • danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die feststehenden Zeichenkombinationen