Hauptmenü öffnen

Die logarithmische Normalverteilung (kurz Log-Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung für eine Variable, die nur positive Werte annehmen kann. Sie beschreibt die Verteilung einer Zufallsvariablen , wenn die mit dem Logarithmus transformierte Zufallsvariable normalverteilt ist. Sie bewährt sich als Modell für viele Messgrößen in Naturwissenschaften, Medizin und Technik, beispielsweise für Energien, Konzentrationen, Längen und Mengenangaben.

In Analogie zu einer normalverteilten Zufallsvariablen, die nach dem zentralen Grenzwertsatz als Summe vieler verschiedener Zufallsvariablen aufgefasst werden kann, entsteht eine logarithmisch normalverteilte Zufallsvariable durch das Produkt vieler positiver Zufallsvariablen. Somit ist die Log-Normalverteilung die einfachste Verteilungsart für multiplikative Zufallsprozesse. Da multiplikative Gesetze in den Naturwissenschaften, der Ökonomie und der Technik eine größere Rolle spielen als additive, ist die Log-Normalverteilung in vielen Anwendungen diejenige, die der Theorie am besten entspricht -- der zweite Grund, weshalb sie vielfach anstelle der gewöhnlichen, additiven Normalverteilung verwendet werden sollte.

DefinitionBearbeiten

 
Dichtefunktion der Log-Normalverteilung (mit  )

ErzeugungBearbeiten

Wenn   eine standard-normalverteilte Zufallsvariable ist, dann ist   log-normalverteilt mit den Parametern   und  , geschrieben als  .   ist deshalb ein Skalen-Parameter.   bestimmt die Form der Verteilung.

Wenn   log-normalverteilt ist, dann ist auch   log-normalverteilt, und zwar mit den Parametern   und  . Ebenso ist   log-normalverteilt, mit den Parametern   und  .

DichtefunktionBearbeiten

Eine stetige, positive Zufallsvariable   unterliegt einer logarithmischen Normalverteilung   mit den Parametern   und  , wenn die transformierte Zufallsvariable   einer Normalverteilung   folgt. Ihre Dichtefunktion ist dann

 .

VerteilungsfunktionBearbeiten

 
Verteilungsfunktion der Log-Normalverteilung (mit  )

Damit hat die Log-Normalverteilung für   die Verteilungsfunktion

 ,

wobei   die Verteilungsfunktion der Standardnormalverteilung bezeichnet.

Die Verteilungsfunktion der logarithmischen Normalverteilung erscheint auf logarithmisch geteiltem Wahrscheinlichkeitspapier als Gerade.

Mehrdimensionale log-NormalverteilungBearbeiten

Sei   ein mehrdimensional (oder multivariat) normalverteilter Zufallsvektor. Dann ist   (d. h.  ) multivariat log-normalverteilt. Die mehrdimensionale Log-Normalverteilung ist viel weniger bedeutsam als die eindimensionale. Deshalb bezieht sich der nachfolgende Text fast ausschließlich auf den eindimensionalen Fall.

EigenschaftenBearbeiten

QuantileBearbeiten

Ist   das p-Quantil einer Standardnormalverteilung (d. h.  , wobei   die Verteilungsfunktion der Standardnormalverteilung sei), so ist das p-Quantil der Log-Normalverteilung gegeben durch

 .

Median, multiplikativer Erwartungswert, multiplikative StandardabweichungBearbeiten

Der Median der logarithmischen Normalverteilung beträgt demnach  . Er wird auch multiplikativer oder geometrischer Erwartungswert genannt (vgl. geometrisches Mittel). Er ist ein Skalen-Parameter, da   gilt.

In Analogie zum multiplikativen Erwartungswert ist   die multiplikative oder geometrische Standardabweichung. Sie bestimmt (ebenso wie   selbst) die Form der Verteilung. Es gilt  .

ErwartungswertBearbeiten

Der Erwartungswert der logarithmischen Normalverteilung beträgt

 .

Varianz, Standardabweichung, VariationskoeffizientBearbeiten

Die Varianz ergibt sich zu

 .

Für die Standardabweichung ergibt sich

 .

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten

 .

SchiefeBearbeiten

Die Schiefe ergibt sich zu

 ,

d. h., die Log-Normalverteilung ist rechtsschief.

Je größer die Differenz zwischen Erwartungswert und Median, desto ausgeprägter ist i.a. die Schiefe einer Verteilung. Hier unterscheiden sich diese Parameter um den Faktor  . Die Wahrscheinlichkeit für extrem große Ausprägungen ist also bei der Log-Normalverteilung mit großem  hoch.

MomenteBearbeiten

Es existieren alle Momente und es gilt:

 .

Die momenterzeugende Funktion und die charakteristische Funktion existieren für die Log-Normalverteilung nicht in expliziter Form.

EntropieBearbeiten

Die Entropie der logarithmischen Normalverteilung (ausgedrückt in nats) beträgt

 .

Multiplikation von unabhängigen, log-normalverteilten ZufallsvariablenBearbeiten

Multipliziert man zwei unabhängige, log-normalverteilte Zufallsvariable   und  , so ergibt sich wieder eine log-normalverteilte Zufallsvariable mit den Parametern   und  , wobei  . Entsprechendes gilt für das Produkt von   solchen Variablen.

GrenzwertsatzBearbeiten

Das geometrische Mittel von   unabhängigen, gleich verteilten, positiven Zufallsvariablen zeigt für   genähert eine Log-Normalverteilung, die immer mehr einer gewöhnlichen Normalverteilung gleicht, da   abnimmt.

Erwartungswert und Kovarianzmatrix einer mehrdimensionalen Log-NormalverteiliungBearbeiten

Der Erwartungswert-Vektor ist

 

und die Kovarianzmatrix

 [1]

Beziehungen zu anderen VerteilungenBearbeiten

Beziehung zur NormalverteilungBearbeiten

Der Logarithmus einer logarithmisch-normalverteilten Zufallsvariablen ist normalverteilt. Genauer: Ist   eine  -verteilte reelle Zufallsvariable (d. h. normalverteilt mit Erwartungswert   und Varianz  ), so ist die Zufallsvariable   log-normalverteilt mit diesen Parametern   und  .

Wenn   und damit   geht, geht die Form der Log-Normalverteilung gegen diejenige einer gewöhnlichen Normalverteilung.

Verteilung mit schweren RändernBearbeiten

Die Verteilung gehört zu den Verteilungen mit schweren Rändern.

Parameterschätzung und StatistikBearbeiten

Die Schätzung der Parameter aus einer Stichprobe von Beobachtungen erfolgt über die Bestimmung von Mittelwert und (quadrierter) Standardabweichung der logarithmierten Werte:

 .

Wenn keine Einzelwerte vorliegen, sondern nur der Mittelwert   und die empirische Varianz   der nichtlogarithmierten Werte bekannt sind, erhält man passende Parameterwerte über

 
  oder direkt  .

Allgemein erfolgt die statistische Analyse von log-normalverteilten Größen am einfachsten und Erfolg versprechendsten so, dass die Größen logarithmiert werden und auf diese transformierten Werte die Methoden verwendet werden, die auf der gewöhnlichen Normalverteilung beruhen. Im Bedarfsfall werden dann die Ergebnisse, beispielsweise Vertrauens- oder Vorhersage-Intervalle, in die ursprüngliche Skala zurücktransformiert.

Grundlegendes Beispiel dafür ist die Berechnung von Streuungs-Intervallen. Da für eine gewöhnliche Normalverteilung in einem Bereich von   etwa 2/3 (genauer 68 %) und in   95 % der Wahrscheinlichkeit enthalten sind, gilt für die Log-Normalverteilung:

Das Intervall   enthält 2/3
und das Intervall   enthält 95 %

der Wahrscheinlichkeit (und also etwa diese Prozentzahl der Beobachtungen einer Stichprobe). Die Intervalle können in Analogie zu   als   und   notiert werden.

In graphischen Darstellungen (untransformierter) Beobachtungen sollten deshalb solche asymmetrische Intervalle gezeigt werden.[2][3]

AnwendungenBearbeiten

Variation in vielen natürlichen Phänomenen lässt sich gut mit der Log-Normalverteilung beschreiben. Dies kann erklärt werden durch die Vorstellung, dass kleine prozentuale Abweichungen zusammenwirken, die einzelnen Effekte sich also multiplizieren. Bei Wachstumsprozessen ist dies besonders naheliegend. Zudem bestehen die Formeln für die meisten grundlegende Naturgesetze aus Multiplikationen und Divisionen. Auf der logarithmischen Skala ergeben sich dann Additionen und Subtraktionen, und der entsprechende Zentrale Grenzwertsatz führt zur Normalverteilung -- zurücktransformiert auf die ursprüngliche Skala also zur Log-Normalverteilung. Diese multiplikative Version des Grenzwertsatzes ist auch als Gesetz von Gibrat bekannt. Robert Gibrat (1904–1980) formulierte es für Unternehmen.[4]

In einigen Wissenschaften ist es üblich, Messgrößen in Einheiten anzugeben, die durch Logarithmieren einer gemessenen Konzentration (Chemie) oder Energie (Physik, Technologie) erhalten werden. So wird der Säuregrad einer wässerigen Lösung durch den pH-Wert gemessen, der als negativer Logarithmus der Wasserstoffionen-Aktivität definiert ist. Eine Lautstärke wird in Dezibel (dB) angegeben, das  , wobei   das Verhältnis des Schalldruckpegels zu einem entsprechenden Referenzwert ist. Analoges gilt für andere Energie-Pegel. In der Finanzmathematik wird ebenfalls oft direkt mit logarithmierten Größen (Preisen, Kursen, Erträgen) gerechnet, siehe unten.

Für solche "bereits logarithmierte" Größen ist dann die gewöhnliche Normalverteilung oft eine gute Wahl; also wäre hier, wenn man die ursprünglich gemessene Größe betrachten wollte, die Log-Normalverteilung geeignet.

Generell eignet sich die Log-Normalverteilung für Messgrößen, die nur positive Werte annehmen können, also Konzentrationen, Massen und Gewichte, räumliche Größen, Energien usw.

Die folgende Liste zeigt mit Beispielen die breite Palette der Anwendungen der Log-Normalverteilung.

  • Hydrologie: Die Log-Normalverteilung nützt bei der Analyse von Extremwerten wie – beispielsweise – monatliche oder jährliche Maxima der täglichen Regenmenge oder des Abflusses von Gewässern.[6]
  • Ökologie: Die Häufigkeit von Arten zeigt oft eine Log-Normalverteilung.[7]
  • Biologie und Medizin
    • Maße der Größe von Lebewesen (Länge, Hautfläche, Gewicht);[8]
    • Physiologische Größen wie der Blutdruck von Männern und Frauen.[9] Als Konsequenz sollten Referenzbereiche für gesunde Werte auf der Grundlage einer Log-Normalverteilung geschätzt werden.
    • Inkubationszeiten von ansteckenden Krankheiten;[10]
    • In der Neurologie zeigt die Verteilung der Impulsrate von Nervenzellen oft eine log-normale Form, so im Cortex und Striatum[11] und im Hippocampus und im entorhinalen Cortex[12] sowie in anderen Hirnregionen.[13][14] Ebenso für weitere neurobiologische Größen.[15]
    • Sensitivität gegenüber Fungiziden;[16]
    • Bakterien auf Pflanzenblättern:[17]
    • Permeabilität von Zellwänden und Mobilität von gelösten Stoffen:[18]
  • Technologie
    • In der Modellierung der Zuverlässigkeit werden Reparaturzeiten als log-normalverteilt beschrieben.[26]
    • Internet: Die Dateigröße von öffentlich verfügbaren Audio- und Video-Dateien ist genähert log-normalverteilt.[27] Analoges gilt für den Datenverkehr.[28]

LiteraturBearbeiten

EinzelnachweiseBearbeiten

  1. Leigh Halliwell: The Lognormal Random Multivariate. In: Casualty Actuarial Society E-Forum, Arlington VA, Spring 2015..
  2. Eckhard Limpert, Werner A Stahel, Markus Abbt: Lognormal distributions across the sciences: keys and clues. In: BioScience. 51, Nr. 5, 2001, S. 341–352. doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
  3. Eckhard Limpert, Werner A Stahel: Problems with Using the Normal Distribution – and Ways to Improve Quality and Efficiency of Data Analysis. In: PlosOne. 51, Nr. 5, 2011, S. 341–352. doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
  4. John Sutton: Gibrat's Legacy. In: Journal of Economic Literature. 32, Nr. 1, 1997, S. 40–59.
  5. L H Ahrens: The log-normal distribution of the elements (A fundamental law of geochemistry and its subsidiary). In: Geochimica et Cosmochimica Acta. 5, 1954, S. 49–73.
  6. R.J. Oosterbaan: 6: Frequency and Regression Analysis. In: H.P. Ritzema (Hrsg.): Drainage Principles and Applications, Publication 16. International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands 1994, ISBN 978-90-70754-33-4, S. 175–224.
  7. G Sugihara: Minimal community structure: An explanation of species abundunce patterns. In: American Naturalist. 116, 1980, S. 770–786.
  8. Julian S Huxley: Problems of relative growth. London, 1932, ISBN 978-0-486-61114-3, OCLC 476909537.
  9. Robert W. Makuch, D H Freeman, M F Johnson: Justification for the lognormal distribution as a model for blood pressure. In: Journal of Chronic Diseases. 32, Nr. 3, 1979, S. 245–250. doi:10.1016/0021-9681(79)90070-5.
  10. P E Sartwell: The incubation period and the dynamics of infectious disease. In: American Journal of Epidemiology. 83, 1966, S. 204–216.
  11. Gabriele Scheler, Johann Schumann: Diversity and stability in neuronal output rates. In: 36th Society for Neuroscience Meeting, Atlanta..
  12. Kenji Mizuseki, György Buzsáki: Preconfigured, skewed distribution of firing rates in the hippocampus and entorhinal cortex. In: Cell Reports. 4, Nr. 5, 12. September 2013, ISSN 2211-1247, S. 1010–1021. doi:10.1016/j.celrep.2013.07.039. PMID 23994479. PMC 3804159 (freier Volltext).
  13. György Buzsáki, Kenji Mizuseki: The log-dynamic brain: how skewed distributions affect network operations. In: Nature Reviews. Neuroscience. 15, Nr. 4, 2017, ISSN 1471-003X, S. 264–278. doi:10.1038/nrn3687. PMID 24569488. PMC 4051294 (freier Volltext).
  14. Adrien Wohrer, Mark D Humphries, Christian K Machens: Population-wide distributions of neural activity during perceptual decision-making. In: Progress in Neurobiology. 103, 2013, ISSN 1873-5118, S. 156–193. doi:10.1016/j.pneurobio.2012.09.004. PMID 23123501. PMC 5985929 (freier Volltext).
  15. Gabriele Scheler: Logarithmic distributions prove that intrinsic learning is Hebbian. In: F1000 Research. 6, 2017, S. 1222. doi:10.12688/f1000research.12130.2. PMID 29071065. PMC 5639933 (freier Volltext).
  16. R A Romero, T B Sutton: Sensitivity of Mycosphaerella fijiensis, causal agent of black sigatoka of banana, to propiconozole. In: Phytopathology. 87, 1997, S. 96–100.
  17. S S Hirano, E V Nordheim, D C Arny, C D Upper: Log-normal distribution of epiphytic bacterial populations on leaf surfaces. In: Applied and Environmental Microbiology. 44, 1982, S. 695–700.
  18. P Baur: Log-normal distribution of water permeability and organic solute mobility in plant cuticles. In: Plant, Cell and Environment. 20, 1997, S. 167–177.
  19. Fabio Clementi, Mauro Gallegati: Pareto's law of income distribution: Evidence for Germany, the United Kingdom, and the United States. 2005.
  20. Souma Wataru: Physics of Personal Income. Bibcode: 2002cond.mat..2388S.
  21. F Black, M Scholes: The Pricing of Options and Corporate Liabilities. In: Journal of Political Economy. 81, Nr. 3, 1973, S. 637. doi:10.1086/260062.
  22. Benoit Mandelbrot: The (mis-)Behaviour of Markets. Basic Books, 2004, ISBN 9780465043552.
  23. Sobkowicz Pawel, et al.: Lognormal distributions of user post lengths in Internet discussions - a consequence of the Weber-Fechner law?. In: EPJ Data Science. 2013.
  24. Peifeng Yin, Ping Luo, Wang-Chien Lee, Min Wang: Silence is also evidence: interpreting dwell time for recommendation from psychological perspective. In: ACM International Conference on KDD..
  25. Thomas Ahle: What is the average length of a game of chess?. Abgerufen im 14 April 2018.
  26. Patrick O'Connor, Andre Kleyner: Practical Reliability Engineering. John Wiley & Sons, 2011, ISBN 978-0-470-97982-2, S. 35.
  27. C Gros, G. Kaczor, D Markovic: Neuropsychological constraints to human data production on a global scale. In: The European Physical Journal B. 85, Nr. 28, 2012, S. 28. arxiv:1111.6849. bibcode:2012EPJB...85...28G. doi:10.1140/epjb/e2011-20581-3.
  28. Mohammed Alamsar, George Parisis, Richard Clegg, Nickolay Zakhleniuk: On the Distribution of Traffic Volumes in the Internet and its Implications. 2019.