BLOSUM

BLOSUM (BLOcks SUbstitution Matrix; auch BlOSSUM)^[1] ist eine evidenzbasierte Substitutionsmatrix, die für Sequenzalignment von Proteinen benutzt wird und spielt neben der Point Accepted Mutation Matrix (PAM-Matrix) eine wichtige Rolle in der Bioinformatik. Die BLOSUM wurde 1992 von Jorja G. Henikoff und Steven Henikoff entwickelt. Es existieren verschiedene Matrizen für unterschiedliche evolutionäre Distanzen.^[2]

Berechnung

BLOSUM verwendet einzelne Blöcke (ohne Lücken) innerhalb der Sequenzen von homologen Proteinen, die verglichen werden. Es existieren verschiedene BLOSUM, welche für verschiedene Anwendungsbereiche konzipiert sind. So sind BLOSUM mit hohen Nummern wie BLOSUM80 für evolutionär nahe verwandte Proteine geeignet und solche mit niedrigen Nummern wie BLOSUM45 für stark divergierende Proteine geeignet. Die Autoren der BLOSUM haben entsprechend der Matrixnummer alle Blöcke, die eine höhere Sequenzidentität als die festgelegte Prozentzahl aufwiesen, zu einer einzigen Sequenz zusammengefügt (clustering), um damit den Einfluss von nahe verwandten Blöcken zu mindern. So wurden für BLOSUM80 alle Sequenzen mit mehr als 80 % Sequenzidentität zusammengefügt, so dass alle verbleibenden Sequenzen untereinander verglichen weniger als 80 % Identität hatten.^[2] In die Matrix eingetragen werden die log-odds Werte:

S_{ij}=\left({\frac {1}{\lambda }}\right)\log {\left({\frac {p_{ij}}{q_{i}\times q_{j}}}\right)}

wobei $p_{i,j}$ die Wahrscheinlichkeit die Aminosäuren i und j in einem Alignment zu finden und $q_{i}$ bzw. $q_{j}$ die Häufigkeit der Aminosäuren überhaupt bezeichnet. $\lambda$ ist ein Normalisierungsfaktor, die Werte werden auf ganze Zahlen gerundet. Somit ist der Logarithmus größer als Null und eine positive Score resultiert, wenn die beiden Aminosäuren häufiger in einem Alignment gefunden werden als nur durch Zufall erwartet würde. So ist z. B. der Wert für eine Substitution von Tryptophan mit Tyrosin in der BLOSUM62 mit 2 größer als Null, was bedeutet, dass Tryptophan zu Tyrosin (und umgekehrt) häufiger mutiert als nur durch Zufall zu erwarten wäre – dies ergibt auch aufgrund der ähnlichen physikalischen und chemischen Eigenschaften der beiden Aminosäuren Sinn. Der größte Score wird jedoch meist für die Identität beobachtet, so hat ein Tryptophan, das ein Tryptophan bleibt eine Score von 11 und ein Tyrosin, das ein Tyrosin bleibt, eine Score von 7.

Der Vorteil der log-odds ist, dass diese addiert werden können anstatt multipliziert wie normalerweise Wahrscheinlichkeiten und dies die Berechnung numerisch einfacher macht. Die Wahrscheinlichkeit selber kann einfach zurückgewonnen werden, indem die Score exponenziert wird.

Verwendung

BLOSUM mit hohen Zahlen (z. B. BLOSUM80) werden für den Vergleich von nahe verwandten Sequenzen verwendet, während BLOSUM mit niedrigen Zahlen für den Vergleich von entfernt verwandten Proteinen verwendet wird. Oftmals wird ein Alignment von zwei Sequenzen durch die Verwendung der BLOSUM evaluiert. So ergibt sich z. B. das folgende Alignment

EKNGFPA
|  |  |
EMQGRWA

der BLOSUM62-Score von 7 als Summe der Einzelscores nach der obigen Tabelle:

E-E = Glu-Glu:  5
K-M = Lys-Met: -1
N-Q = Asn-Gln:  0
G-G = Gly-Gly:  6
F-R = Phe-Arg: -3
P-W = Pro-Trp: -4
A-A = Ala-Ala:  4

Die Algorithmen, welche entweder globales (Needleman & Wunsch) oder lokales (Smith & Waterman) paarweises Sequenzalignment durchführen, verwenden für Proteinsequenzen oft BLOSUM als Substitutionsmatrix, allerdings kann dies frei gewählt werden. Die Algorithmen BLAST oder FASTA, welche eine Datenbank nach einer bestimmten Sequenz durchsuchen, verwenden für Proteinsuchen auch häufig BLOSUM. Dabei ist der Benutzer oftmals nicht an exakten Treffern interessiert und wenn auch verwandte aber nicht identische Proteine gesucht werden, dann kann mithilfe der BLOSUM evaluiert werden, ob das Alignment zu einem bestimmten Protein in der Datenbank signifikant ist oder nicht.

Bioinformatik

Es gibt mehrere Softwarepakete in verschiedenen Programmiersprachen, die eine einfache Verwendung von Blosum-Matrizen in der Bioinformatik ermöglichen.

Beispiele sind das blosum-Modul^[3] für Python oder die BioJava-Bibliothek für Java.

Literatur

Albert Y. Zomaya: Handbook of Nature-Inspired and Innovative Computing: Integrating Classical Models with Emerging Technologies. Springer Science & Business Media, New York 2006, ISBN 0-387-40532-1, S. 673 (eingeschränkte Vorschau in der Google-Buchsuche).
Sean R. Eddy: Where did the BLOSUM62 alignment score matrix come from? In: Nature Biotechnology. Band 22, Nr. 8, 1. August 2004, S. 1035–1036, doi:10.1038/nbt0804-1035.

Einzelnachweise

↑ Im Akronym BLOSUM steht das letzte 'M' bereits für 'Matrix' und deshalb ist es falsch, von einer 'BLOSUM matrix' zu sprechen, da dies ein redundantes Akronym ist.
↑ ^a ^b S. Henikoff, J. G. Henikoff: Amino acid substitution matrices from protein blocks. In: Proceedings of the National Academy of Sciences of the USA. 89(22), 15. Nov 1992, S. 10915–10919. PMID 1438297
↑ blosum: A simple BLOSUM toolbox without dependencies. In: pypi.org. Python Software Foundation, abgerufen am 6. Februar 2022 (englisch).

[1] Im Akronym BLOSUM steht das letzte 'M' bereits für 'Matrix' und deshalb ist es falsch, von einer 'BLOSUM matrix' zu sprechen, da dies ein redundantes Akronym ist.

[Henikoff_1992-2] S. Henikoff, J. G. Henikoff: Amino acid substitution matrices from protein blocks. In: Proceedings of the National Academy of Sciences of the USA. 89(22), 15. Nov 1992, S. 10915–10919. PMID 1438297

[3] blosum: A simple BLOSUM toolbox without dependencies. In: pypi.org. Python Software Foundation, abgerufen am 6. Februar 2022 (englisch).

[1]

[2]

[3]