Wie es funktioniert
Alpha-Diversität stellt zwei Fragen gleichzeitig an eine Gemeinschaftsprobe: Wie viele verschiedene Arten sind vorhanden (Artenreichtum), und wie gleichmäßig sind die Individuen darauf verteilt (Evenness). Die klassischen Indizes fassen beide Ideen zu einer einzigen Zahl zusammen, mit unterschiedlicher Gewichtung. Der Rechner nimmt eine Liste von Häufigkeiten — eine pro Art, in jedem vernünftigen Textformat — und liefert die vier am häufigsten benutzten Zusammenfassungen: Shannon-Wiener H′, Gini-Simpson 1−D, inversen Simpson 1/D und Pielou-Evenness J′. Alle vier werden aus demselben Anteilsvektor (p_i = n_i / N) berechnet; die Unterschiede liegen darin, welche mathematische Operation auf die Anteile angewendet wird.
Shannon-Wiener H′ = −Σ p_i ln(p_i) ist die Entropie der Verteilung: „Wie überrascht wäre ich, ein zufällig gezogenes Individuum zu sehen?" — hoch, wenn viele Arten vorhanden und die Häufigkeiten ausgeglichen sind. Mit dem natürlichen Logarithmus (Standard hier) wird in nats angegeben, mit log₂ in bits — die Wahl ändert nichts an Vergleichen zwischen Proben, solange Sie konsistent bleiben. Simpsons D = Σ p_i² ist die Wahrscheinlichkeit, dass zwei zufällig gezogene Individuen zur selben Art gehören; je gleichmäßiger die Gemeinschaft, desto kleiner D. Gini-Simpson 1−D invertiert das, sodass „höher = diverser" gilt (die Form, die die meisten meinen, wenn sie „Simpson-Diversität" sagen). Inverser Simpson 1/D hat die ansprechende Eigenschaft, sich wie eine „effektive Artenzahl" zu verhalten — eine Gemeinschaft mit 1/D = 5 hat dieselbe Diversität wie eine perfekt gleichmäßige Gemeinschaft mit 5 Arten, unabhängig davon, wie viele seltene Arten tatsächlich im Schwanz sitzen. Pielous J′ = H′ / ln(S) teilt Shannon durch sein theoretisches Maximum und gibt einen Evenness-Wert von 0 bis 1, nützlich für Vergleiche zwischen Proben mit unterschiedlicher Artenzahl.
Drei praktische Hinweise. (1) Diese Indizes sind nur bei festgehaltenem Sampling-Aufwand vergleichbar. Eine 16S-rRNA-Probe mit 50.000 Reads sieht diverser aus als dieselbe Gemeinschaft mit 5.000 Reads, schlicht weil tieferes Sampling mehr seltene Arten entdeckt. Standard in Mikrobiom-Arbeiten ist, alle Proben vor der Diversitätsberechnung auf dieselbe Lese-Tiefe zu rarefyen oder einen Coverage-basierten Schätzer zu verwenden. (2) Die Definition von „was als Art zählt" ist genauso wichtig wie der Index. In Mikrobiom-Studien geben OTU-Clustering bei 97 % vs ASV-Auflösung deutlich verschiedene Diversitätszahlen aus denselben Daten. Seien Sie explizit über die Analyseeinheit. (3) Shannon und Simpson sind sich uneinig, wie stark seltene Arten gewichtet werden. Shannon gewichtet sie stärker (weil ln(p) gegen unendlich geht, wenn p gegen null geht), Simpson kaum. Hat Ihre Gemeinschaft einen langen Schwanz aus Singletons, die Sie für Sequenzierfehler halten, ist Simpson robuster; sind diese seltenen Arten biologisch real und für Ihre Frage relevant, würdigt Shannon sie.
Die Formel
n_i ist die Häufigkeit der Art i, N ist die Summe aller Häufigkeiten (Σ n_i), und S ist die Zahl der Arten mit n_i > 0 (Artenreichtum). Der Rechner nutzt durchgängig den natürlichen Logarithmus, sodass Shannon H′ in nats vorliegt; mit 1/ln(2) ≈ 1,443 multiplizieren, um in bits umzurechnen. Pielous J′ ist undefiniert, wenn S = 1 (nur eine Art — kein theoretisches Maximum zum Vergleich), und der Rechner zeigt es in dem Fall als nicht-anwendbar. Singletons (n_i = 1) zählen voll für Artenreichtum und Shannon, aber kaum für Simpson, weil ihr p_i² winzig ist.
Beispielrechnung
- Probe mit 5 Arten, Häufigkeiten: 50, 25, 15, 7, 3 (Summe N = 100).
- Anteile: 0,50, 0,25, 0,15, 0,07, 0,03.
- Shannon H′ = −(0,50·ln 0,50 + 0,25·ln 0,25 + 0,15·ln 0,15 + 0,07·ln 0,07 + 0,03·ln 0,03) ≈ 1,265 nats.
- Simpson D = 0,50² + 0,25² + 0,15² + 0,07² + 0,03² ≈ 0,344. Gini-Simpson 1−D ≈ 0,656. Invers 1/D ≈ 2,91. Pielou J′ = 1,265/ln(5) ≈ 0,786.
Häufig gestellte Fragen
Soll ich Shannon, Simpson oder beides berichten?
Beide, wenn der Platz reicht. Sie betonen Unterschiedliches: Shannon ist sensibler für Artenreichtum und seltene Arten, Simpson ist sensibler für Evenness unter den dominanten Arten. Eine Gemeinschaft, in der Shannon und Simpson uneinig sind (eines sagt „sehr divers", das andere „moderat"), hat üblicherweise einen langen Schwanz seltener Arten — welche Antwort „richtig" ist, hängt von Ihrer wissenschaftlichen Frage ab. In Ökologie-Papieren ist es üblich, beide neben dem Artenreichtum (S) zu berichten und Leserinnen die Interpretation zu überlassen. In Mikrobiom-Arbeiten hat sich die Konvention auf mindestens Shannon und inversen Simpson verständigt, oft zusätzlich zu Faiths phylogenetischer Diversität (die dieser Rechner nicht berechnet — dafür brauchen Sie einen Baum). Müssen Sie eine einzelne Zahl wählen, ist inverser Simpson am leichtesten zu interpretieren, weil er Einheiten von „effektiven Arten" hat — eine Zahl, mit der auch Nicht-Spezialisten sofort etwas anfangen können.
Warum lässt tieferes Sequenzieren meinen Shannon höher aussehen?
Weil tieferes Sampling mehr seltene Arten entdeckt, und seltene Arten den Artenreichtum nach oben drücken — Shannon enthält einen Reichtumsterm, also steigt er mechanisch mit der Read-Zahl. Dieselbe Gemeinschaft, einmal mit 1.000 und einmal mit 50.000 Reads sequenziert, kann allein wegen der Sampling-Tiefe deutlich unterschiedliche Shannon-Werte zeigen, nicht wegen Biologie. Zwei Standardlösungen. (1) Rarefaktion: jede Probe auf die niedrigste Read-Tiefe Ihres Datensatzes herunter-subsamplen, bevor Sie Diversität berechnen. Sie verlieren echte Daten, aber Proben werden direkt vergleichbar. (2) Coverage- oder modellbasierte Schätzer verwenden (z. B. Hill-Zahlen via iNEXT, oder Chao1 für reinen Artenreichtum), die den Sampling-Aufwand explizit berücksichtigen. Für eine Einzelberechnung an einer Probe ist roher Shannon in Ordnung, solange Sie die Read-Zahl mit angeben; für Probenvergleiche nie rohen Shannon zwischen unterschiedlich tief sequenzierten Proben vergleichen.
Welche Eingabeformate akzeptiert der Rechner?
Alles, was eine Liste numerischer Häufigkeiten enthält. Der Parser extrahiert jeden numerischen Token aus dem eingefügten Text und behandelt jeden als Häufigkeit einer Art, also können Sie eine einzelne Spalte aus einer Tabelle, eine kommagetrennte Liste, eine tabulator-getrennte Tabelle mit Namen in einer und Häufigkeiten in einer anderen Spalte, oder sogar einen Satz wie „Art A hatte 12 Individuen, Art B 7" einfügen. Artennamen werden ignoriert — nur die Häufigkeiten zählen. Nullen werden weggelassen (eine Art mit null Beobachtungen ist nicht in der Probe). Negative Zahlen werden stillschweigend als Eingabefehler ignoriert. Haben Sie eine Tabelle mit mehreren Proben und wollen die Diversität jeder, führen Sie sie einzeln aus; der Rechner berechnet die Diversität einer einzelnen Probe pro Eingabe, nicht einer Matrix.
Meine Pielou-Evenness ist 1,00 — ist das richtig?
Ja — J′ = 1 bedeutet, dass die Gemeinschaft perfekt gleichmäßig ist, also jede Art dieselbe Häufigkeit hat. Mathematisch ist das, wenn Shannon sein theoretisches Maximum ln(S) erreicht und J′ = H′/ln(S) = 1. In echten ökologischen oder Mikrobiom-Daten ist das selten, weil reale Gemeinschaften fast immer eine gewisse Ungleichmäßigkeit haben; wenn Sie exakt 1,00 sehen, prüfen Sie, ob Ihre Eingabe nicht versehentlich eine Liste identischer Zahlen war (z. B. relative Häufigkeiten nach Rundung auf denselben Wert, oder eine konstante Spalte aus einer Tabelle). Am anderen Extrem strebt J′ gegen 0, wenn eine Art vollständig dominiert; J′ = 0 würde eine „Gemeinschaft" aus einer einzelnen Art bedeuten — der Rechner markiert das als nicht-anwendbar für Evenness, weil es kein theoretisches Maximum zum Vergleich gibt (S = 1 ergibt ln(S) = 0).