多様性指数計算機

種ごとの個体数リストから Shannon、Simpson、Pielou の各多様性指数を一括算出 — 生態学・マイクロバイオーム・群集解析に対応。

使い方

アルファ多様性とは、ある群集サンプルについて 2 つの問いを同時に立てます:「何種類の種が含まれているか(種数 / richness)」と「各個体がそれらの種にどれだけ均等に配分されているか(均等度 / evenness)」。古典的な多様性指数は、この 2 つを単一の値にまとめ、それぞれ異なる重み付けをします。本ツールは、種ごとの個体数リスト(任意のテキスト形式、種ごとに 1 行など)を受け取り、最もよく使われる 4 つの値を返します:Shannon-Wiener H′、Gini-Simpson 1−D、逆 Simpson 1/D、Pielou 均等度 J′。すべて同じ比率ベクトル (p_i = n_i / N) から計算され、違いは「比率に対してどの演算を適用するか」だけです。

Shannon-Wiener H′ = −Σ p_i ln(p_i) は分布のエントロピー:「無作為に 1 個体を引いたとき、それがどの種かに関する驚きの大きさ」を表し、種数が多く各種の存在比率が均等なほど大きくなります。自然対数を使えば単位は nats(本ツールの既定)、log₂ を使えば bits — サンプル間の比較では一貫していれば結論は変わりません。Simpson の D = Σ p_i² は「無作為に 2 個体を引いたとき、それらが同じ種に属する確率」で、群集が均等なほど D は小さくなります。Gini-Simpson 1−D は符号を反転して「大きいほど多様」と読めるようにしたもので、一般に「Simpson 多様性」と呼ばれるのはこの形。逆 Simpson 1/D は「実効種数(effective number of species)」として解釈できる便利な性質を持ち、1/D = 5 の群集は「5 種が完全に均等な群集」と同じ多様性を持つ — 実際に裾に何種の希少種があってもこの解釈は変わりません。Pielou の J′ = H′ / ln(S) は Shannon を「その理論最大値」で割って 0〜1 の均等度スコアにしたもので、種数が違うサンプル間の比較に便利です。

実用上のポイント 3 つ。(1) これらの指数は「サンプリング努力量を揃えた場合のみ」比較可能です。例:16S rRNA サンプルで 50,000 reads のものは、5,000 reads のものより多様に見えますが、これは単にサンプリングが深ければ希少種を多く発見できるためです。マイクロバイオーム解析では、多様性計算前にすべてのサンプルを同じ read 深度に「rarefy(希釈)」するか、カバレッジベースの推定量を使うのが標準的な実務です。(2) 「何を 1 種と数えるか」の定義は、指数の選択と同じくらい結果を左右します。マイクロバイオームでは「97% 類似度の OTU クラスタリング」と「ASV 解像度」で、同じデータから出る多様性値が明確に違います。解析単位を明示してください。(3) Shannon と Simpson は「希少種にどれだけ重みを置くか」で意見が異なります。Shannon は希少種により大きな重み(ln(p) は p → 0 で発散するため)、Simpson はほとんど重みを置きません。もし群集に「シーケンシングエラーかもしれない singleton(1 reads のみの種)」が長い裾としてある場合は Simpson の方がロバスト。逆に、それら希少種が生物学的に実在し、研究上の問いに重要なら、Shannon の方がそれらを尊重します。

計算式

比率: p_i = n_i / N Shannon(H′): H′ = −Σ p_i × ln(p_i) Simpson(D): D = Σ p_i² Gini-Simpson: 1 − D 逆 Simpson: 1 / D Pielou 均等度 J′: J′ = H′ / ln(S)

n_i は種 i の個体数、N は全個体数の合計(Σ n_i)、S は n_i > 0 となる種数(richness)です。本ツールは内部で自然対数(ln)を使うため、Shannon H′ の単位は nats。bits に変換したい場合は 1/ln(2) ≈ 1.443 を掛けてください。Pielou J′ は S = 1 のとき定義されません(種が 1 つだけだと、比較すべき「理論最大の多様性」がない)。その場合、本ツールは「該当なし」と表示します。Singleton(n_i = 1)の種は、richness と Shannon には完全に寄与しますが、Simpson にはほとんど寄与しません — p_i² が極端に小さいためです。

計算例

  • 5 種からなるサンプル、個体数:50、25、15、7、3(合計 N = 100)。
  • 比率:0.50、0.25、0.15、0.07、0.03。
  • Shannon H′ = −(0.50·ln 0.50 + 0.25·ln 0.25 + 0.15·ln 0.15 + 0.07·ln 0.07 + 0.03·ln 0.03) ≈ 1.265 nats。
  • Simpson D = 0.50² + 0.25² + 0.15² + 0.07² + 0.03² ≈ 0.344。Gini-Simpson 1−D ≈ 0.656。逆 Simpson 1/D ≈ 2.91。Pielou J′ = 1.265/ln(5) ≈ 0.786。

よくある質問

Shannon と Simpson、どちらを報告すべき?

スペースが許すなら、両方の報告を推奨します。両者は強調する点が異なります:Shannon は種数(richness)と希少種に敏感、Simpson は優占種同士の均等度に敏感。Shannon と Simpson が「非常に多様 vs 中程度」のように一致しない群集は、たいてい「希少種の長い裾」を持つ群集で、どちらが「正しい」かは研究上の問いに依存します。生態学の論文では、両方の指数と richness(S)を併記するのが標準で、読者が自分の解釈で読めるようになります。マイクロバイオーム分野では、慣習として最低でも Shannon と逆 Simpson を併記し、しばしば Faith の系統的多様性も併記されます(これは本ツールでは計算できません — 別途系統樹が必要)。1 つだけ選ぶ必要があるなら、逆 Simpson が最も解釈しやすい:単位が「実効種数(effective number of species)」なので、専門外の読者にも直感的に伝わります。

なぜシーケンシング深度を上げると Shannon が高くなる?

深いシーケンシングほど希少種を多く発見できるためで、希少種は richness を押し上げます — Shannon には「richness の寄与」が含まれているので、reads 数の増加に伴って機械的に上昇します。同じ群集を 1,000 reads と 50,000 reads で読むと、Shannon 値は「生物学的差」ではなく「サンプリング深度の違い」だけで意味のある差を示しえます。標準的な対処は 2 つ。(1) Rarefaction:データセット中の最も少ない reads 数に合わせて、各サンプルをサブサンプリングしてから多様性を計算する。実データを一部捨てる代わりに、サンプル間が直接比較可能になる。(2) カバレッジベース、またはモデルベースの推定量を使う(例:iNEXT による Hill numbers、richness 単独なら Chao1 など) — サンプリング努力量を明示的に補正してくれます。1 サンプルだけの単発計算なら、reads 数を併記すれば生の Shannon を報告するのは問題ありません。サンプル間比較では、シーケンシング深度が違うサンプル同士で「生の Shannon」を比べてはいけません。

どのような入力形式に対応していますか?

「数値の個体数のリスト」が含まれていれば、ほぼ何でも受け付けます。パーサは貼り付けられたテキストから数値トークンをすべて抽出し、それぞれを「1 種ぶんの個体数」として扱います — Excel のセル列、カンマ区切りリスト、種名と個体数が別列のタブ区切り表、さらには「種 A は 12 個体、種 B は 7 個体」のような文章まで OK です。種名は無視され、計算には個体数のみが使われます。0 はサンプルに含まれない種として除外、負の値は入力エラーとして黙って無視します。複数サンプルが入った行列に対して各サンプルの多様性を計算したい場合は、サンプルごとに 1 回ずつ実行してください — 本ツールは「1 回の入力 = 1 サンプル」での多様性のみを計算し、行列入力には対応しません。

Pielou 均等度が 1.00 になりました — これは正しい?

はい — J′ = 1 は「群集が完全に均等」、つまりすべての種が同じ個体数であることを意味します。数学的には、Shannon が理論最大値 ln(S) に達した状態で、J′ = H′/ln(S) = 1 となります。現実の生態学・マイクロバイオームのデータでは滅多に出ません — 実在の群集はほぼ常になにがしかの偏りを持つためです。もし J′ がちょうど 1.00 になった場合、入力が誤って「すべて同じ数値の列」になっていないかを確認してください(例:相対頻度を四捨五入して同じ値に丸まった、Excel の定数列を貼り付けた、など)。逆の極端では、ある 1 種が完全に優占すると J′ は 0 に近づきます。J′ = 0 は「種が 1 つだけの群集」を意味しますが、その場合は比較すべき理論最大がないため(S = 1 だと ln(S) = 0)、本ツールは均等度を「該当なし」と表示します。

関連計算機