Calculatrice d'indice de diversité

Calculez les indices de Shannon, Simpson et la régularité de Pielou à partir d'une liste d'effectifs d'espèces — pour l'écologie, le microbiome et l'analyse de communautés.

Comment ça marche

L'alpha-diversité pose deux questions en même temps sur un échantillon de communauté : combien d'espèces différentes sont présentes (richesse), et à quel point les individus sont-ils répartis uniformément entre elles (régularité). Les indices classiques combinent ces deux idées en un seul nombre, pondéré différemment. La calculatrice prend une liste d'effectifs — un par espèce, dans n'importe quel format texte raisonnable — et renvoie les quatre résumés les plus utilisés : Shannon-Wiener H′, Gini-Simpson 1−D, Simpson inverse 1/D, et régularité de Pielou J′. Les quatre se calculent à partir du même vecteur de proportions (p_i = n_i / N) et les différences viennent de l'opération mathématique appliquée.

Shannon-Wiener H′ = −Σ p_i ln(p_i) est l'entropie de la distribution : « quelle surprise aurais-je en tirant un individu au hasard ? », élevée quand beaucoup d'espèces sont présentes et que les abondances sont équilibrées. Reporté en nats avec le logarithme naturel (par défaut ici), ou en bits avec log₂ — le choix n'affecte pas les comparaisons entre échantillons tant que vous êtes cohérent. Le D de Simpson = Σ p_i² est la probabilité que deux individus tirés au hasard appartiennent à la même espèce ; plus la communauté est régulière, plus D est petit. Le Gini-Simpson 1−D inverse pour que « plus haut = plus diversifié » (la forme que la plupart appellent « diversité de Simpson »). Le Simpson inverse 1/D a la propriété intéressante de se comporter comme un « nombre effectif d'espèces » — une communauté avec 1/D = 5 a la même diversité qu'une communauté parfaitement régulière de 5 espèces, indépendamment du nombre d'espèces rares dans la queue. La J′ de Pielou = H′ / ln(S) divise Shannon par son maximum théorique et donne un score de régularité entre 0 et 1, utile pour comparer des échantillons à nombres d'espèces différents.

Trois points pratiques. (1) Ces indices ne sont comparables qu'à effort d'échantillonnage fixe. Un échantillon 16S rRNA à 50 000 reads paraîtra plus divers que la même communauté à 5 000 reads, simplement parce qu'un échantillonnage plus profond découvre plus d'espèces rares. La pratique standard en microbiome est de raréfier tous les échantillons à la même profondeur avant de calculer la diversité, ou d'utiliser un estimateur basé sur la couverture. (2) La définition de « ce qui compte comme espèce » importe autant que l'indice. En microbiome, le clustering OTU à 97 % vs résolution ASV donne des chiffres de diversité notablement différents sur les mêmes données. Soyez explicite sur l'unité d'analyse. (3) Shannon et Simpson sont en désaccord sur le poids à donner aux espèces rares. Shannon leur en donne davantage (parce que ln(p) explose quand p tend vers zéro), Simpson presque pas. Si votre communauté a une longue queue de singletons que vous soupçonnez être des erreurs de séquençage, Simpson sera plus robuste ; si ces espèces rares sont biologiquement réelles et comptent pour votre question, Shannon les respecte.

La formule

Proportions : p_i = n_i / N Shannon (H′) : H′ = −Σ p_i × ln(p_i) Simpson (D) : D = Σ p_i² Gini-Simpson : 1 − D Simpson inverse : 1 / D Régularité J′ : J′ = H′ / ln(S)

n_i est l'effectif de l'espèce i, N est le total de tous les effectifs (Σ n_i), et S est le nombre d'espèces avec n_i > 0 (richesse). La calculatrice utilise le logarithme naturel partout, donc Shannon H′ est en nats ; multipliez par 1/ln(2) ≈ 1,443 pour convertir en bits si nécessaire. La J′ de Pielou n'est pas définie quand S = 1 (une seule espèce — pas de maximum théorique pour comparer), donc la calculatrice la montre comme non applicable dans ce cas. Les singletons (n_i = 1) contribuent pleinement à la richesse et à Shannon, mais très peu à Simpson parce que leur p_i² est minuscule.

Exemple de calcul

  • Échantillon avec 5 espèces, effectifs : 50, 25, 15, 7, 3 (total N = 100).
  • Proportions : 0,50, 0,25, 0,15, 0,07, 0,03.
  • Shannon H′ = −(0,50·ln 0,50 + 0,25·ln 0,25 + 0,15·ln 0,15 + 0,07·ln 0,07 + 0,03·ln 0,03) ≈ 1,265 nats.
  • Simpson D = 0,50² + 0,25² + 0,15² + 0,07² + 0,03² ≈ 0,344. Gini-Simpson 1−D ≈ 0,656. Inverse 1/D ≈ 2,91. Pielou J′ = 1,265/ln(5) ≈ 0,786.

Questions fréquentes

Dois-je rapporter Shannon, Simpson, ou les deux ?

Les deux, quand la place le permet. Ils soulignent des choses différentes : Shannon est plus sensible à la richesse spécifique et aux espèces rares, Simpson est plus sensible à la régularité entre les espèces dominantes. Une communauté où Shannon et Simpson sont en désaccord (l'un dit « très diverse », l'autre « modéré ») est généralement une avec une longue queue d'espèces rares — et la « bonne » réponse dépend de votre question scientifique. Pour les articles d'écologie, rapporter les deux avec la richesse (S) est la norme et laisse les lecteurs interpréter vos données à leur manière. Pour les travaux microbiome, la convention converge vers au moins Shannon et Simpson inverse, souvent avec la diversité phylogénétique de Faith (que cette calculatrice ne calcule pas — il faut un arbre). Si vous devez en choisir un seul, le Simpson inverse est le plus facile à interpréter parce qu'il a des unités de « nombre effectif d'espèces » — un nombre qu'un non-spécialiste peut comprendre immédiatement.

Pourquoi un séquençage plus profond augmente-t-il mon Shannon ?

Parce qu'un échantillonnage plus profond découvre plus d'espèces rares, et les espèces rares augmentent la richesse — Shannon inclut un terme de richesse, donc il monte mécaniquement avec le nombre de reads. La même communauté séquencée à 1 000 vs 50 000 reads peut montrer des valeurs Shannon notablement différentes uniquement à cause de la profondeur, pas de la biologie. Deux corrections standard. (1) Raréfaction : sous-échantillonnez chaque échantillon jusqu'à la plus faible profondeur de votre jeu de données avant de calculer la diversité. Vous perdez des données réelles mais les échantillons deviennent directement comparables. (2) Utilisez des estimateurs basés sur la couverture ou sur modèle (ex. nombres de Hill via iNEXT, ou Chao1 pour la richesse seule) qui prennent en compte l'effort d'échantillonnage explicitement. Pour un calcul ponctuel sur un échantillon unique, le Shannon brut est bien si vous rapportez le nombre de reads ; pour des comparaisons inter-échantillons, ne comparez jamais des Shannon bruts entre échantillons séquencés à des profondeurs différentes.

Quels formats d'entrée la calculatrice accepte-t-elle ?

N'importe quoi contenant une liste d'effectifs numériques. Le parser extrait tous les jetons numériques du texte collé et traite chacun comme un effectif d'espèce, donc vous pouvez coller une colonne unique d'un tableur, une liste séparée par virgules, une table tabulée avec les noms en une colonne et les effectifs dans une autre, voire une phrase comme « L'espèce A a 12 individus, l'espèce B a 7 ». Les noms d'espèces sont ignorés — seuls les effectifs comptent pour les indices. Les effectifs nuls sont écartés (une espèce avec zéro observation n'est pas dans l'échantillon). Les nombres négatifs sont silencieusement ignorés comme erreurs de saisie. Si vous avez un tableur avec plusieurs échantillons et voulez la diversité de chacun, traitez-les un par un ; la calculatrice calcule la diversité d'un seul échantillon par soumission, pas d'une matrice.

Ma régularité de Pielou est 1,00 — c'est juste ?

Oui — J′ = 1 signifie que la communauté est parfaitement régulière, c'est-à-dire que toutes les espèces ont le même effectif. Mathématiquement, c'est quand Shannon atteint son maximum théorique ln(S) et J′ = H′/ln(S) = 1. C'est rare en données écologiques ou microbiome réelles parce que les communautés réelles ont presque toujours au moins un peu d'irrégularité ; si vous voyez exactement 1,00, vérifiez que votre entrée n'était pas accidentellement une liste de nombres identiques (ex. vous avez collé des fréquences relatives après arrondi à la même valeur, ou vous avez une colonne constante d'un tableur). À l'autre extrême, J′ tend vers 0 quand une espèce domine totalement ; J′ = 0 impliquerait une « communauté » à espèce unique, que la calculatrice signale comme non applicable pour la régularité parce qu'il n'y a pas de maximum théorique pour comparer (S = 1 donne ln(S) = 0).

Calculatrices associées