Comment ça marche
Le contenu GC est le pourcentage de bases d'une séquence d'acide nucléique qui sont soit guanine (G), soit cytosine (C), par opposition à adénine (A) ou thymine/uracile (T/U). C'est l'un des descripteurs les plus basiques d'une séquence et il intervient dans presque tous les aspects de la biologie moléculaire, parce que les paires GC et AT diffèrent en stabilité thermique : G s'apparie à C par trois liaisons hydrogène, A s'apparie à T par seulement deux. Plus de GC signifie une double hélice plus stable et une température de fusion plus élevée. À travers l'arbre du vivant, le contenu GC varie d'environ 13 % chez certaines bactéries très AT à plus de 75 % chez certains Streptomyces — et au sein d'un même génome il varie selon la région : les isochores chez les mammifères et les îlots CpG dans les promoteurs des vertébrés sont deux exemples bien étudiés.
La formule est directe : GC % = (G + C) / (A + T + G + C) × 100. La calculatrice accepte la séquence brute ou collée en FASTA (la ligne `>` d'en-tête est retirée automatiquement), ne distingue pas la casse, traite U comme T (les séquences ARN passent), et ignore tout caractère non-base — espaces, chiffres, ponctuation, gaps, marqueurs d'alignement et codes IUPAC ambigus (N, Y, R, W, S, K, M, B, D, H, V). Le dénominateur compte uniquement les quatre bases canoniques, donc une séquence à 90 % A/T/G/C et 10 % N rapportera le GC % calculé sur les 90 % réellement appelables. Si une fraction notable de votre séquence est N, traitez le GC % comme approximatif et envisagez de relancer sur la portion non masquée.
Trois points pratiques. (1) Pour la plupart des usages laboratoire, le GC d'une amorce compte plus que le GC global du génome. Les amorces PCR visent typiquement 40-60 % GC ; hors plage, vous risquez un mauvais amorçage (trop peu GC = liaison faible) ou des structures secondaires et mésappariements stables (trop GC). (2) Pour analyse de génome ou de longs contigs, le GC varie sensiblement avec la taille de fenêtre — un nombre unique pour un génome bactérien est informatif, mais pour un chromosome de mammifère il faut une courbe en fenêtre glissante. Le nombre que renvoie cette calculatrice est la moyenne simple sur ce que vous collez. (3) Les implications de température de fusion sont réelles mais pas directement proportionnelles : une amorce à 50 % GC fond ~5-10 °C plus haut qu'une de même longueur à 30 %, mais la relation exacte dépend de la longueur, de la concentration en sel et du contexte de plus proche voisin. Utilisez une calculatrice Tm dédiée (méthode plus proche voisin) pour la conception d'amorces plutôt que d'estimer depuis le GC seul.
La formule
comptage(X) est le nombre de fois où la base X apparaît dans la séquence après mise en minuscules et retrait des caractères non-base. T et U sont traités à l'identique — collez ADN ou ARN, même résultat. Les codes ambigus (N, Y, R, W, S, K, M, B, D, H, V) ne sont comptés ni au numérateur ni au dénominateur, donc une séquence riche en N est rapportée uniquement sur les positions appelées sans ambiguïté. Le résultat est un pourcentage dans 0-100 ; pour des séquences courtes ou peu complexes, ce nombre est dominé par le bruit d'échantillonnage (un 20-mer a une erreur standard d'environ ±10 points autour du GC réel), donc n'extrayez pas de signification d'une précision à trois décimales sur une petite entrée.
Exemple de calcul
- Collez une séquence de 32 pb : ATGCATGCATGCATGCGCGCGCATATATATGC.
- Comptages : A = 9, T = 7, G = 8, C = 8. Total = 32 bases valides.
- GC = 8 + 8 = 16. GC % = 16 / 32 × 100 = 50,00 % — parfaitement équilibré.
Questions fréquentes
La calculatrice gère-t-elle le format FASTA ?
Oui. Toute ligne commençant par `>` est traitée comme en-tête et exclue du comptage, donc vous pouvez coller un enregistrement FASTA tel quel — la calculatrice ne traite que les lignes de séquence sous l'en-tête. Le FASTA multi-enregistrements (plusieurs `>` dans un seul collage) est concaténé en un GC % unique sur l'ensemble, ce qui peut ne pas être souhaité si les enregistrements sont biologiquement distincts ; dans ce cas, traitez-les un par un. Le même parser retire les espaces (y compris sauts de ligne et tabulations), les chiffres (donc les séquences numérotées des flat files GenBank passent) et la ponctuation, donc presque tout dump texte d'une séquence donnera le bon résultat.
Que fait-elle des N et autres codes ambigus ?
Ils sont exclus du numérateur et du dénominateur, ce qui signifie que le GC % est calculé uniquement sur les positions appelées sans ambiguïté en A, C, G ou T/U. Donc une séquence de 100 pb avec 80 bases sans ambiguïté (40 GC) et 20 N rapporte GC = 50 % (40/80), pas 40 % (40/100). C'est la bonne réponse quand les N représentent « non appelable » — vous ne voulez pas biaiser l'estimation GC en comptant les inconnus comme non-GC. Si vous avez une raison spécifique de vouloir les N au dénominateur (ex. comparaison avec un chiffre publié qui les incluait), retirez les N de l'entrée avant de coller et le résultat sera identique. Les autres codes IUPAC (R, Y, W, S, K, M, B, D, H, V) sont gérés comme N — ambigus, donc ignorés.
Qu'est-ce qu'un « bon » GC pour une amorce ?
Pour des amorces PCR standard, visez 40-60 % GC. Sous 40 %, les amorces se lient faiblement et vous risquez une amplification médiocre, surtout aux températures d'appariement standard. Au-dessus de 60 %, les amorces peuvent former des structures secondaires stables (épingles, dimères d'amorces) et tolèrent davantage les mésappariements à une base, ce qui peut causer une amplification hors-cible. Dans cette fenêtre 40-60 %, privilégiez les autres métriques de design plutôt que le réglage fin du GC : évitez les plages de plus de trois bases identiques consécutives, distribuez le GC uniformément le long de l'amorce plutôt qu'en grappes, et visez une extrémité 3' avec une ou deux G/C (le « clamp GC ») pour ancrer la liaison. Pour des amorces dans des génomes à GC extrême (bactéries très AT, Streptomyces GC-riche), le 40-60 % strict peut être inatteignable dans votre région cible — alignez alors le GC de l'amorce sur le GC local du génome et appuyez-vous sur un appariement de Tm plus strict et des températures d'appariement plus élevées pour maintenir la spécificité.
Comment le GC influence-t-il la température de fusion ?
Plus de GC signifie une Tm plus élevée, parce que les paires GC ont trois liaisons hydrogène et les AT seulement deux. La relation est réelle mais pas directement proportionnelle — elle dépend fortement de la longueur, de la salinité et des bases voisines spécifiques. La règle classique de Wallace pour les oligos courts (≤14 pb) est Tm ≈ 4 × (G + C) + 2 × (A + T) °C, utile pour une estimation mentale ; pour des oligos plus longs, une formule comme Tm ≈ 64,9 + 41 × (GC % − 16,4) / longueur fait mieux. Ces deux formules sont des approximations de la méthode plus proche voisin, plus précise, qui utilise des paramètres thermodynamiques pour chaque empilement de paires adjacentes. Pour du vrai design d'amorces, utilisez une calculatrice Tm dédiée avec plus proche voisin — vous aurez des valeurs fiables à ~1-2 °C, là où les approximations peuvent être à 3-5 °C dans les cas extrêmes. Pour donner un ordre de grandeur : un 20-mer à 40 % GC fond vers 56 °C, le même 20-mer à 60 % GC autour de 64 °C, dans des conditions salines PCR standard.