GC-Gehalt-Rechner

DNA- oder RNA-Sequenz einfügen, um den GC-Gehalt (%) zu berechnen — mit vollständiger A/T/G/C-Aufschlüsselung und Länge.

Wie es funktioniert

Der GC-Gehalt ist der Prozentsatz der Basen in einer Nukleinsäuresequenz, die entweder Guanin (G) oder Cytosin (C) sind — im Gegensatz zu Adenin (A) oder Thymin/Uracil (T/U). Er ist einer der grundlegendsten Sequenzdeskriptoren und taucht in fast jedem Bereich der Molekularbiologie auf, weil GC- und AT-Basenpaare sich in der thermischen Stabilität unterscheiden: G paart sich mit C über drei Wasserstoffbrücken, A mit T nur über zwei. Mehr GC bedeutet stabilere Doppelhelix und höhere Schmelztemperatur. Im Stammbaum des Lebens schwankt der GC-Gehalt von etwa 13 % bei extrem AT-reichen Bakterien bis über 75 % bei manchen Streptomyces — und innerhalb eines Genoms variiert er nach Region: Isochoren bei Säugern und CpG-Inseln in Vertebraten-Promotoren sind zwei gut untersuchte Beispiele.

Die Formel ist einfach: GC % = (G + C) / (A + T + G + C) × 100. Der Rechner akzeptiert Rohsequenz oder eingefügtes FASTA (die `>`-Headerzeile wird automatisch entfernt), ist groß-/kleinschreibungs-unsensitiv, behandelt U wie T (RNA-Sequenzen funktionieren) und ignoriert alle nicht-Basen-Zeichen — Whitespace, Zahlen, Satzzeichen, Gaps, Alignment-Marker und IUPAC-Ambiguitätscodes (N, Y, R, W, S, K, M, B, D, H, V). Der Nenner zählt nur die vier kanonischen Basen, sodass eine Sequenz mit 90 % A/T/G/C und 10 % N den GC % auf Basis der callbaren 90 % berichtet. Ist ein nennenswerter Anteil Ihrer Sequenz N, behandeln Sie den GC % als Näherung und ziehen Sie eine erneute Berechnung nur auf der unmaskierten Teilmenge in Betracht.

Drei praktische Hinweise. (1) Für die meisten Lab-Anwendungen zählt der GC-Gehalt eines Primers mehr als der Gesamt-GC eines Genoms. PCR-Primer zielen typisch auf 40-60 % GC; außerhalb riskieren Sie schlechtes Priming (zu wenig GC = schwache Bindung) oder Sekundärstrukturen und stabile Fehlpaarungen (zu viel GC). (2) Für Vollgenom- oder Long-Contig-Analyse variiert der GC-Gehalt deutlich mit der Fenstergröße — eine einzelne Zahl für ein bakterielles Genom ist informativ, für ein Säuger-Chromosom braucht man üblicherweise einen Sliding-Window-Plot. Die Zahl dieses Rechners ist der einfache Mittelwert über das Eingefügte. (3) Die Schmelztemperatur-Implikationen sind real, aber nicht direkt proportional: Ein 50-%-GC-Primer schmilzt ~5-10 °C höher als ein 30-%-GC-Primer gleicher Länge, aber die exakte Beziehung hängt von Länge, Salzkonzentration und Nearest-Neighbor-Kontext ab. Für Primer-Design einen dedizierten Tm-Rechner (Nearest-Neighbor-Methode) verwenden, statt aus dem GC zu schätzen.

Die Formel

GC-Anzahl: n_GC = Anzahl(G) + Anzahl(C) Gültige Basen: n_total = Anzahl(A) + Anzahl(T/U) + Anzahl(G) + Anzahl(C) GC %: GC% = n_GC / n_total × 100

Anzahl(X) ist die Häufigkeit der Base X in der Sequenz nach Kleinbuchstaben-Konvertierung und Entfernen nicht-base Zeichen. T und U werden identisch behandelt — egal ob DNA oder RNA, das Ergebnis ist gleich. Ambiguitätscodes (N, Y, R, W, S, K, M, B, D, H, V) zählen weder in Zähler noch in Nenner, also wird eine Sequenz mit vielen N nur über eindeutig gecallte Positionen ausgewertet. Das Ergebnis ist ein Prozentwert im Bereich 0-100; bei kurzen oder niedrig-komplexen Sequenzen wird diese Zahl vom Sampling-Rauschen dominiert (ein 20-mer hat einen Standardfehler von etwa ±10 Prozentpunkten um den wahren GC-Gehalt), daher keine Drei-Dezimal-Präzision aus einer kurzen Eingabe überinterpretieren.

Beispielrechnung

  • Eine 32-bp-Sequenz einfügen: ATGCATGCATGCATGCGCGCGCATATATATGC.
  • Zählungen: A = 9, T = 7, G = 8, C = 8. Gesamt = 32 gültige Basen.
  • GC = 8 + 8 = 16. GC % = 16 / 32 × 100 = 50,00 % — exakt ausgeglichen.

Häufig gestellte Fragen

Verarbeitet der Rechner FASTA-Format?

Ja. Jede mit `>` beginnende Zeile wird als Header behandelt und nicht in die Zählung einbezogen, also können Sie einen FASTA-Eintrag wörtlich einfügen — der Rechner verarbeitet nur die Sequenzzeilen unter dem Header. Multi-Record-FASTA (mehrere `>`-Header in einem Einfügen) wird zu einem einzigen GC % über alle Sequenzzeilen zusammengefasst, was nicht gewünscht sein muss, wenn die Records biologisch verschieden sind; in dem Fall einzeln durchlaufen. Derselbe Parser entfernt Whitespace (inklusive Zeilenumbrüche und Tabs), Ziffern (sodass nummerierte GenBank-Flatfile-Sequenzen funktionieren) und Satzzeichen, sodass fast jeder Text-Dump einer Sequenz das richtige Ergebnis liefert.

Wie behandelt der Rechner N und andere Ambiguitätscodes?

Sie werden sowohl aus Zähler als auch Nenner ausgeschlossen, was bedeutet: GC % wird nur über Positionen berechnet, an denen die Base eindeutig als A, C, G oder T/U gecallt ist. Eine 100-bp-Sequenz mit 80 eindeutigen Basen (40 GC) und 20 N berichtet also GC = 50 % (40/80), nicht 40 % (40/100). Das ist die richtige Antwort, wenn N für „nicht callbar" steht — Sie wollen die GC-Schätzung nicht verzerren, indem Sie Unbekannte als nicht-GC zählen. Wenn Sie aus spezifischem Grund N im Nenner haben wollen (etwa für Vergleich mit publizierter Zahl, die sie einbezog), entfernen Sie die N vorher und das Ergebnis bleibt gleich. Andere IUPAC-Codes (R, Y, W, S, K, M, B, D, H, V) werden wie N behandelt — ambig, also übersprungen.

Was ist ein „guter" GC-Gehalt für einen Primer?

Für Standard-PCR-Primer 40-60 % GC anstreben. Unter 40 % binden Primer eher schwach, und Sie riskieren mangelhafte Amplifikation, besonders bei Standard-Annealingtemperaturen. Über 60 % können Primer stabile Sekundärstrukturen (Hairpins, Primer-Dimere) bilden und Einzelbasen-Mismatches stärker tolerieren — was Off-Target-Amplifikation auslösen kann. Innerhalb des 40-60-%-Fensters andere Designmetriken priorisieren statt am GC zu feilen: keine Läufe von mehr als drei gleichen Basen, GC gleichmäßig über den Primer verteilen statt in Clustern, und am 3'-Ende eine oder zwei G/C als „GC-Klemme" anstreben, um die Bindung zu verankern. Bei Primern in Genomen mit extremem Gesamt-GC (sehr AT-reiche Bakterien, GC-reiche Streptomyces) ist striktes 40-60 % in der Zielregion eventuell nicht erreichbar — passen Sie dann den Primer-GC an den lokalen Genom-GC an und stützen Sie sich auf strengeres Tm-Matching und höhere Annealingtemperaturen für die Spezifität.

Wie beeinflusst der GC-Gehalt die Schmelztemperatur?

Höherer GC-Gehalt bedeutet höhere Schmelztemperatur, weil GC-Paare drei Wasserstoffbrücken haben, AT-Paare nur zwei. Der Zusammenhang ist real, aber nicht direkt proportional — er hängt stark von Länge, Salzkonzentration und konkretem Nachbarschaftskontext ab. Die klassische Wallace-Regel für kurze Oligos (≤14 bp) lautet Tm ≈ 4 × (G + C) + 2 × (A + T) °C — gut für eine schnelle Kopfschätzung; für längere Oligos schneidet eine Grundformel wie Tm ≈ 64,9 + 41 × (GC % − 16,4) / Länge besser ab. Beide sind Näherungen der genaueren Nearest-Neighbor-Methode, die thermodynamische Parameter für jedes benachbarte Basenpaar-Stack verwendet. Für echtes Primer-Design einen dedizierten Tm-Rechner mit Nearest-Neighbor-Algorithmus nutzen — verlässlich auf ~1-2 °C, während die Näherungen in Extremfällen 3-5 °C danebenliegen können. Als Plausibilitätscheck: Ein 20-mer bei 40 % GC schmilzt um 56 °C, dasselbe 20-mer bei 60 % GC um 64 °C — beides bei Standard-PCR-Salzbedingungen.

Ähnliche Rechner