GC 含量計算機

DNA・RNA 配列を貼り付けて GC 含量(%)を計算 — A/T/G/C の内訳と配列長まで一括表示。

使い方

GC 含量とは、核酸配列中の塩基のうち、グアニン(G)またはシトシン(C)である割合を示す指標で、アデニン(A)・チミン(T)・ウラシル(U)との対比で考えます。配列を最も基本的に特徴付ける指標の一つで、分子生物学のほぼあらゆる場面に現れます。理由は、GC 塩基対と AT 塩基対の熱安定性が異なるためです:G は C と 3 本、A は T と 2 本の水素結合で対合します。GC が多いほど二重らせんは安定で、融解温度(Tm)も高くなります。生命の系統樹全体では、GC 含量は AT 偏重の細菌で約 13%、Streptomyces 属の一部で 75% 超と大きく振れます。同じゲノム内でも領域ごとに違い、哺乳類の「アイソコア」、脊椎動物プロモーターの「CpG アイランド」がよく研究されている例です。

計算式は単純:GC% = (G + C) / (A + T + G + C) × 100。本ツールは生配列でも FASTA 貼り付け(`>` のヘッダー行は自動で除去)でも受け付け、大文字小文字を区別せず、U は T と等価に扱い(RNA 配列も OK)、塩基以外の文字 — 空白、数字、記号、ギャップ、アラインメント記号、IUPAC のあいまいコード(N、Y、R、W、S、K、M、B、D、H、V)— はすべて無視します。分母は 4 つの正規塩基のみを数えるため、「A/T/G/C が 90%、N が 10%」の配列では「読めた 90% に対する GC%」を返します。配列のうち N の割合が大きい場合は、表示される GC% を近似値とみなし、必要なら N を除いた部分配列だけで再計算してください。

実用上のポイント 3 つ。(1) 実験現場では、ゲノム全体の GC 含量より「プライマーの GC 含量」が重要な場面の方が多い。PCR プライマーの GC は 40〜60% を目安に — これを外れると、低 GC では結合が弱くプライミングが不安定になり、高 GC では二次構造形成や安定なミスマッチが起こりやすくなります。(2) ゲノム規模や長い contig の解析では、GC 含量はウィンドウサイズによって意味のある変動を示します — 細菌ゲノム全体に 1 つの値を出す分には十分情報量がありますが、哺乳類染色体では「スライディングウィンドウのプロット」を併用するのが普通です。本ツールが返すのは、貼り付けた範囲の単純平均です。(3) Tm(融解温度)への影響は確かにありますが、単純な比例関係ではありません。同じ長さなら GC 50% のプライマーは 30% のものより 5〜10 °C 程度高く融解しますが、正確な値は長さ・塩濃度・nearest-neighbor 文脈に依存します。プライマー設計には GC からの目分量ではなく、nearest-neighbor 法に基づく Tm 計算ツールを使ってください。

計算式

GC 数: n_GC = G の数 + C の数 有効塩基数: n_total = A の数 + T/U の数 + G の数 + C の数 GC %: GC% = n_GC / n_total × 100

「X の数」は、小文字に正規化し塩基以外の文字を除いた配列中での塩基 X の出現回数です。T と U は同一視するため、DNA でも RNA でも結果は同じになります。あいまい記号(N、Y、R、W、S、K、M、B、D、H、V)は分子・分母のいずれにもカウントしないので、N を多く含む配列の場合は「不確実なく call できた位置」のみで計算した値が返ります。結果は 0〜100% の値です。短い配列や低複雑度の配列では、この値はサンプリングノイズに支配される点に注意(例:20mer なら真の GC 含量から ±10 ポイント程度の標準誤差があり得る) — 短い入力に対して小数点以下 3 桁の精度を読み取るのは過剰解釈です。

計算例

  • 32 bp の配列を貼り付ける:ATGCATGCATGCATGCGCGCGCATATATATGC。
  • 内訳:A = 9、T = 7、G = 8、C = 8。合計 32 塩基(有効)。
  • GC = 8 + 8 = 16。GC % = 16 / 32 × 100 = 50.00% — ぴったり均衡。

よくある質問

FASTA 形式にも対応していますか?

はい。`>` で始まる行はすべてヘッダーと見なし、塩基カウントから除外します — FASTA レコードはそのまま貼り付け可能で、本ツールはヘッダー以下の配列行のみを処理します。複数レコードの FASTA(1 回の貼り付けに `>` が複数)の場合は、すべての配列行を連結して 1 つの GC% に集約します — レコードが生物学的に別物なら、これは意図しない結果になることが多いので、その場合は 1 レコードずつ実行してください。同じパーサが空白(改行・タブ含む)、数字(GenBank flat file の番号付き配列もそのまま処理可)、記号もすべて除去するため、ほぼあらゆるテキスト形式のダンプから正しい結果を得られます。

N やその他のあいまい記号はどう扱う?

分子・分母のどちらからも除外します — つまり GC % は「A、C、G、T/U として明確に call できた位置」のみで計算されます。例:100 bp のうち、明確 80 塩基(GC = 40)、N が 20 塩基という配列なら、GC = 50%(40/80)と返り、40%(40/100)にはなりません。「N = call できなかった位置」を「GC ではない」とみなして数に入れると GC 推定値にバイアスがかかるため、これが正しい挙動です。もし「公開済みの値が N を分母に含めて算出していた」など、特定の理由で N を分母に含めたい場合は、貼り付け前に N を削除した配列を入力すれば、いずれにしても同じ結果になります。その他の IUPAC コード(R、Y、W、S、K、M、B、D、H、V)も N と同じ扱いで、すべてスキップします。

「良い」プライマーの GC 含量はどのくらい?

標準的な PCR プライマーは GC 40〜60% を目安にしてください。40% を下回ると、結合が弱くなりやすく、特に標準的なアニーリング温度では増幅不足のリスクが上がります。60% を超えると、二次構造(ヘアピン、プライマーダイマー)が安定化しやすく、1 塩基ミスマッチも許容しやすくなって、オフターゲット増幅が起こりやすくなります。40〜60% の範囲内であれば、GC の微調整より他の設計指標を優先してください:同一塩基の 3 連続超を避ける、GC を一箇所に固めず配列全体に均等に分布させる、3' 末端に 1〜2 個の G/C を置く(「GC クランプ」と呼ばれる結合のアンカー)。極端な GC のゲノム(AT 偏重の細菌、GC リッチな Streptomyces 属など)でターゲットに対し 40〜60% に収められない場合は、プライマー GC をその局所領域のゲノム GC に揃え、特異性は「Tm を厳密に揃える」「アニーリング温度を上げる」ことで担保するのが現実解です。

GC 含量は融解温度(Tm)にどう影響する?

GC が高いほど Tm(融解温度)は上がります — GC 塩基対は水素結合 3 本、AT は 2 本のためです。ただし関係は単純な比例ではなく、長さ・塩濃度・近傍配列の文脈に強く依存します。短いオリゴ(≤14 bp)には古典的な「Wallace 則」:Tm ≈ 4 × (G + C) + 2 × (A + T) °C が暗算用に便利。長めのオリゴには Tm ≈ 64.9 + 41 × (GC % − 16.4) / 長さ のような基本式の方が当てはまりが良い。これらはいずれも、もっと正確な「nearest-neighbor 法」(隣接する塩基対スタックごとに熱力学パラメータを使う方法)の近似式に過ぎません。実際のプライマー設計には、nearest-neighbor を実装した Tm 計算ツールを使ってください — 標準的な条件で誤差 1〜2 °C 以内の信頼できる値が出ます(近似式は極端なケースで 3〜5 °C 外すことがあります)。ざっくりした感覚値として、PCR 標準塩条件で 20mer・GC 40% なら Tm はおよそ 56 °C、同じ 20mer で GC 60% なら 64 °C 程度です。

関連計算機