Cómo funciona
El contenido GC es el porcentaje de bases de una secuencia de ácido nucleico que son guanina (G) o citosina (C), frente a adenina (A) o timina/uracilo (T/U). Es uno de los descriptores más básicos de una secuencia y aparece en casi todos los aspectos de la biología molecular, porque los pares GC y AT difieren en estabilidad térmica: G se aparea con C mediante tres puentes de hidrógeno, mientras que A se aparea con T solo con dos. Más GC implica una doble hélice más estable y una temperatura de fusión más alta. En el árbol de la vida, el contenido GC varía desde el 13 % aproximado en bacterias extremo-AT hasta más del 75 % en algunos Streptomyces — y dentro de un mismo genoma varía por región: los isocoros en mamíferos y las islas CpG en promotores de vertebrados son dos ejemplos bien estudiados.
La fórmula es directa: GC % = (G + C) / (A + T + G + C) × 100. La calculadora acepta secuencia cruda o FASTA pegado (con la cabecera `>` retirada automáticamente), no distingue mayúsculas, trata la U como T (las secuencias de ARN funcionan) e ignora cualquier carácter no-base — espacios, números, puntuación, gaps, marcadores de alineamiento y códigos IUPAC ambiguos (N, Y, R, W, S, K, M, B, D, H, V). El denominador cuenta solo las cuatro bases canónicas, así que una secuencia 90 % A/T/G/C y 10 % N reporta el GC % sobre ese 90 % que se puede llamar. Si una fracción significativa de tu secuencia es N, trata el GC % como aproximado y considera correr el cálculo solo sobre la parte no enmascarada.
Tres puntos prácticos. (1) Para la mayoría de usos de laboratorio importa más el GC de un cebador que el GC global del genoma. Los cebadores de PCR suelen apuntar a 40-60 % GC; fuera de ese rango arriesgas mal cebado (poco GC = unión débil) o estructuras secundarias y desapareamientos estables (mucho GC). (2) Para análisis de genoma o contigs largos, el GC varía notablemente con el tamaño de ventana — un único número para un genoma bacteriano es informativo, pero para un cromosoma de mamífero querrás una curva en ventana deslizante. El número de esta calculadora es el promedio simple de lo que pegues. (3) Las implicaciones de temperatura de fusión son reales pero no directamente proporcionales: un cebador al 50 % GC funde ~5-10 °C por encima de uno del mismo largo al 30 %, pero la relación exacta depende del largo, la sal y el contexto de vecino más cercano. Usa una calculadora de Tm específica (con método de vecino más cercano) para diseño de cebadores en vez de estimar desde el GC solo.
La fórmula
recuento(X) es el número de veces que la base X aparece en la secuencia tras pasar a minúsculas y descartar caracteres no-base. T y U se tratan igual — pegues ADN o ARN, el resultado es el mismo. Los códigos ambiguos (N, Y, R, W, S, K, M, B, D, H, V) no cuentan ni en numerador ni en denominador, así que una secuencia con muchas N se reporta solo sobre las posiciones llamadas unívocamente. El resultado es un porcentaje en 0-100; para secuencias cortas o de baja complejidad, este número está dominado por ruido de muestreo (un 20-mer tiene un error estándar de ~±10 puntos porcentuales en torno al GC real), así que no sobreinterpretes la precisión a tres decimales en una entrada corta.
Ejemplo de cálculo
- Pega una secuencia de 32 pb: ATGCATGCATGCATGCGCGCGCATATATATGC.
- Recuentos: A = 9, T = 7, G = 8, C = 8. Total = 32 bases válidas.
- GC = 8 + 8 = 16. GC % = 16 / 32 × 100 = 50,00 % — perfectamente equilibrado.
Preguntas frecuentes
¿La calculadora acepta formato FASTA?
Sí. Cualquier línea que empiece por `>` se trata como cabecera y se excluye del recuento, así que puedes pegar un registro FASTA tal cual — la calculadora procesa solo las líneas de secuencia bajo la cabecera. FASTA multirregistro (varias cabeceras `>` en un mismo pegado) se concatena en un único GC % sobre todas las líneas de secuencia, lo cual puede no ser lo que quieres si los registros son biológicamente distintos; en ese caso ejecútalos uno a uno. El mismo parser elimina espacios en blanco (incluidos saltos de línea y tabuladores), dígitos (así funcionan las secuencias numeradas de los flat files de GenBank) y puntuación, así que casi cualquier dump en texto te dará el resultado correcto.
¿Qué hace con las N y otros códigos ambiguos?
Se excluyen tanto del numerador como del denominador, lo que significa que el GC % se calcula solo sobre las posiciones llamadas inequívocamente como A, C, G o T/U. Así, una secuencia de 100 pb con 80 bases inequívocas (40 GC) y 20 N reporta GC = 50 % (40/80), no 40 % (40/100). Es la respuesta correcta cuando las N representan «no llamables» — no quieres sesgar la estimación contando incógnitas como no-GC. Si por algún motivo necesitas que las N entren en el denominador (p. ej. comparas con un valor publicado que sí las incluía), retíralas del input antes de pegar y el resultado será el mismo en cualquier caso. Los demás códigos IUPAC (R, Y, W, S, K, M, B, D, H, V) se manejan igual que la N — son ambiguos, así que se saltan.
¿Qué GC es «bueno» para un cebador?
Para cebadores de PCR estándar, apunta a 40-60 % GC. Por debajo del 40 % los cebadores se unen débilmente y arriesgas mala amplificación, sobre todo a temperaturas de anclaje estándar. Por encima del 60 % los cebadores pueden formar estructuras secundarias estables (horquillas, dímeros) y toleran mejor desapareamientos de base única, con riesgo de amplificación inespecífica. Dentro de ese rango 40-60 %, prioriza otras métricas de diseño sobre el ajuste fino del GC: evita más de tres bases idénticas seguidas, distribuye el GC uniformemente a lo largo del cebador en vez de en clúster y apunta a un extremo 3' con una o dos bases G/C (la «pinza GC») para anclar la unión. Para cebadores en genomas de GC extremo (bacterias muy AT, Streptomyces GC-ricos), el 40-60 % estricto puede no ser alcanzable en tu región — en ese caso ajusta el GC del cebador al GC local del genoma y apóyate en una coincidencia de Tm más estricta y temperaturas de anclaje altas para mantener la especificidad.
¿Cómo afecta el GC a la temperatura de fusión?
Más GC implica mayor temperatura de fusión, porque los pares GC tienen tres puentes de hidrógeno y los AT solo dos. La relación es real pero no directamente proporcional — depende fuerte de la longitud, la sal y los vecinos concretos. La regla clásica de Wallace para oligos cortos (≤14 pb) es Tm ≈ 4 × (G + C) + 2 × (A + T) °C, buena para una estimación mental; para oligos más largos una fórmula básica como Tm ≈ 64,9 + 41 × (GC % − 16,4) / longitud va mejor. Ambas son aproximaciones del método de vecino más cercano, más preciso, que usa parámetros termodinámicos para cada apilamiento de bases adyacentes. Para diseño real de cebadores, usa una calculadora de Tm dedicada con vecino más cercano — obtendrás valores fiables dentro de ~1-2 °C, mientras las aproximaciones pueden desviarse 3-5 °C en casos extremos. Como cordura: un 20-mer al 40 % GC funde en torno a 56 °C, el mismo 20-mer al 60 % GC ronda los 64 °C, ambos en condiciones de sal estándar de PCR.