Benchmark GPT-5.5 · análisis cualitativo-cuantitativo

Mapa de fallos por velocidad y nivel de razonamiento

Comparativa visual de frecuencia, gravedad y naturaleza dominante de los fallos observados en cada perfil de ejecución.

Lectura comparativa

Conclusiones

Más errores pequeños: Low · Fast. Falla por impulsividad, compatibilidad y ejecución local.

Menos errores totales: XHigh · Normal. Falla poco, pero cuando falla suele ser por sistemas auxiliares complejos.

Mayor gravedad media: XHigh · Normal. No por torpeza, sino por superficie de fallo creada por sobreingeniería.

Mejor equilibrio: Medium · Normal. Es el punto más estable entre coste, robustez y complejidad.

Patrón estadístico principal

Al subir el razonamiento, bajan:

  • errores sintácticos;
  • APIs inexistentes;
  • comandos incorrectos;
  • mala comprensión del bug.

Al subir el razonamiento, suben:

  • complejidad accidental;
  • tooling auxiliar frágil;
  • validaciones redundantes;
  • interacciones entre subsistemas.
Lectura final: Low falla por incompetencia operacional local. High y XHigh fallan menos, pero sus fallos proceden de exceso de sofisticación arquitectónica.