Benchmark GPT-5.5 · análisis cualitativo-cuantitativo

Mapa de fallos por velocidad y nivel de razonamiento

Comparativa visual de frecuencia, gravedad y naturaleza dominante de los fallos observados en cada perfil de ejecución.

Lectura comparativa

Conclusiones

Más errores pequeños: Low · Fast. Falla por impulsividad, compatibilidad y ejecución local.

Menos errores totales: XHigh · Normal. Falla poco, pero cuando falla suele ser por sistemas auxiliares complejos.

Mayor gravedad media: XHigh · Normal. No por torpeza, sino por superficie de fallo creada por sobreingeniería.

Mejor equilibrio: Medium · Normal. Es el punto más estable entre coste, robustez y complejidad.

Patrón estadístico principal

Al subir el razonamiento, bajan:

errores sintácticos;
APIs inexistentes;
comandos incorrectos;
mala comprensión del bug.

Al subir el razonamiento, suben:

complejidad accidental;
tooling auxiliar frágil;
validaciones redundantes;
interacciones entre subsistemas.

Lectura final: Low falla por incompetencia operacional local. High y XHigh fallan menos, pero sus fallos proceden de exceso de sofisticación arquitectónica.