Benchmark GPT-5.5 · análisis cualitativo-cuantitativo
Mapa de fallos por velocidad y nivel de razonamiento
Comparativa visual de frecuencia, gravedad y naturaleza dominante de los fallos observados en cada perfil de ejecución.
Lectura comparativa
Conclusiones
Más errores pequeños: Low · Fast. Falla por impulsividad, compatibilidad y ejecución local.
Menos errores totales: XHigh · Normal. Falla poco, pero cuando falla suele ser por sistemas auxiliares complejos.
Mayor gravedad media: XHigh · Normal. No por torpeza, sino por superficie de fallo creada por sobreingeniería.
Mejor equilibrio: Medium · Normal. Es el punto más estable entre coste, robustez y complejidad.
Patrón estadístico principal
Al subir el razonamiento, bajan:
- errores sintácticos;
- APIs inexistentes;
- comandos incorrectos;
- mala comprensión del bug.
Al subir el razonamiento, suben:
- complejidad accidental;
- tooling auxiliar frágil;
- validaciones redundantes;
- interacciones entre subsistemas.
Lectura final: Low falla por incompetencia operacional local. High y XHigh fallan menos, pero sus fallos proceden de exceso de sofisticación arquitectónica.