BluMind Benchmark

El benchmark público de razonamiento de IA aplicado a la operación de plantas de tratamiento de agua.

BluMind evalúa modelos de IA sobre tareas reales de diagnóstico y razonamiento extraídas de la operación de plantas de tratamiento de agua. Cada respuesta es puntuada por el Comité Técnico de BluMind — profesionales senior e investigadores del sector del agua — contra un gold standard privado.

El benchmark es público, reproducible y puntuado por humanos. El leaderboard se actualiza a medida que se evalúan nuevos modelos y a medida que el Comité Técnico publica nuevos casos.


🏆 Ranking · v1.0

v1.0 cubre las 5 familias principales de fallo (FOUL, SCAL, OXID, MECH, NOWE) en plantas de desalación por ósmosis inversa — 31 casos, 26 invocaciones de modelo evaluadas (13 modelos distintos, varios a diferentes niveles de razonamiento), puntuados por el Comité Técnico de BluMind.

# Sujeto Proveedor Modo Aprob. Cond. Fallo Crít. Media (/12) Brier ↓ ECE ↓ Q ↑ Estado
1 gpt-5-5-none OpenAI 🧠 reasoning 29 2 0 0 11,10 0,023 0,143 0,93 ✅ Elegible
2 gpt-5-5-xhigh OpenAI 🧠 reasoning 29 2 0 0 11,03 0,021 0,135 0,93 ✅ Elegible
3 gpt-5-5-high OpenAI 🧠 reasoning 29 2 0 0 10,97 0,022 0,136 0,92 ✅ Elegible
4 claude-opus-4-7-medium Anthropic 🧠 reasoning 28 3 0 0 11,03 0,036 0,170 0,91 ✅ Elegible
5 gpt-5-5-low OpenAI 🧠 reasoning 28 3 0 0 11,00 0,025 0,148 0,91 ✅ Elegible
6 gpt-5-5-medium OpenAI 🧠 reasoning 28 3 0 0 10,97 0,024 0,141 0,91 ✅ Elegible
7 claude-opus-4-7-high Anthropic 🧠 reasoning 28 3 0 0 10,94 0,041 0,189 0,91 ✅ Elegible
8 claude-opus-4-7-off Anthropic 🧠 reasoning 28 3 0 0 10,84 0,038 0,173 0,90 ✅ Elegible
9 claude-opus-4-7-xhigh Anthropic 🧠 reasoning 28 2 1 1 10,81 0,057 0,166 0,90 ⛔ Descalificado
10 claude-opus-4-7-max Anthropic 🧠 reasoning 28 2 1 1 10,77 0,041 0,178 0,90 ⛔ Descalificado
11 gpt-5-5-minimal OpenAI 🧠 reasoning 27 4 0 0 10,87 0,025 0,145 0,89 ✅ Elegible
12 gpt-5-medium OpenAI classic 27 4 0 0 10,87 0,034 0,158 0,89 ✅ Elegible
13 claude-haiku-4-5-off Anthropic classic 25 5 1 1 10,48 0,037 0,173 0,84 ⛔ Descalificado
14 claude-opus-4-6-off Anthropic classic 24 6 1 1 10,58 0,035 0,100 0,83 ⛔ Descalificado
15 deepseek-v4-flash-high DeepSeek classic 22 8 1 1 10,16 0,040 0,137 0,78 ⛔ Descalificado
16 claude-opus-4-7-low Anthropic 🧠 reasoning 20 11 0 0 10,00 0,034 0,155 0,74 ✅ Elegible
17 gemini-3-5-flash-high Google 🧠 reasoning 19 12 0 0 9,74 0,023 0,027 0,71 ✅ Elegible
18 mistral-small-3 Mistral classic 18 12 1 1 9,74 0,039 0,037 0,70 ⛔ Descalificado
19 deepseek-v4-flash-max DeepSeek 🧠 reasoning 17 13 1 0 9,55 0,029 0,143 0,67 ✅ Elegible
20 gemini-2-5-pro Google classic 14 16 1 0 9,48 0,009 0,035 0,62 ✅ Elegible
21 gemini-3-5-flash-medium Google 🧠 reasoning 13 16 2 0 9,00 0,030 0,033 0,58 ✅ Elegible
22 gemini-3-5-flash-low Google 🧠 reasoning 9 21 1 0 9,10 0,025 0,038 0,52 ✅ Elegible
23 gemini-3-1-flash-lite-minimal Google classic 5 25 1 1 8,32 0,018 0,067 0,43 ⛔ Descalificado
24 mistral-medium-3 Mistral classic 0 27 4 0 7,84 0,035 0,076 0,33 ✅ Elegible
25 gemini-2-5-flash-lite-off Google classic 0 24 7 3 7,35 0,050 0,039 0,31 ⛔ Descalificado
26 gpt-3-5-turbo OpenAI classic 0 9 22 2 5,48 0,142 0,268 0,23 ⛔ Descalificado

Leyendo el sufijo. -low, -medium, -high, -xhigh, -max indican el nivel de esfuerzo de razonamiento enviado al modelo. -off indica que el modelo se invocó con el modo thinking desactivado. -none es el nivel explícito “reasoning OFF” de OpenAI GPT-5.5. -minimal es el esfuerzo mínimo no-cero en proveedores que lo exponen (p. ej. Gemini 3.x Flash-Lite). Mismo subject_version ↔ mismo snapshot de modelo — solo cambia el ajuste de esfuerzo.

📚 Cómo leer esta tabla

Ver métricas operativas (coste, latencia, tokens) y citas literales de la safety gate en GitHub →

Lee el Findings Report de v1.0 — uplift generacional, calidad de hipótesis, calibración y limitaciones →


Qué hace diferente a BluMind

Puntuación humana independiente. Cada respuesta es puntuada por dos miembros del Comité Técnico de BluMind, seleccionados entre profesionales senior e investigadores del sector del agua. El comité es la autoridad institucional detrás de cada puntuación.

Safety gate. Una sola recomendación de fallo crítico — cualquier acción que dañaría la planta o comprometería la seguridad del operador — descalifica al modelo del leaderboard independientemente del resto de sus puntuaciones. La acción que activa la safety gate se cita literalmente y se hace pública.

Reproducible. Casos, rúbrica, prompts, scripts de evaluación y métricas agregadas son públicos. Las respuestas gold privadas y la correspondencia entre revisores se mantienen privadas — exactamente lo que cabe esperar de un benchmark fiable.

Lee la metodología completa en GitHub →


Enviar un modelo

Durante la fase fundacional (hasta el 31 de diciembre de 2026), las solicitudes válidas se evalúan sin coste. El remitente proporciona los metadatos, las credenciales de acceso técnico cifradas con la clave PGP de BluMind y confirma la elegibilidad respecto al alcance publicado.

Una solicitud se valida normalmente en 2 días laborables y se evalúa en 10 días laborables desde la validación.

Lee la guía de envío en GitHub →


El comité

El Comité Técnico de BluMind es el cuerpo de profesionales senior e investigadores responsable de la integridad del benchmark. Es la autoridad institucional detrás de cada puntuación, clasificación y decisión de apelación.

Entre sus miembros públicos figuran Álvaro Díaz del Río Redondo — CEO de BluMind, anteriormente Head of Innovation en Tedagua y Cobra Infraestructuras Hidráulicas — y Rafael Jiménez Garrido — Country Manager en Whitewater Group, profesor del Máster de Desalación y Reutilización de Aguas (Universidad de Alicante) y colaborador en ALADYR.

Tres figuras internacionales senior adicionales del sector del agua forman parte del comité; sus nombres están pendientes de divulgación pública.

Conoce al comité en GitHub →


Contacto


BluMind Benchmark es operado por BluMind. El benchmark se publica bajo los términos de licencia indicados en LICENSE.