En abril de 2026, un equipo de investigadores de la Vrije Universiteit Brussel (VUB), en Bélgica, publicó un estudio que sacudió simultáneamente los mundos de la inteligencia artificial y las matemáticas puras: ChatGPT-5.2, el modelo de lenguaje de OpenAI, generó una prueba matemática original para una conjetura de geometría formulada en 2024 — un problema que ningún matemático humano había logrado resolver formalmente hasta entonces.
La noticia no se trata simplemente de una máquina "acertando un cálculo". Se trata de un sistema de IA produciendo razonamiento matemático genuino, construyendo argumentos lógicos encadenados a lo largo de múltiples sesiones de conversación, y llegando a una conclusión que fue posteriormente verificada y validada por matemáticos humanos. El método utilizado fue bautizado como "vibe-proving" — un término que captura la naturaleza colaborativa e iterativa del proceso entre humano y máquina.
Este descubrimiento plantea cuestiones profundas sobre el papel de la inteligencia artificial en la investigación científica, los límites del razonamiento computacional y el futuro de las matemáticas como disciplina humana.
Qué Ocurrió
El proceso que condujo a la prueba no fue instantáneo ni automático. Según el estudio publicado por el equipo de la VUB, la prueba emergió a lo largo de 7 sesiones de chat y 4 borradores de argumentos en evolución. Los investigadores no simplemente pidieron a ChatGPT "resuelve este problema" y recibieron una respuesta lista. El trabajo fue iterativo, colaborativo y profundamente dependiente de la interacción humana.
En la primera sesión, los investigadores presentaron la conjetura de geometría al modelo, proporcionando el contexto matemático necesario — definiciones, teoremas relacionados e intentos previos de prueba que habían fallado. ChatGPT-5.2 respondió con un enfoque inicial que, aunque incompleto, contenía perspectivas prometedoras sobre la estructura del problema.
En las sesiones siguientes, los matemáticos refinaron sus preguntas, señalaron fallos en los argumentos del modelo, sugirieron direcciones alternativas y pidieron a ChatGPT que explorara líneas específicas de razonamiento. Con cada iteración, el modelo producía versiones más sofisticadas del argumento, incorporando las correcciones y sugerencias de los investigadores.
El cuarto borrador contenía la estructura esencial de la prueba. Los investigadores entonces verificaron manualmente cada paso lógico, confirmaron la validez de los argumentos y completaron lagunas menores que el modelo había dejado. El resultado final fue una prueba completa y rigurosa que resistió el escrutinio de la comunidad matemática.
El aspecto más notable del proceso fue la división del trabajo: ChatGPT demostró ser extraordinariamente útil para la búsqueda y exploración de caminos de prueba — probando enfoques, combinando técnicas de diferentes áreas de las matemáticas y generando candidatos a argumentos a una velocidad imposible para un humano. Los investigadores humanos, por su parte, fueron esenciales para la verificación de corrección — asegurando que cada paso lógico fuera válido, que no hubiera saltos injustificados y que la prueba en su conjunto fuera matemáticamente sólida.
Como resumió uno de los autores del estudio: "La IA fue brillante para buscar; los humanos fueron indispensables para verificar."
Contexto e Histórico
El término "vibe-proving" fue acuñado por los investigadores de la VUB para describir este nuevo método de razonamiento matemático asistido por IA. El nombre hace referencia al concepto de "vibe coding" — la práctica de programar de forma intuitiva con asistencia de IA, sin necesariamente entender cada línea de código generado — pero aplicado al dominio mucho más riguroso de la prueba matemática.
En el vibe-proving, el matemático humano actúa como un director de investigación: define el problema, evalúa la calidad de los argumentos generados por la IA, redirige el razonamiento cuando es necesario y valida el resultado final. La IA, a su vez, funciona como un asistente de investigación incansable: explora decenas de enfoques posibles, combina técnicas de diferentes campos, genera candidatos a pruebas y refina sus argumentos basándose en la retroalimentación humana.
La importancia del vibe-proving va más allá de un único problema resuelto. El método sugiere un nuevo paradigma para la investigación matemática, donde la IA no sustituye al matemático sino que amplifica dramáticamente su capacidad de exploración. Problemas que llevarían meses o años de prueba y error para un investigador humano pueden tener su espacio de soluciones explorado en horas o días con asistencia de IA.
Sin embargo, los propios autores del estudio se encargan de enfatizar las limitaciones: ChatGPT no "entiende" matemáticas en el sentido humano. Carece de intuición geométrica, no visualiza figuras y no siente la elegancia de un argumento. Lo que hace es manipular patrones lingüísticos y lógicos con una eficiencia sobrehumana, generando candidatos a argumentos que pueden o no ser correctos. La verificación humana sigue siendo absolutamente esencial.
La hazaña de la prueba de geometría no fue un caso aislado. En 2025, ChatGPT fue probado con los problemas de la Olimpiada Internacional de Matemáticas (IMO), una de las competiciones más prestigiosas y difíciles del mundo, que reúne a los mejores estudiantes de matemáticas de decenas de países.
El resultado fue impresionante: ChatGPT resolvió correctamente 5 de los 6 problemas de la competición. Para contextualizar, la IMO presenta problemas que desafían incluso a los jóvenes matemáticos más talentosos del planeta. Muchos competidores con años de entrenamiento intensivo no logran resolver los seis problemas en el tiempo disponible.
El único problema que ChatGPT no logró resolver involucraba una construcción geométrica particularmente creativa que requería un tipo de perspicacia visual que los modelos de lenguaje aún no dominan. Este resultado ilustra tanto el poder como las limitaciones actuales de la IA en matemáticas: es extraordinariamente competente en problemas que pueden abordarse mediante manipulación simbólica y lógica formal, pero aún tropieza con problemas que exigen creatividad visual o intuición espacial.
El rendimiento en la IMO también generó debates sobre el futuro de las competiciones matemáticas. Si una IA puede resolver la mayoría de los problemas, ¿cuál es el valor de entrenar humanos para hacer lo mismo? La respuesta de la comunidad matemática ha sido sorprendentemente pragmática: las competiciones evalúan habilidades humanas específicas — creatividad, elegancia, velocidad bajo presión — que siguen siendo valiosas independientemente de lo que las máquinas puedan lograr.
La conjetura específica que ChatGPT ayudó a demostrar fue formulada en 2024 por un grupo de matemáticos europeos e involucraba propiedades de ciertas configuraciones de puntos y rectas en geometría proyectiva. Sin entrar en detalles técnicos excesivos, el problema preguntaba si una determinada relación entre ángulos y distancias en una familia de figuras geométricas era siempre verdadera, o si existían contraejemplos.
Varios intentos de prueba habían sido publicados entre 2024 y 2025, pero todos contenían lagunas o errores identificados por revisores. El problema era considerado "probablemente verdadero" por la comunidad — había fuerte evidencia computacional y muchos casos particulares verificados — pero nadie había logrado construir una prueba general rigurosa.
ChatGPT-5.2, en sus sesiones con los investigadores de la VUB, abordó el problema de una forma que ninguno de los matemáticos había intentado: combinó técnicas de geometría algebraica con métodos de teoría de números, creando un puente entre dos campos que raramente se conectan en este tipo de problema. Este enfoque interdisciplinario — que la IA generó por reconocimiento de patrones en su vasta base de entrenamiento — fue la clave para desbloquear la prueba.
Los investigadores reconocieron que probablemente no habrían llegado a este enfoque por sí solos, al menos no a corto plazo. La capacidad de la IA de "pensar fuera de la caja" — o, más precisamente, de no estar limitada por las mismas cajas mentales que los expertos humanos desarrollan a lo largo de sus carreras — fue el diferencial decisivo.
La hazaña de ChatGPT en matemáticas forma parte de una tendencia más amplia de la IA contribuyendo a descubrimientos científicos. AlphaFold, de Google DeepMind, revolucionó la biología al predecir estructuras de proteínas. GNoME descubrió millones de nuevos materiales cristalinos. Los modelos de IA están acelerando el descubrimiento de medicamentos, optimizando reacciones químicas e incluso prediciendo terremotos con mayor precisión.
Lo que hace especial el caso de las matemáticas es que las matemáticas son frecuentemente consideradas el dominio más "puro" del razonamiento humano — la disciplina donde la creatividad, la intuición y la lógica se encuentran en su forma más abstracta. Si la IA puede contribuir aquí, argumentan algunos, puede contribuir en cualquier lugar.
Otros son más cautelosos, recordando que las matemáticas también son el dominio donde la verificación es más rigurosa. Una prueba es correcta o no lo es — no hay espacio para "casi seguro" o "probablemente verdadero". Esta claridad binaria convierte a las matemáticas en un campo ideal para la colaboración humano-IA: la máquina genera candidatos, el humano verifica con certeza absoluta.
La expectativa es que, en los próximos años, veremos una explosión de resultados matemáticos producidos por colaboraciones humano-IA, con el vibe-proving convirtiéndose en una herramienta estándar en el arsenal de investigadores de todo el mundo.
Impacto Para la Población
| Aspecto | Situación Anterior | Situación Actual | Impacto |
|---|---|---|---|
| Escala | Limitada | Global | Alto |
| Duración | Corto plazo | Mediano/largo plazo | Significativo |
| Alcance | Regional | Internacional | Amplio |
Qué Dicen los Involucrados
La publicación del estudio de la VUB también reavivó debates sobre autoría, crédito y ética en la investigación asistida por IA. Si ChatGPT generó la estructura esencial de la prueba, ¿debería figurar como coautor del artículo? La comunidad académica está dividida.
Algunas revistas científicas ya prohíben listar modelos de IA como coautores, argumentando que la autoría implica responsabilidad — y una IA no puede ser responsabilizada por errores o fraudes. Otras adoptan una posición más flexible, exigiendo únicamente que el uso de IA se declare de forma transparente.
Los investigadores de la VUB optaron por un enfoque intermedio: no listaron a ChatGPT como coautor, pero dedicaron una sección entera del artículo a describir en detalle cómo se utilizó la IA, incluyendo transcripciones de las sesiones de chat. Esta transparencia fue elogiada por la comunidad como un modelo a seguir.
También existen preocupaciones sobre el impacto en la formación de nuevos matemáticos. Si los estudiantes pueden usar IA para resolver problemas difíciles, ¿cómo desarrollarán las habilidades de razonamiento profundo que son la esencia de la formación matemática? Universidades de todo el mundo están reformulando sus planes de estudio para incorporar el uso responsable de IA, tratándola como una herramienta a dominar, no como un atajo a explotar.
Próximos Pasos
El descubrimiento de la VUB tiene implicaciones profundas para el futuro de la investigación matemática y científica en general. Por primera vez, tenemos evidencia concreta de que los modelos de lenguaje pueden contribuir de forma sustantiva a la producción de conocimiento matemático nuevo — no simplemente verificando pruebas existentes o resolviendo ejercicios de libro de texto, sino generando argumentos originales que avanzan la frontera del conocimiento humano.
Esto no significa que los matemáticos estén a punto de ser reemplazados. Al contrario, el estudio de la VUB demuestra que la colaboración humano-IA es mucho más poderosa que cualquiera de los dos trabajando solo. ChatGPT sin orientación humana produce argumentos que frecuentemente contienen errores sutiles o saltos lógicos injustificados. Los matemáticos sin asistencia de IA están limitados por la velocidad del pensamiento humano y los sesgos de sus formaciones específicas.
Juntos, sin embargo, forman un equipo formidable: la IA explora el espacio de posibilidades con velocidad y amplitud sobrehumanas, mientras el matemático humano filtra, valida y dirige esa exploración con rigor e intuición que la máquina no posee.
Varios grupos de investigación alrededor del mundo ya están adoptando variaciones del método vibe-proving para atacar problemas abiertos en diferentes áreas de las matemáticas. Existe la expectativa de que, en los próximos años, veremos una aceleración significativa en la resolución de conjeturas que han permanecido abiertas durante décadas.
A pesar del entusiasmo, es fundamental mantener una perspectiva equilibrada sobre lo que la IA puede y no puede hacer en matemáticas. El estudio de la VUB es explícito sobre las limitaciones observadas durante el proceso.
Primero, ChatGPT frecuentemente producía argumentos que parecían correctos pero contenían errores sutiles. En varias de las 7 sesiones, los investigadores identificaron pasos lógicos inválidos que el modelo presentaba con total confianza. Sin la verificación humana, estos errores habrían pasado desapercibidos y la "prueba" habría sido inválida.
Segundo, el modelo demostró dificultad con problemas que requieren construcciones creativas — inventar nuevos objetos matemáticos, definir funciones auxiliares ingeniosas o encontrar contraejemplos inesperados. Su fortaleza reside en la combinación y aplicación de técnicas existentes, no en la invención de técnicas genuinamente nuevas.
Tercero, la calidad del resultado depende críticamente de la calidad de la interacción humana. Investigadores que sabían hacer las preguntas correctas, identificar los caminos prometedores y redirigir el modelo cuando era necesario obtuvieron resultados muy superiores a los de investigadores que simplemente pidieron a ChatGPT que "resolviera el problema".
Estos límites sugieren que la IA se entiende mejor como una herramienta de amplificación que como un sustituto del razonamiento matemático humano. Acelera el descubrimiento, pero no elimina la necesidad de experiencia, juicio y creatividad humanos.
Cierre
Estos límites sugieren que la IA se entiende mejor como una herramienta de amplificación que como un sustituto del razonamiento matemático humano. Acelera el descubrimiento, pero no elimina la necesidad de experiencia, juicio y creatividad humanos.





