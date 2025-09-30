Los resultados preliminares muestran que algunos modelos “se acercan a la calidad del trabajo producido por expertos de la industria”.

OpenAI presentó GDPval, un sistema diseñado para evaluar la capacidad de sus modelos de IA en “tareas económicamente valiosas” en 44 ocupaciones distintas.

Según la empresa, el objetivo es entregar evidencia concreta sobre lo que estas tecnologías ya son capaces de hacer, más allá de la especulación sobre su impacto futuro en el trabajo humano.

“Las evaluaciones como GDPval ayudan a fundamentar las conversaciones sobre mejoras de la IA en evidencias en lugar de conjeturas”.

La compañía tecnológica lanzó una nueva evaluación que mide el desempeño de sus modelos de inteligencia artificial en ocupaciones del mundo real.

Entre las tareas evaluadas aparecen labores de agentes inmobiliarios, ingenieros industriales, abogados, enfermeras, representantes de servicio al cliente, desarrolladores de software y asesores financieros.

De acuerdo con el estudio, el modelo con mejor desempeño fue Claude Opus 4.1 de Anthropic, seguido por GPT-5 de OpenAI, que destacó en precisión. En tanto, una versión más avanzada, GPT-5-high, alcanzó resultados comparables o superiores a los de expertos humanos en más del 40% de los casos.

Pese a los avances, la compañía subrayó que su visión no apunta a reemplazar empleos de forma inmediata, sino a “apoyar a las personas en su trabajo diario”. Sin embargo, persisten dudas entre especialistas respecto de los riesgos de error, las “alucinaciones” de los modelos y el impacto real en la reducción de mano de obra.