DeepSeek R1 vs OpenAI o1 y o3-mini Models: Una Comparación Exhaustiva
El panorama de la IA está evolucionando rápidamente, con nuevos modelos que surgen cada semana. En este artículo, compararemos el rendimiento de DeepSeek R1, OpenAI o1 y o3-mini models, así como el nuevo modelo Qwen 2.5 Max de Alibaba, en tres tareas: resolución de problemas, codificación y diseño web.
Introducción a los Models
DeepSeek R1 es actualmente el modelo número uno en la App Store, y lo compararemos con otros models populares, incluidos o3-mini, o1 y Quen 2.5 Max. También probaremos una versión alojada localmente de DeepSeek R1 con 14 mil millones de parámetros.
Introducción a DeepSeek R1 Model
Tarea de Resolución de Problemas
La primera tarea es un desafío de resolución de problemas, donde proporcionamos un fragmento de código con errores introducidos intencionalmente y pedimos a los models que identifiquen y corrijan los problemas. DeepSeek R1 tarda 21 segundos en responder e identifica dos problemas principales: un error ortográfico y un error de CSS. Quen 2.5 Max responde rápidamente, identificando no solo el error ortográfico y el error de CSS, sino también un problema de delegación de eventos. OpenAI o1 tarda 12 segundos en responder e identifica el error ortográfico y el error de CSS, pero no el problema de delegación de eventos.
Respuesta del Quen 2.5 Max Model
Tarea de Codificación
La segunda tarea es un desafío de codificación, donde pedimos a los models que generen código para crear un cursor de mouse personalizado al pasar el cursor sobre los enlaces. DeepSeek R1 tarda 58 segundos en responder y proporciona una solución que crea un círculo verde azulado, pero no reemplaza el cursor original. Quen 2.5 Max responde rápidamente y proporciona una solución que crea un cursor personalizado. OpenAI o1 tarda ¡38 segundos en responder y proporciona una solución que crea un cursor SVG personalizado.
Tarea de Diseño Web
La tercera tarea es un desafío de diseño web, donde proporcionamos un diseño con errores introducidos intencionalmente y pedimos a los models que identifiquen y recomienden correcciones. DeepSeek R1 identifica errores tipográficos, una jerarquía visual deficiente y un espaciado deficiente, pero no proporciona recomendaciones específicas. OpenAI o1 identifica problemas específicos, como que el título no funciona, que la información de contacto no está clara y que la jerarquía visual es incorrecta.
Respuesta del Diseño Web de DeepSeek R1
Conclusión
Basado en los resultados, OpenAI o1 se desempeña bien en todas las tareas, seguido de Quen 2.5 Max y DeepSeek R1. La versión alojada localmente de DeepSeek R1 con 14 mil millones de parámetros no funciona tan bien como se esperaba.
En general, si bien DeepSeek R1 es prometedor, su rendimiento no es tan impresionante como el bombo que lo rodea. Quen 2.5 Max se desempeña bien en las tareas de codificación, y OpenAI o1 proporciona constantemente respuestas inteligentes y relevantes en todas las tareas.