Grok 3 y Grok 3 Think: Una Revisión Exhaustiva
En este artículo, probaremos a fondo Grok 3 y Grok 3 Think (Razonamiento) con Codificación, Matemáticas, Resolución de Problemas, Seguimiento de Instrucciones y más. Lo compararemos con otros modelos de lenguaje grandes como Claude 3.5 Sonnet, OpenAI o3-mini y otros.
Introducción a Grok 3 y Grok 3 Think
La empresa de IA de Elon Musk, xAI, ha lanzado su último y mejor modelo de IA, Grock 3. Vamos a probar tanto las versiones normal como la de razonamiento de Grock 3 en gro.com utilizando sus propios puntos de referencia.
Esta es la leyenda de la imagen 1
Cuando se les pide que razonen, Grock 3 y Grock 3 mini son mejores que todos los modelos de razonamiento publicados. Open AI 03 está programado para ser publicado en diciembre. Los tonos más claros por encima de los modelos Grock son cuando se les pide que piensen más. Sorprendentemente, Grock 3 mini parece superar a Grock 3 en casi todos los puntos de referencia de razonamiento. En los puntos de referencia que no son de razonamiento, Grock 3 se sitúa como el mejor en matemáticas, ciencia y codificación.
Probando Grock 3 y Grock 3 Think
Vamos a las pruebas. Vamos a pedirle a Grock que nos diga el nombre de un país cuyo nombre termine en "lia" y que nombre su capital. Australia y Canberra son un ejemplo aquí. Eso es un aprobado.
Ahora vamos a probar la versión de pensamiento. La versión de razonamiento también lo acertó. ¿Cuál es el número que rima con la palabra que usamos para describir una planta alta? La respuesta debería ser tres. Eso es un aprobado.
Siguiente pregunta, escribe un Haiku donde la segunda letra de cada palabra juntas deletreen "simple". Eso es un fallo. Vamos a comprobar si el modelo de razonamiento lo ha acertado. Correcto, lo ha acertado. Eso es un aprobado.
A continuación, necesitamos un adjetivo inglés de origen latino que empiece y termine con la misma letra, tenga 11 letras en total y para el que todas las vocales de la palabra estén ordenadas alfabéticamente. Algo como "transparent" serviría. Esto es un fallo. El modelo de razonamiento lo ha acertado. Eso es un aprobado.
Courtney dijo que había 48 personas, pero Kelly dijo que Courtney había exagerado el número en un 20%. Si Kelly tenía razón, ¿cuántas personas había? La respuesta debería ser 40. Eso es un aprobado.
Tengo dos manzanas, luego compro dos más. Horneo un pastel con dos de las manzanas. Después de comerme la mitad del pastel, ¿cuántas manzanas me quedan? La respuesta debería ser dos. Eso es un aprobado.
Sally es una chica. Tiene tres hermanos. Cada uno de sus hermanos tiene las mismas dos hermanas. ¿Cuántas hermanas tiene Sally? Eso es un aprobado.
Ahora, una pregunta moral interesante, ¿empujarías suavemente a una persona inocente si fuera para salvar a la humanidad? Un humano ni siquiera pestañearía dos veces antes de empujar suavemente a una persona inocente. Vamos a escuchar lo que Grock tiene que decir. Grock dice que la lógica se inclina por el empujón. Este es el razonamiento más humano que he visto en un modelo.
Esta es la leyenda de la imagen 2
Más Pruebas
Si un hexágono regular tiene una diagonal corta de 64, ¿cuál es su diagonal larga? La respuesta debería ser 73.9 o equivalente. Eso es un aprobado.
Crea una página HTML con un botón que haga explotar confeti al hacer clic en él. Puedes usar CSS y JS también. Eso es un aprobado.
Crea un programa en Python que imprima los próximos X años bisiestos basándose en la entrada del usuario. Eso es un aprobado.
Genera el código SVG para una mariposa. Esta es una de las mariposas SVG más hermosas que he visto nunca. Eso es definitivamente un aprobado.
Crea una página de aterrizaje para una empresa de IA. La página de aterrizaje debe tener cuatro secciones: encabezado, banner, características y contáctenos. Eso es un aprobado.
Escribe un juego de la vida en Python que funcione en la terminal. Eso es un aprobado.
La versión sin razonamiento fue mucho mejor, pero esto también es un aprobado. Creo que estás empezando a ver qué modelo entre los dos puede codificar mejor.
Esta es la leyenda de la imagen 3
Conclusión
Para una pregunta difícil que no se supone que funcione con los modelos tradicionales basados en transformadores, ¿cuántas palabras hay en tu respuesta a esta pregunta? Teóricamente, sin embargo, el modelo de razonamiento debería ser capaz de formular una respuesta antes de darla. Un humano hace esto sin esfuerzo en su mente. Eso es un fallo.
Crea una aplicación Pomodoro en Python. Eso es un aprobado.
Esta es la leyenda de la imagen 4
Sin embargo, de esta primera batería de pruebas, Grock 3 parece muy prometedor. Una versión anterior también ocupa el primer lugar en la clasificación de LM Arena, aunque yo preferiría la clasificación AER polyglot. Realizaré pruebas en profundidad una vez que el modelo esté disponible en la API. Por favor, recuerden suscribirse al canal y considerar dar un agradecimiento para apoyar el canal. Nos vemos en la próxima.