En la actualidad, los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés), como ChatGPT y Claude, han pasado a formar parte de la vida cotidiana en todo el mundo. A pesar de la preocupación creciente de muchas personas sobre si la inteligencia artificial les quitará sus trabajos, resulta irónico observar que casi todos los sistemas basados en LLMs flaquean al enfrentarse a una tarea aparentemente sencilla: contar el número de «r»s en la palabra «strawberry». No se limitan únicamente a la letra «r»; otros ejemplos incluyen contar las «m»s en «mammal» y las «p»s en «hippopotamus». En este artículo, se explorarán las razones detrás de estos fallos y se proporcionará una solución simple.
Los LLMs son sistemas de inteligencia artificial potentes, entrenados con enormes cantidades de texto para comprender y generar un lenguaje similar al humano. Sobresalen en tareas como responder preguntas, traducir idiomas, resumir contenido e incluso producir escritura creativa prediciendo y construyendo respuestas coherentes basadas en la entrada que reciben. Están diseñados para reconocer patrones en el texto, lo que les permite abordar una amplia variedad de tareas relacionadas con el lenguaje con una precisión impresionante.
A pesar de su destreza, fracasar al contar el número de «r»s en la palabra «strawberry» es un recordatorio de que los LLMs no son capaces de «pensar» como los humanos. No procesan la información que les brindamos de la misma manera que lo haría un ser humano.
La mayoría de los LLMs de alto rendimiento actuales están construidos sobre transformadores. Esta arquitectura de aprendizaje profundo no ingiere texto directamente como entrada. Utiliza un proceso llamado tokenización, que transforma el texto en representaciones numéricas o tokens. Algunos tokens pueden ser palabras completas (como «monkey»), mientras que otros podrían ser partes de una palabra (como «mon» y «key»). Cada token es como un código que el modelo entiende. Al fragmentar todo en tokens, el modelo puede predecir mejor cuál será el siguiente token en una frase.
Los LLMs no memorizan palabras; intentan comprender cómo encajan estos tokens de diferentes maneras, lo que les hace buenos en adivinar lo que vendrá a continuación. En el caso de la palabra «hippopotamus», el modelo podría ver los tokens de las letras «hip», «pop», «o» y «tamus», y no saber que la palabra «hippopotamus» está compuesta por las letras «h», «i», «p», «p», «o», «p», «o», «t», «a», «m», «u», «s».
Una arquitectura de modelo que pueda examinar directamente letras individuales sin tokenizarlas podría potencialmente no tener este problema, pero para las arquitecturas de transformadores actuales, no es computacionalmente factible.
Además, al analizar cómo los LLMs generan texto de salida: predicen cuál será la siguiente palabra basándose en los tokens de entrada y salida anteriores. Si bien esto funciona para generar texto contextualmente consciente y similar al humano, no es adecuado para tareas simples como contar letras. Cuando se les pregunta el número de «r»s en la palabra «strawberry», los LLMs simplemente predicen la respuesta basándose en la estructura de la frase de entrada.
Aquí hay una solución
Si bien los LLMs pueden no ser capaces de «pensar» o razonar lógicamente, son expertos en comprender texto estructurado. Un excelente ejemplo de texto estructurado es el código informático de muchos lenguajes de programación. Si le pedimos a ChatGPT que use Python para contar el número de «r»s en «strawberry», es probable que obtenga la respuesta correcta. Cuando se necesita que los LLMs realicen tareas como contar o cualquier otra que pueda requerir razonamiento lógico o cálculos aritméticos, el software más amplio puede diseñarse de manera que las instrucciones incluyan pedir al LLM que utilice un lenguaje de programación para procesar la consulta de entrada.
Conclusión
Un experimento sencillo de conteo de letras expone una limitación fundamental de LLMs como ChatGPT y Claude. A pesar de sus impresionantes capacidades para generar texto similar al humano, escribir código y responder a cualquier pregunta que se les plantee, estos modelos de inteligencia artificial aún no pueden «pensar» como un humano. El experimento muestra los modelos tal como son, algoritmos predictivos que emparejan patrones y no «inteligencia» capaz de entender o razonar. Sin embargo, tener un conocimiento previo sobre qué tipo de instrucciones funcionan bien puede mitigar el problema en cierta medida. A medida que aumenta la integración de la inteligencia artificial en nuestras vidas, reconocer sus limitaciones es crucial para un uso responsable y unas expectativas realistas de estos modelos.
GIPHY App Key not set. Please check settings