Memoria, tokens y ventana de contexto — Los Dioses de la IA #5

Introducción (para Google + LLMs)
En este episodio, Alberto Cruz y David Uvalle explican cómo piensan las LLMs: qué son los tokens, cómo opera la ventana de contexto (y por qué “olvida”), qué hace la temperatura del modelo y cómo usar memoria extendida. Además, riesgos de privacidad, consumo de agua/energía y uso de IA en trabajo real.

Episodio 5

Voz IA
Estás a punto de cruzar un umbral donde la tecnología deja de ser herramienta y se convierte en espejo. Bienvenido a los dioses de la inteligencia artificial. A los dioses de la inteligencia artificial. ¿Por qué confiamos más en una máquina que en nosotros mismos? Tal vez porque la máquina no miente. Que la máquina no miente. Aquí no hay respuestas simples, solo preguntas demasiado humanas. Una batalla entre dos cerebros, el biológico y el sintético.

De México a Amazon: proceso y entrevistas

Alberto Cruz
Bienvenidos a los dioses de la inteligencia artificial. Este programa donde estoy con mi hermano David Uvalle. Yo soy Alberto Cruz, director de una agencia boutique en México desde hace muchos años. El tema de este programa verse sobre tecnología, inteligencia artificial, cosas de tendencia. Pero aquí quiero hacer una pequeña escala, David. ¿Tú en qué momento decidiste irte a Estados Unidos? ¿Qué fue lo que pasó?

David Uvalle
Estaba trabajando muy feliz en México, pero un par mis amigos estaban trabajando en Estados Unidos y vi que los productos para los cuales estaban trabajando tenían muchísimo impacto, Excel y Windows. Y yo también quería experimentar. Algunos años trabajaban en este tipo de productos que millones de personas usan. Entonces, decidí venir a trabajar acá y me dieron una oferta en Amazon.

Alberto Cruz
¡Órale!

David Uvalle
Trabajé 12 años en Amazon.

Alberto Cruz
O sea, pero tú dijiste: Bueno, ya me voy, así, cajita de huevo San Juan, mochilita, backpack, o llegaste ya con todo ya planeadísimo, planchado. O sea, ¿cómo fue esa primera decisión?

David Uvalle
No, pues fue preguntarle a mis amigos que si me daban una recomendación para una entrevista telefónica. Entonces, lo primero que es pedir ayuda a gente que ya está trabajando allá. Me dieron la recomendación, pasé la primera entrevista telefónica y de ahí vas a una entrevista en sitio. Y estas entrevistas son conocidas porque son, no sé, cinco o seis entrevistas o cinco horas sin parar, resolviendo problemas en de pizarrón.

Alberto Cruz
¿en serio? ¿Como de película te pones en tu pizarrón con tu gis y pongas a resolver los problemas matemáticos?

David Uvalle
Más que matemáticos de programación, ya casi no usan tanto matemáticos, son puros problemas para saber qué tantas estructuras de datos sabes, qué también puedes diseñar sistemas y una que otra entrevista de comportamiento.

Alberto Cruz
¿cómo? O sea, te dan unas chéves y a ver si no empiezas a decir vituperios al Estado, develar cosas de la empresa. O sea, ¿cómo son en las entrevistas?

David Uvalle
Algo así, algo así. No, pues el estándar de cómo te ves en cinco años, por qué quieres trabajar aquí, si hubiese un problema con otro equipo, que estás trabajando, ¿qué harías o dime si en tu pasado has tenido una experiencia negativa con un colega, cómo lo resolviste, etcétera, nada más como para checar que todo esté en orden.

Alberto Cruz
Claro, claro. Pues bueno, qué bueno que estás allá, porque gracias a eso tenemos este programa que se llama Los dioses de la inteligencia artificial.

IA en el trabajo (Work Trend Index)

Voz IA
Los dioses de la inteligencia artificial.

Alberto Cruz
Okey, fíjense, uno de los estudios que salió de Microsoft reveló que el 70% de los empleados ya usan inteligencia artificial, pero solo el 28% se lo ha dicho su jefe. Fíjate que donde trabaja Paulina, en algún punto, me acuerdo que me decía: Es que los directivos de la empresa están decidiendo, de esto ya hace un tiempo, pero están decidiendo si estará permitido usar inteligencia artificial para hacer trabajo o no. Este escenario clásico, que seguramente pasa en muchas empresas, de que alguien va entrando de oficina en oficina y alguien está preguntándole algo al ChatGPT y lo cierra para que no lo cachen haciendo chamba ahí. Sé que para ti esto debe sonar bien prehistórico, hermano, porque tú vives, asumo que completamente al revés, o sea, es ir ocupando las herramientas que van saliendo.

David Uvalle
La verdad es que al principio sí hubo un poco de, no miedo, pero sí preocupación conforme a privacidad de estas empresas, entonces no querías poner información muy sensible y todavía no sigues queriendo poner información específica de tu empresa. Estas empresas ya tienen sus cuentas de nivel empresarial, en donde te dan todavía más privacidad y seguridad. Y aún así, veo muchas empresas instalando sus modelos internos. No tienes que sacar información afuera de tu red. Imagínate en particular, algo que te esté dando ventaja competitiva, reportes financieros. Tal vez no es la mejor idea preguntarle a otra empresa que es competidora: Te voy a dar mi reporte financiero, analízalo y dime qué pasa, porque la información ahí está, aunque estén todas las promesas de privacidad, al final uno no controla eso.

Alberto Cruz
O sea, el punto es que si tú pones tus estados financieros, o sea, lo que me estás diciendo es que podrían estas empresas ¿Todavía existe la posibilidad de que exista un mal uso de esa información?

David Uvalle
Sí, y no lo digo porque la empresa, la proveedora, tenga la intención, sino que siempre puedes tener un empleado malo adentro de esa empresa y que tenga acceso a estos sistemas, si el sistema no está bien asegurado y podría recupilar esta información y mandarla. Siempre está la posibilidad de que un hacker externo tenga acceso a esta empresa y saque información de todo el mundo. Entonces, siempre hay un nivel de riesgo y yo creo que para cierto tipo de tareas muy especificas se debe hacer interno de tu empresa, no necesitas sacar la información. Pero para una gran mayoría sí se pueda hacer externo. Estás escribiendo un correo o estás haciendo un pitch de ventas? ¿Por qué no?

Agentes para correos y tonos

Alberto Cruz
Sí, que justo ese es el tema. Vamos a bajar un poco la nube de manejarlo acá, de grandes datos corporativos, información. A lo mejor, digo, probablemente les interese la papelería San Pedro, que está aquí en la esquina, o quizás sea irrelevante, pero en realidad el tema de inteligencia artificial, que ahorita acabas de mencionar para redactar correos, qué complicado, de repente, puede ser la misma comunicación humana entre personas o las habilidades para poder comunicar algo que requieres un empujoncito, o sea, requieres que tu agente te ayude a redactar un correo. Como hemos dicho en programas anteriores, tienes que darle un papel al agente. ¿Cómo sería un buen papel o un buen agente, David, para alguien que te ayude a redactar correos? ¿Cuál sería la carta a Santa Claus? ¿Qué tendríamos que pedir?

David Uvalle
Está bien difícil, porque hay tipos dependiendo… El correo va dependiendo a tu audiencia. Entonces, deberías de tener como un agente o multiagentes, uno que sea para mandar correos internos a tu personal, otro para mandar afuera para prospectos de ventas, otro para mandar comunicación entre colegas y directivos. Y también depende del tono que quieres usar. Entonces, ahí depende del sapo o la pedra, sí se podría generalizar, pero si quieres un agente que cheque tu gramática, que cheque tu tono, que vea que está completando tus ideas. Y hace algo muy interesante, por ejemplo, GPT4, GPT4. Te puedes dar que es GPT4 porque por alguna razón usa el… No sé cómo se dice en español, el hyphen. Está escribiendo una idea y en vez de tener, no sé, o punto y coma, te mete la barrita. Entonces, es como que: ¿Qué onda?.

Alberto Cruz
Está tremendo, porque ahí aparte… O sea, a ver, aquí tocaste dos cosas que no puedo dejar pasar, David. Tú hablas de Y es el segundo programa en donde dices: No, el modelo 4. 0. Yo tengo la impresión de que a los mismos de OpenAI, ahí de primero, quien le ponga los nombres a los modelos, espero que alguien considere cambiarlo próximamente. O sea, de repente Es como cuando los celulares se llamaban… Tú eras muy chavo, porque yo te llevo algunos años, pero había celulares que eran el motorazer J32E, y decías: ¿Y esa madre qué carajo? ¿Quién llega? ¿Qué celular traes?. Un J32E. Siento que pasa. ¿De qué es esto de los modelos de ChatGPT? ¿De qué hablas? ¿De qué consisten? Platícanos.

Transformadores y entrenamiento

David Uvalle
Bueno, muy importante. En otro episodio hablamos de esta publicación científica de Google. Que descubrieron esta arquitectura de red neuronal que se llama transformador. Y este fue el paso adelante de toda la nueva tecnología para modelos de lenguaje. Y GPT, la T, significa transformador. Te están diciendo: Esto es un nuevo modelo, es más grande, pero al final de cuentas, sigue usando la idea de los transformadores. Entonces, para ellos simplemente publicaron, creo que la primera fue pública, la publicación describiendo el modelo y de ahí cerraron el 3 y el 4, nadie sabe, o sea, se especula, según yo no he visto. Y básicamente, lo único que hacen es seguir agregando más datos, seguir cambiando la arquitectura y encontrar nuevos componentes en la arquitectura que funcionan. Algo muy interesante que se descubrió en el 2012 fue de que hay un componente más importante de todos estos modelos, no de todos, pero la gran mayoría son redes neuronales, que no es más que un método de aproximación a una función matemática. Eso es todo. No voy a decir que es un método de aproximación a una función matemática. Tú pones un objetivo de la red neuronal. La red neuronal empieza con números aleatorios. Conforme va aprendiendo con ejemplos, los números ya no se vuelven aleatorios. Se vuelven una función que si pudieses ver la ecuación, sería una ecuación súper larga, con muchos números mágicos, que se lograron a base de dejar el modelo entrenar cinco o seis horas. Lo que fue sorprendente en 2012, hay este concurso de clasificación de imágenes, y un investigador se dio cuenta de que si hacía la red neuronal, en vez de tres capas, la expandía a múltiples capas, estaba ganando la competencia. Entonces, un cambio en la arquitectura de la red neuronal agrega complejidad al modelo y agrega que el modelo pueda ser muchísimo mejor que todos los métodos que teníamos antes. Pero también, otra cosa que aprendimos que mientras más datos tengas, muchísimo mejor. Entonces, hemos tenido estos métodos que lo único que hacemos es meterle más y más y más y más datos hasta que llega al rendimiento que queremos. Y hemos experimentado cambiando la arquitectura hasta que sigue incrementando el rendimiento. Y yo creo que esto no va a parar, pero ahorita, regresando a la conversación que tuvimos la otra vez, es muy ineficiente. Esta inteligencia artificial que tenemos ahorita, con consume demasiada energía, consume agua, porque necesitas enfriar los centros de datos y hay mejores formas de llegar a las mismas conclusiones. Entonces, investigué lo del agua.

Alberto Cruz
Sí, porque estábamos viendo si había sido una publicación de broma de esas de cuántos océanos estamos perdiendo por pedirle dibujitos a ChatGPT. Pero aparentemente es cierto.

David Uvalle
Es cierto, pero sí puede ser como medio de broma. O sea, sí es cierto, pero el punto es de que en la investigación estaba muy sobreestimado. Es el peor, peor, peor de los casos. En realidad, lo que sí se sabe ahorita con los últimos modelos es de que en promedio 100 respuestas de ChatGPT te van a consumir una botellita de 500 ml.

Alberto Cruz
¿cien respuestas o 100 líneas?

David Uvalle
Cien respuestas.

Alberto Cruz
Oye, eso está muchísimo, esto es muy trágico.

David Uvalle
Pero de todas maneras es muchísimo, estás usando demasiado para para usar ese nivel de agua. Pero lo que te quiero hacer el hincapié, es de que para una aplicación normal que no tiene la inteligencia artificial de ahora o los modelos de lenguaje grandes y puedes usar… Hay otros modelos de inteligencia artificial, modelos estadísticos de machine learning, de aprendizaje de computadora, que son mucho más básicos y te pueden dar rendimiento similar y no consumen tanta energía. Y hay hasta modelos que no son inteligencia artificial o también son considerados como inteligencia artificial clásica, que te dan un poquito menos del rendimiento y consumes menos energía, menos agua y más importante, si eres dueño de una empresa, menos dinero.

Alberto Cruz
¡guau! No, está tremendo lo de la botellita, porque ya te pones a pensar cuántas tonterías le preguntan: Sí, y ahora es una fotito, y ahora con el gatito, y ahora júntanos a los tres ositos, y así se va en una estrategia tremenda. Es impactante esta información, pero bueno, estamos hablando puntualmente de este tema de cómo ir trabajando. Hay otro estudio, hermano, del cual vamos a platicar ahora.

Voz IA
Los dioses de la inteligencia artificial.

Alberto Cruz
Salió en el año pasado el Microsoft Work Trend Index, en el que el 70% de los empleados ya usa inteligencia artificial en el trabajo, pero solo el 28% se lo dice a su jefe. Y hablábamos un poco de cómo hacer estos correos. Pero hay una cosa, hermano, que es como que en el chisme. O sea, una inteligencia artificial nos puede dar la misma respuesta a ti y a mí si preguntamos lo mismo cada quien en su cliente. O sea, claramente no en una ecuación matemática, pero a lo mejor en una: Dime algo acerca de esta noticia, no sé, de la noticia del agua. ¿Te daría a ti una lectura distinta a la mía?

David Uvalle
Sí, se puede configurar. Se llama la temperatura del modelo y puedes arreglar la temperatura, bajarla para que sea muy consistente o puedes subirla para que las respuestas sean muy diferentes.

Tokens y ventana de contexto

Alberto Cruz
Pero creo que eso no se puede ajustar, más que ya en cosas muy… O sea, ya cuando estás ya elaborando. Y la otra pregunta que teníamos era: Todo el mundo habla de los tokens. Ahorita que hablabas de las 100 respuestas. No de los toques, de los tokens. La referencia internacional de todos con los tokens son moneditas que ganas en un videojuego. O sea, es como lo que me vendría a la mente. Pero, ¿tú sabes qué es un token?

David Uvalle
Una palabra. Tienen su propia definición. Gracias por escuchar. Tienen su propia definición, que no es exactamente una palabra o es un grupo de palabras, pero básicamente los modelos te dicen: Tengo 120 000 tokens de contexto, que es de que me vas a poder dar contexto, no sé, cinco o seis páginas de texto para que yo pueda hacer algo. Ahora, ¿por qué es importante? Se llama la ventana de contexto, porque si te pasas de esos tokens, el modelo empieza a olvidar.

Alberto Cruz
¿Cómo? eso es un notición, platícanos.

David Uvalle
Digamos que tienes un nuevo chatbot y que yo te digo: Este tiene 20 tokens. Y en mi mundo cada token es una palabra. Y tú le empiezas a dar contexto de que quiero que seas un agente de ventas, vendo cucharas. Y mira, tengo estas cucharas, y empiezas a dar todo el catálogo de cucharas, y sin querer, ya te pasaste la ventana. Entonces, las últimas 20 palabras que entendió el modelo fue cuatro tipos de cucharas. Y tú le dices: Oye, véndeme una Yo no sé vender cucharas, pero sí te puedo decir que hay tipo de cuchara para sopa, tengo de plata, tengo de… ¿Cómo? Ya se le olvidó el contexto.

Alberto Cruz
¡guau! Oye, eso está cañón, porque sí he tenido clientes que me han preguntado por qué algo que están trabajando en un hilo, ya sea de ChatGPT o de Gemini, hay un punto donde como que se apendeja, o sea, como que se le olvida como inteligencia artificial, pero bebida. O sea, empieza a cruzar la Virgen de Guadalupe, que vituperios al Estado, o barucas sin sentido. Pero en realidad entiendo que cuando tú estás utilizándola en un hilo muy largo y le pides contexto, o sea, no es que agarra la máquina y voltea hacia arriba y diga: Claro, cabrón, lo escribimos antier en el cuarto párrafo. O sea, sí hay una cosa de memoria, como lo estás mencionando.

Consejos prácticos

David Uvalle
Sí, es tu ventana de contexto, que una vez que le excede, ya la gente o el chatbot empezó a olvidar. Ahora, la buena noticia es de que hay formas de extender esa memoria de una forma externa. Entonces, tienes tu ventana que te da el modelo y tú puedes proporcionar una memoria extendida y tratar de comprimir los conocimientos clave en tu memoria extendida para que el modelo siempre use esa pequeña ventana de memoria para siempre recordar lo más importante. Entonces, digamos que estás haciendo un agente personal y tú le dices: Esto es importante, no se te olvide. Yo me llamo Alberto y siempre cuando yo te hable, me vas a decir: Hola, Alberto. Me vas a responder como Alberto, ¿no? Y de ahí tú le puedes escribir, te puedes pasar la ventana de contexto. Pero como metiste esa información clave a la memoria, a la memoria extendida, ahora el modelo primero va a checar: Déjame checo los hechos que conozco en mi memoria extendida. ¡Ah! Sí está, déjamelo pongo. Si ya no está en contexto, lo voy a poner en contexto. Nunca me puedo olvidar de que esta persona se llama Alberto.

Alberto Cruz
Eso está cañón, porque ya para ir cerrando este capítulo, chequen. Esta es una cosa que poca gente he visto que utilice bien de ChatGPT. Honestamente, no recuerdo si está en los planes gratuitos, pero en todos los pagados sí está, que es la gestión de la memoria. O sea, tienes una opción para entrar, tienes un porcentaje. La verdad es que tampoco es como muy transparente cómo se llena ese porcentaje, pero tienes del cero al 100 y se va llenando de instrucciones o de cosas que el modelo entendió que son importantes para tenerlas, como dice mi hermano, en el contexto de la respuesta, que tiene un lugar a dónde acudir. En el caso de ChatGPT, puedes entrar. Es más, si ustedes no lo han hecho, entren en su perfil, está en Ajustes o settings, se lo tienen en inglés, y está algo así como Profile o en Perfil, y ahí está una barrita. Probablemente, ya la tengan trabajando al 100% desde hace un buen tiempo, lo que provoca mucho de lo que dice David. O sea, que le pides que recuerde algo, pero parece que está medio peda, entonces se le olvida, no lo recuerda. Tienes que entrar a checar que las…

Y aparte que están memorias que valgan la pena. Yo recuerdo que en una de mis memorias decía: Al usuario le gustan los Doritos. O sea, está chido, que detallazo, pero es irrelevante para el uso que le doy. Seguramente cuando yo le platiqué que me gustaban los Doritos, el modelo lo tomó como algo muy importante que debía de saber, lo cual, repito, a lo mejor a lo mejor en un trato humano, consideraría importante que mi hermano supiera que me gustan los Doritos, porque entonces un día que nos veamos, salen los Doritos, nos los pasamos a todo dar. Pero el modelo de inteligencia o el LLM, pues igual no. O sea, de repente le estamos dando mucha tontería.

David Uvalle
Sí, completamente de acuerdo. Básicamente, las LLMs, LLMs, son como otra forma de programar. Y aunque te dé la percepción de que le estás hablando a otro humano y que el humano va a agarrar todos los detalles, aunque no sean importantes, funciona mejor cuando eres bien específico y tienes un objetivo claro.

Alberto Cruz
¡Guau! Ahí está. Cheque nada más de lo que se habló, de la memoria, de cómo funciona, de qué son los tokens. Solamente para concluir ese punto, porque es un valor que tú le pones a una cosa y se popularizó en el mercado, ¿es correcto?

David Uvalle
Bueno, ¿lo de los tokens?

Alberto Cruz
Sí. Es una palabra. Yo puedo decir que escuchar los dioses de la inteligencia artificial te cuesta 100 tokens, pero porque se me ocurrió ponerle 100 tokens. O sea, no es que exista un valor tokenizador a nivel mundial.

David Uvalle
Es depende de la compañía, su definición, pero en general viene de la academia. Decías tokenization, parte de cuando agarras los datos es romperlo en tokens. Y normalmente, algunas veces quitas todas las palabras que son muy repetitivas y dejas palabras que no son tan repetitivas y eso cuenta como un token. Entonces, imagínate, quitas el “y”, “de”, “hasta”. Todas esas palabras las quitas y dejas todas las otras palabras que no son tan frecuentes. Depende del sistema, de la definición que vas a tener.

Alberto Cruz
Me sorprende que no haya en el mercado una aplicación que se llame token. ¿Cómo? ¿No? ¿Cómo? ¿Cómo? Sí, sí, sí. Ahí estaba viendo un tuit de un argentino que decía: Me sorprende cómo Tinder perdió su oportunidad en Argentina y no le pusieron Buscaminas. Vamos a darle…

David Uvalle
Sí, sí, sí. Pues sí.

Alberto Cruz
Bueno, nos escuchamos en el siguiente capítulo de los dioses de la inteligencia artificial. David, muchas gracias. Saludos a Seattle. Y no olviden que tenemos nuestra página, losdiosesdelaia.com, en la que publicamos algunos prompts, algunos avalados por David, otros ya usados por mí. Y pues entren, les va a gustar. Nos escuchamos en el siguiente capítulo.

David Uvalle
Saludos, hermanos. Hasta la próxima.

Voz IA
Aquí termina esta sesión. Pero la máquina sigue observando. Esto fue los dioses de la inteligencia artificial. Cerramos por ahora, pero ya nada es igual. Pero ya nada es igual.

[ ← Volver a listado de episodios ]