CAPTCHAs scraping y OCR: cómo rastrea la IA

Introducción
Alberto Cruz y David Uvalle explican por qué existen los CAPTCHAs, cómo los bots hacen scraping (y cuándo chocan con paywalls), qué papel juega Cloudflare y su propuesta de cobro a rastreadores, y cómo el OCR convirtió imágenes en texto rastreable. Además, revisan el reconocimiento de imágenes (CNNs), los smart glasses (Google/Meta/Apple) y el debate sobre la “inmortalidad” digital.

Episodio 7

Voz IA
Estás a punto de cruzar un umbral donde la tecnología deja de ser herramienta y se convierte en espejo. Bienvenido a los dioses de la inteligencia artificial. A los dioses de la inteligencia artificial. ¿Por qué confiamos más en una máquina que en nosotros mismos? Tal vez porque la máquina no miente. Porque la máquina no miente. Aquí no hay respuestas simples, solo preguntas demasiado humanas. Una batalla entre dos cerebros, el biológico y el sintético.

Alberto Cruz
Bienvenidos a los dioses de la inteligencia artificial. Mi nombre es Alberto Cruz, como siempre, acompañado por mi hermano David Uvalle en vivo desde Seattle. ¿Cómo es la vida en Seattle, David? ¿Es tranquila? ¿Es un lugar activo, es muy de oficinistas, muy de desarrollo? ¿Cómo es?

Seattle en modo boom & bust

David Uvalle
Primero que nada, un placer, como siempre, estar contigo, hermano. La vida en Seattle es muy de… Hay mucha gente técnica y también muchos artistas, podría decir. Entonces, le dicen la ciudad del Boom y del Bust, Boom Bust City, porque de repente viene una industria y hace boom la ciudad, se crean nuevos negocios, mucha gente viene y de repente esa industria se colapsa y todo el mundo se va. Entonces, por decir, en un tiempo fue la madera muy importante, vino mucha gente y la industria desapareció también. A otro tiempo fue la fiebre del oro.

Alberto Cruz
Sí.

De la madera y el oro a Boeing, Microsoft y Amazon

David Uvalle
Mucha gente aquí compraban sus herramientas antes de irse a Alaska, y también intentaban aquí minar y también desapareció. La más reciente fue con Boeing. Estaban haciendo muchos aviones para la Segunda Guerra Mundial y poco a poco fue bajando. Y así va la ciudad. Y como es, pues es bonita.

La ciudad construida sobre otra (underground)

Alberto Cruz
Ahora, estuvimos por allá y me tocó ir a unos museos donde explicaban que es una ciudad construida sobre otra ciudad.

David Uvalle
Sí, muy interesante. Hicieron un un primer nivel de ciudad. Hubo un gran incendio y en vez de reconstruir lo que se quemó ahí, construyeron arriba. Lo rellenaron una parte de la ciudad y ahí son dos ciudades. La nueva ciudad está arriba, abajo de la antigua.

Alberto Cruz
Eso está así… No sobre todo porque uno, Chilangolandia, le tiene miedo a los temblores, solamente piensas en ese temor, pero ver ciudades, edificios, edificios de estos modernos, grandes, construidos sobre los pilotes de madera de lo que fue en algún momento otra ciudad. Eso es tremendo. O sea, quizá el único lugar que me había… Voy a hacer Whitexican, pero quizá el último lugar que me había llamado mucho la atención respecto a esa infraestructura, pues fue en Ámsterdam, que igual, o sea, todo lo que levantaron para ir desviando los ríos y los canales y poder vivir ahí en en esta necedad humana de vivir, donde a veces el destino nos pone, pero no nos deja. Bueno, vamos a iniciar este capítulo en este momento.

Voz IA
Los dioses de la inteligencia artificial.

¿Por qué te piden un CAPTCHA?

Alberto Cruz
Hermano, todo el mundo habla de cómo se rastrea internet, ya hablamos de la información que se queda, pero hay una cosa que llama mucho la atención, que es… Muchas veces, cuando entras a una página, aparece un CAPcha o una pruebita. Tienes que escribir algunas letras, algunos números, en algunos casos, resolver un pequeño rompecabezas, en otros, como los de Google, equivocarte 80 veces dónde están las malditas bicicletas, pero todo está borroso, entonces no era bicicleta lo que marcaste. Y todo esto tiene una finalidad, que es comprobar que seas humano. Pero aquí lo importante y lo que incumbe este programa es, ¿por qué no serías un humano entrando a un sitio web, David?

David Uvalle
Sí, hay muchos casos de uso. Los más tradicionales es de que la gente escribía programas para automáticamente accesar a estas páginas y obtener el contenido. Normalmente, esto lo hacía Yahoo o Google para poder darte el buscador e indexar las páginas y que puedas buscar. Pero también, por ejemplo, los sitios de comercio electrónico lo usan para comparar precios, para pelear los precios. Si encuentran el mismo producto, no sé, está en 100 pesos en la competencia, pues yo me bajo en 99 para tratar de darte lo más barato. Entonces, sí hay muchos casos de uso, más reciente con los modelos de inteligencia artificial. Estos modelos requieren muchísimos datos. Les dicen data hungry o hambrientos de datos. Entonces, ese es otro caso de uso.

Alberto Cruz
Y entonces, entra la inteligencia artificial, se lleva estos datos. Vamos a suponer que aparte no necesariamente, digo, ahorita hablas de comercio electrónico. O sea, se puede llevar tu precio porque ya lo responde en la referencia. O sea, dice: El tenis cuesta 100 pesos en tal sitio de comercio electrónico, pero en realidad van por el resto, van de qué color es, qué dicen los usuarios, de qué colores existe, cuándo salió el modelo. O sea, realmente van por toda la información posible. Ahora, aquí es donde entraría en juego otra cosa. Yo, por ejemplo, he visto muchos sitios de pago, el periódico Reforma, el New York Times, Bloomberg, que tienen el famoso paywall, que aunque hay muchos plug-ins, que no vamos a decir cuáles son, pero existen, muchos plug-ins para poder saltarte el paywall y poder consumir el contenido sin pagar, se presume que es un límite para la araña de la inteligencia artificial, para la gran araña rastreadora.

Paywalls y el nuevo frente: bloquear bots de IA

David Uvalle
Pues sí, es un límite si la araña no paga por una cuenta. Pero imagínate que esta araña tiene su cuenta y pagó, entonces puede entrar y…

Alberto Cruz
Que una araña… Más bien, que el creador de la araña haya hecho que la araña llegue con su… “Sí tengo”, hace que pueda llevarse… Guau.

David Uvalle
Así es, sí.

Alberto Cruz
Pues eso sería un problemón, porque es como funcionan muchos de estos plug-ins que se brincan de ese paywall, que te dicen: Págame un peso y te dejo pasar a tantos sitios, porque lo que hicieron fue la vaquita de usuarios que les interesa eso. Aquí hay una noticia importante.

Voz IA
Estas son las noticias de la semana.

Cloudflare, bloqueo a rastreadores y modelo “paga por rastrear”

Alberto Cruz
Fíjate, Cloudflare, que entiendo que es un sistema antiataque, o sea, Cloudflare es como una cosa que se instala en el servidor. Ahora, seguramente entran a muchos sitios donde dice: Cloudflare está comprobando si eres un ser humano y se pone una ruedita circular. Bueno, pues ellos están instalados en el 20% de Internet y básicamente ya activaron un bloque automático para los bots de inteligencia artificial a todos sus clientes, exigiendo permiso explícito para modelos como GPT Bot o Cloud Bot, y además introdujeron un sistema llamado Paper Crawl, donde editores pueden cobrar por acceso a su contenido. Es decir, pues son los primeros pasitos para los que la internet gratuito se acabó para la inteligencia artificial, porque sin permiso o pago, los bots no pueden leer esos textos. Medium. ¿Tú conoces Medium, David? Sí. ¿Sí? ¿Es de suscripción ya, ¿no? O algunos…

David Uvalle
Algunos son de suscripción.

Alberto Cruz
Y ahí es como un blog. O sea, tú vas haciendo tu blog y tú decides si entras a un modelo de suscripción o no. Probablemente aquí no le estés minando el futuro financiero a una empresa, sino a una persona, pero esa persona considera que lo que escribe con la periuriedad que escribe, vale una lana. No, o sea, imagínate, el negocio de OnlyFans, me contó un amigo para una tarea. Que se pudiera ¿Y también escrapear o rastrear toda esta información? Es todo un rollo. Esta información, David, ¿qué es lo que va nutriendo en temas de inteligencia artificial? O sea, todo el contenido, lo que leemos los usuarios, ¿Por qué lo hacen? O sea, ¿para qué es? ¿Para que tenga conocimiento?

OCR: de PDF borroso a texto indexable

David Uvalle
Esa es muy buena pregunta. Sí, quieres tener la información disponible y un lugar donde la puedes encontrar es en internet. Pero ahorita ya están entrenando también modelos con material impreso. Todo el texto que pueda tener acceso, imágenes, fotos, video, ayudan a estos modelos a tener un mejor entendimiento del mundo. Entonces, es muy necesario para ellos estar consumiendo información y no solamente una vez, sino tener la información actualizada.

Qué hace el OCR y por qué fue clave para digitalizar hemerotecas

Alberto Cruz
Y esto es importante, te refieres a toda esa información que por n razón del destino nadie subió a Internet, o sea, que no eran libros digitalizados. Yo sé, ustedes, querida audiencia, son muy jóvenes, pero cuando yo era joven y todavía no estaba el triple doble u como está, que pudieran hacer escribir losdiosesdelaia. com, enter y entrar, era una serie de direcciones numéricas. O sea, era 112. 14. 99. 0, diagonal invertida, HDF 3412, y eso era una dirección, digamos, no estaba estéticamente puesta para que pusieran los dioses de la IA. com, enter. En esa época, fue cuando se empezó a buscar la forma de poder tener toda la información que existía antes en digital. A ti también te tocó ese cambio, ¿no, David? Cuando empezó la migración de información.

David Uvalle
Sí, interesante ver cómo los periódicos pasaron a ser digitales poco a poco.

Ver (y entender) imágenes con IA

Alberto Cruz
Sí, porque justamente el periódico, hagan de cuenta, ustedes entraban hoy al Universal, pues veían el de hoy. Pero en el archivo no podían ver el de 1956, porque no había estado digitalizado y aparte, en ese entonces, la forma en la que se digitalizaban las cosas era como el peor de los escáneres. O sea, literalmente se veía pixelado, gacho, quedaba como en un PDF borroso. Nada que ver con la tecnología ¿Cómo se llama? Ocr, ¿no? Ocr, sí. ¿Qué es lo que hace esa tecnología, David?

David Uvalle
Bueno, usa modelos de inteligencia artificial para poder leer las letras. Y ya una vez que se identifica la letra, se puede pasar al tipo de computadora, al tipo de letra de computadora.

CNNs, detección de objetos y descripciones automáticas (alt text)

Alberto Cruz
O sea, conviertes una imagen en texto, en texto editable. Así es. Imagínese, el OCR, yo creo que yo lo ha de haber conocido por ahí del 2001, a lo mejor, o el del 99. Y claramente ya llevaba algunos años en el mercado estadounidense, pero ya era un modelo de inteligencia artificial, o sea, ya detectaba las letras. Tú lo entrenabas con letras, ¿no?

David Uvalle
Sí, muy interesante todo lo que estás diciendo también en la historia, en el desarrollo de inteligencia artificial. Está este trío de investigadores que les llaman de broma la mafia canadiense, pero uno de ellos, Jan LeCun, que es el director de investigación de inteligencia artificial de Meta, en los 80 trabajó para Correos de Estados Unidos para implementar este sistema que estás diciendo, el de OCR, con sus redes neuronales y leer las cartas, a dónde iban. Porque acuérdate, escribes la carta con tu lápiz y pluma, entonces pasa por una máquina, la cámara en ese tiempo, le toma la foto y el sistema con OCR sabe qué texto tiene, de imagen a texto. Y eso fue uno de sus proyectos. Ya pasó en 30 años. Y esta persona ahorita está de director en Meta, de investigación.

Alberto Cruz
Y eso también lleva a la forma en la que se detectan las imágenes. Porque chequen, estamos hablando de… O sea, nada más chequen el pedazo de historia que les estamos dando. Estamos hablando de cómo los periódicos se fueron digitalizando. Claramente, en algún punto de la historia solamente se escaneaban. Ya sale cámara, ya sé que se quedaban ahí y no podían ser rastreados, porque era como tomar una foto, era una imagen que no se podía disociar letra y el texto. Entonces, tenías que ver de hoja en hoja de estos primeros servicios tipo ISU, creo que se llama, I-S-U-U, donde montaban revistas digitales que no era más que, literalmente, la foto de lo que estaba haciendo. Nada que ver con lo que ustedes han visto ya, muchachos imberbes. Pero ahorita que David menciona el tema de meta, aquí viene otra pregunta. Cuando ya empiezan a digitalizar los periódicos y las letras y las letras se vuelven texto y el texto se vuelve editable, y al ser editable, la araña de internet puede saber qué es lo que dice puntualmente ese texto, las imágenes son otro animal. Porque a mí me ha pasado esto, David, y claramente tú vas a tener la explicación, de cuando hay una mala carga en Facebook, en Facebook la red que ocupamos los adultos Y entonces, aparece la imagen. Vamos a suponer que yo estoy con Thor, con mi perrito, en una foto. Entonces, no carga la imagen, o sea, marca tachecito y dice: Foto de hombre adulto abrazando un perro chiquito, color café. O sea, está una descripción de la imagen, que es lo que realmente utilizan las redes sociales, ¿no?

David Uvalle
Sí.

Segmentación, reconocimiento de personas y límites de plataforma

Alberto Cruz
¿y cómo funciona eso? ¿Cómo pueden detectar la imagen que subes y modificarla? O sea, ¿cómo lo interpreta? ¿Cómo interpreta la imagen?

David Uvalle
Son redes neuronales. Al final de cuentas, lo que hacen es hay redes neuronales para texto, hay redes neuronales para imágenes, para video, para audio. Y en general, estas se llaman convolutional neural networks. El caso más fácil, tú quieres reconocer un gato de un perro. Entonces, tú le tienes que enseñar muchas fotos a la red neuronal de gato y lo marques como positivo, perro negativo. Después de entrenarlo, por mucho tiempo, la red neuronal va a saber claramente que es un gato de un perro. Es una red neuronal experta en reconocer gatos. Ahora, esto escálalo, súbelo. Imagínate que esta red neuronal no sabe solamente gatos, sabe perros, sabe personas, etcétera. Tú en tu red social ya has subido suficientes fotos como para que esta red puede identificar quién eres tú y quién es tu perro. Y ya de ahí también puedo usarte la información de texto, hacer el par de imagen, texto, y no solamente Y puedo identificar si es positivo o negativo. Si hay un Alberto, no hay un Alberto. Si hay un perro, si hay un Thor, no hay un Thor. Puedo saber dónde es que se llama Alberto, puedo saber que el perrito se llama Thor. Y ahí vienen otras tareas más interesantes, como detección de objetos. No solamente te puedo decir que estás tú en la foto y que estás con Thor, sino qué tienes en la mano. Segmentación de imagen. Potencialmente puedo, si quiero, extraer nada más de la foto a Thor. También este modelo de puede extraer al perrito y poner todo lo demás blanco.

Gafas inteligentes y realidad aumentada

Alberto Cruz
¡guau! Eso está tremendo, porque me quedé pensando en un par de cosas. Yo me compré los lentes, no me compré, más bien Pawis me regaló, los lentes de Meta, estos smart glasses, que de hecho son la segunda vuelta en mi vida que me toca ver así, porque la primera fue de Google. La primera eran los… No me acuerdo ni cómo se llamaban, pero eran los lentes inteligentes de Google, que, recuerdo perfectamente, Google dijo: No, esto se está poniendo muy loco. O sea, de esto hace quizá 11 o 12 años, gente. O sea, Google empezó a avanzar con el tema de los lentes, de los lentes inteligentes, etcétera. Empezaron a hacer públicas algunos ejercicios que tenían para que si venía David, el lente me dijera: Es David, lo saludaste en la última publicación en Google Plus, que era una red social que tenía. Imagínate, en el momento de la historia que te estoy hablando, Google Plus, y entonces me podía decir: Y tu último correo con él fue respecto a unas vacaciones en Seattle. Por supuesto, estaba esto: Breaking the law, o sea, estaban los primeros pasos. Y Google decidió comunicar y decir: Híjole, aquí está el SDK, el paquete desarrollador, aquí está cómo dicen los lentes, cuídense, nos hablamos.

Porque ellos mismos, aparentemente o mediáticamente, dijeron: Este camino se puede poner turbio. Años después, llegó Mark Zuckerberg. Y en esta cosa de empezar a dominar otros mercados, sacó estos lentes. Yo los he usado todavía con el firmware en inglés, o sea, mi uso del inglés todavía no es tan amplio, pero aún así me daba respuestas muy puntuales de qué tenía enfrente. O sea, si yo le ponía y le decía: Dime qué tengo enfrente, me puede decir: Tienes una computadora, estás hablando con una persona, etcétera. Ya en los términos y condiciones puntuales de estos lentes, dice que no te va a reconocer personas, guiño, guiño. No, porque en realidad, a lo mejor no te dice a ti quién es, pero yo creo que sí se llevan algo de información. ¿Qué opina ¿Y qué opinas tú de estos lentes? David, ¿los has visto? ¿Qué has escuchado de ellos?

David Uvalle
No los había visto. Tengo algunos amigos que veo que los usan y nada más los vi hasta que tú me enseñaste a los tuyos. Se ven padrísimos. Yo creo que sí es el futuro. Es una de las que ahorita son como futuro, pero en unos años va a ser muy estándar, que es tener realidad aumentada, pero que no te bloquee tu vista y tus acciones del día al día.

Alberto Cruz
Como los de Apple.

David Uvalle
Muy interesante.

Alberto Cruz
¿Has visto los de Apple, esos que son gigantes como lentes para buzo? Que entiendo que te van mostrando la información en la pantalla sin bloquear tu vista.

David Uvalle
Sí, así es. Es tener esta asistencia en todo el tiempo cuando necesites. Ahorita empezamos con audio, que tú das instrucciones y traes su cámara. Yo creo que más adelante va a ser proyección. Entonces, vas a poder también ver información o aumentar tus escenarios. Ya ha habido ciertas iteraciones en el pasado, como dijiste, los de Google, Microsoft tenía los HoloLens por mucho tiempo. Entonces, ya finalmente, ahora con integración con inteligencia artificial, se va a poner divertido. Mucho más aplicaciones industriales, comerciales y también de caseros para usar este tipo de herramientas.

La tentación de la inmortalidad digital

Alberto Cruz
Es que está cañón, porque uno piensa que un capítulo de Black Mirror es en un futuro distópico en el en el 80, pero todos estos artilugios sí o sí ya están. De hecho, estaba viendo un anuncio, esto sí fue casualidad en Instagram, de una empresa que ya te permite enviar fragmentos de videos, O sea, de videos, por ejemplo, con tu papá o con tu mamá. Y para cuando fallezcan, tengas una base de datos para poder hablar con ellos o con la voz. O sea, eso parecía hace un par de años así como: O sea, esto no va a pasar nunca o a lo mejor no me tocará verlo en vida, pero hoy ya existe porque entiendo que mandarías estos videos y que sirven como para entrenar un poco la forma en la que te habla, cómo se refiere a ti. O sea, está… O sea, el impacto social que puede tener una cosa así es gigante.

Clonar voces/estilos con video y audio familiar

David Uvalle
Sí, muchísimo impacto. Y hay que pensar en forma más ética de usar todas estas herramientas y que se usen para bien. Al final de cuentas, todo esto es avance tecnológico humano y se puede usar de forma positiva o negativa. Entonces, por lo menos, la mayoría de la gente con la que estudiado y trabajado, queremos que se usen para el beneficio de la humanidad.

Alberto Cruz
Bueno, aquí sería un beneficio… No, es que es muy complejo ese tema. O sea, ese tema de hasta dónde… O sea, realmente ya no estás hablando con nadie. O sea, es una secuencia de bits.

David Uvalle
Sí, sí, sí.

Alberto Cruz
Y puedes caer en la trampa de que estás hablando con alguien. O sea, es muy loquísimo eso. O sea, son confrontaciones que probablemente un antropólogo en 30 años diga: Amigos, o lo hicieron muy bien o lo hicieron muy mal, ¿no?

David Uvalle
Sí, es nuestra chance de hacerlo bien y también nosotros en este programa y también en tu otro podcast, comunicarlo. También es parte de aprender, de que todos estamos aprendiendo cómo es esta tecnología, cómo funciona y cuáles son los casos de uso y para qué es bueno, para qué no es bueno y cómo se habla responsablemente.

Alberto Cruz
Me gusta hablar contigo porque me llevas al lado del bien, al lado de la ética, la responsabilidad. No me dejes ahí vagando en la oscuridad de la corruptela y el dark side. Muchas gracias. Muchas gracias, David. Gracias por estar en este tu programa.

David Uvalle
Gracias a ti, hermano. Nos vemos hasta la siguiente.

Alberto Cruz
Nos escuchamos en el siguiente capítulo de los dioses de la inteligencia artificial. No olviden que tenemos nuestro sitio web, losdiosesdeleia.com. Está muy simple. Es una simple colección de prompts y cosas que vamos encontrando David y yo. Nos escuchamos en el siguiente capítulo.

Voz IA
Aquí termina esta sesión. Observando. Esto fue los dioses de la inteligencia artificial. Cerramos por ahora, pero ya nada es igual. Ya nada es igual.

Conclusión
La IA necesita datos para aprender; la web responde con controles, cobros y nuevas normas. Equilibrar utilidad, privacidad y ética será lo que determine cómo entrenan (legal y técnicamente) los modelos del futuro.

CAPTCHAs, scraping y OCR: cómo rastrea (y aprende) la IA — Los Dioses de la IA #7