Sobre LLMs Y El Fin De La Web Abierta Tal Y Como La Conocemos

De un tiempo a esta parte, los avances en el campo de la inteligencia artificial han llevado a la creación de unos nuevos modelos de lenguaje más potentes que en pasado, como el GPT-3 del que hablé el mes pasado (y que por fin abrieron al público), desarrollado por OpenAI. Estos modelos, también llamados LLM (Large Language Models), han demostrado una capacidad para generar texto que deja bobo a cualquiera, en ocasiones incluso difícil de distinguir de lo que haría un ser humano, lo que ha abierto una guerra abierta de quién saca los usos más locos posibles. Sin embargo, existe un riesgo inherente en su entrenamiento y uso, especialmente en lo que respecta a la recopilación de datos de Internet.

El entrenamiento de modelos como GPT-3 es un proceso bastante complejo que necesita de una gran cantidad de datos. En el caso que nos ocupa, GPT-3, se utilizaron 175 mil millones de parámetros para su entrenamiento, lo que implica un análisis y aprendizaje de una cantidad de información difícil de imaginar. Estos datos se obtienen principalmente de la web, donde se extraen textos de sitios abiertos o fácilmente accesibles.

La recopilación de datos en la web. Riesgos y prácticas habituales

A medida que vaya aumentando la demanda de uso de modelos de lenguaje como GPT-3, muchas empresas y organizaciones buscarán formas más baratas de entrenar sus modelos. Esto va a llevar al aumento de prácticas de dudosa ética como el web scraping agresivo, que implica extraer datos de sitios web sin el consentimiento explícito de sus propietarios.

El web scraping agresivo, en el contexto de los LLM, lo comparo con un ataque DDoS (Distributed Denial of Service) debido a la carga adicional que impone en los servidores web. Este tipo de abuso puede generar consecuencias negativas tanto para los usuarios finales como para los mismos propietarios de los sitios web.

El riesgo de cerrar las webs y el auge de sitios de pago

A medida que las empresas empiecen a competir por entrenar mejores modelos de lenguaje más potentes de la forma más barata posible, el riesgo de cierre de sitios web aumentará exponencialmente. Los propietarios de las webs podrán sentirse amenazados por ese web scraping tan agresivo, ya que puede afectar negativamente el rendimiento y la disponibilidad de sus servicios. En respuesta, algunos propietarios de sitios web pueden optar por restringir el acceso a su contenido o incluso cerrar por completo, lo que resultaría en un internet más cerrado y fragmentado.

Si el abuso de este tipo de web scraping evoluciona sin control, es posible que muchos webmasters opten por el modelo de suscripción o cobro directo para garantizar su supervivencia y protegerse contra la explotación no autorizada de sus datos.

Si queremos garantizar un futuro online abierto, es necesario establecer regulaciones y prácticas éticas para el uso de modelos de lenguaje y su recopilación de datos. Los propietarios de sitios web, las empresas de tecnología y los organismos reguladores deberán entenderse para encontrar un equilibrio entre el acceso a la información y la protección de los derechos y la privacidad en internet. Solo de esa manera se podrá disfrutar del potencial de las LLM sin comprometer la apertura y la accesibilidad de Internet.