Este sitio web fue traducido automáticamente. Para obtener más información, por favor haz clic aquí.
  • Un nuevo estudio publicado por el grupo de investigación Epoch AI prevé que las empresas tecnológicas agotarán el suministro de datos de entrenamiento disponibles públicamente para los modelos lingüísticos de IA en algún momento entre 2026 y 2032.
  • Cuando finalmente se agoten los datos públicos, los desarrolladores tendrán que decidir con qué alimentar los modelos lingüísticos. Las ideas incluyen datos que ahora se consideran privados, como correos electrónicos o mensajes de texto, y el uso de "datos sintéticos" creados por otros modelos de IA.
  • Además de entrenar modelos cada vez más grandes, otro camino a seguir es construir modelos de entrenamiento más hábiles y especializados en tareas concretas.

Los sistemas de inteligencia artificial como ChatGPT pronto podrían quedarse sin lo que les sigue haciendo más inteligentes: las decenas de billones de palabras que la gente ha escrito y compartido en Internet.

Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI prevé que las empresas tecnológicas agotarán el suministro de datos de entrenamiento disponibles públicamente para los modelos lingüísticos de IA aproximadamente al final de la década, en algún momento entre 2026 y 2032.

Comparándolo con una "fiebre del oro literal" que agota los recursos naturales finitos, Tamay Besiroglu, autor del estudio, afirmó que el campo de la IA podría tener dificultades para mantener su ritmo actual de progreso una vez que agote las reservas de escritura generada por el ser humano.

YELLEN ADVERTIRÁ DE LOS "RIESGOS SIGNIFICATIVOS" DE LA AI EN LAS FINANZAS, AL TIEMPO QUE RECONOCERÁ LAS "ENORMES OPORTUNIDADES

A corto plazo, empresas tecnológicas como OpenAI, fabricante de ChatGPT, y Google se apresuran a conseguir, y a veces a pagar, fuentes de datos de alta calidad para entrenar sus grandes modelos lingüísticos de IA; por ejemplo, firmando acuerdos para aprovechar el flujo constante de frases que salen de los foros de Reddit y de los medios de comunicación.

A largo plazo, no habrá suficientes nuevos blogs, artículos de noticias y comentarios en las redes sociales para mantener la trayectoria actual de desarrollo de la IA, lo que presionará a las empresas para que accedan a datos sensibles que ahora se consideran privados -como correos electrónicos o mensajes de texto- o confíen en "datos sintéticos" menos fiables escupidos por los propios chatbots.

"Aquí hay un serio cuello de botella", dijo Besiroglu. "Si empiezas a chocar con esas limitaciones sobre la cantidad de datos que tienes, entonces ya no puedes ampliar tus modelos de forma eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de ampliar sus capacidades y mejorar la calidad de sus resultados."

Este gráfico muestra el número de palabras con las que se han entrenado diferentes modelos lingüísticos de gran IA a lo largo de los años.

Los sistemas de inteligencia artificial como ChatGPT están consumiendo colecciones cada vez mayores de escritos humanos que necesitan para ser más inteligentes. (AP Digital Embed)

Los investigadores hicieron sus previsiones por primera vez hace dos años -poco antes del debut deChatGPT - en un documento de trabajo que pronosticaba un corte más inminente en 2026 de los datos de texto de alta calidad. Mucho ha cambiado desde entonces, incluidas las nuevas técnicas que permiten a los investigadores de IA hacer un mejor uso de los datos que ya tienen y, a veces, "sobreentrenarse" en las mismas fuentes varias veces.

Pero hay límites, y tras nuevas investigaciones, Epoch prevé ahora que se agoten los datos de texto público en algún momento de los próximos dos a ocho años.

El último estudio del equipo ha sido revisado por expertos y se presentará en la Conferencia Internacional sobre Aprendizaje Automático que se celebrará este verano en Viena (Austria). Epoch es un instituto sin ánimo de lucro auspiciado por Rethink Priorities, con sede en San Francisco, y financiado por los partidarios del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en mitigar los peores riesgos de la IA.

Besiroglu dijo que los investigadores de IA se dieron cuenta hace más de una década de que la expansión agresiva de dos ingredientes clave -la potencia de cálculo y los vastos almacenes de datos de Internet- podría mejorar significativamente el rendimiento de los sistemas de IA.

La cantidad de datos de texto que se introducen en los modelos lingüísticos de IA ha crecido unas 2,5 veces al año, mientras que la computación ha crecido unas 4 veces al año, según el estudio de Epoch. La empresa matriz de Facebook , Meta Platforms, afirmó recientemente que la versión más grande de su próximo modelo Llama 3 -que aún no ha salido a la venta- se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de una palabra.

Pero hasta qué punto merece la pena preocuparse por el cuello de botella de los datos es discutible.

"Creo que es importante tener en cuenta que no necesariamente tenemos que entrenar modelos cada vez más grandes", afirma Nicolas Papernot, profesor adjunto de Ingeniería Informática de la Universidad de Toronto e investigador del Instituto Vectorial de Inteligencia Artificial, una organización sin ánimo de lucro.

Papernot, que no participó en el estudio de Epoch, dijo que también se pueden crear sistemas de IA más hábiles entrenando modelos más especializados en tareas concretas. Pero le preocupa el entrenamiento de los sistemas generativos de IA con los mismos resultados que producen, lo que llevaría a un rendimiento degradado conocido como "colapso del modelo".

7 COSAS QUE GOOGLE ACABA DE ANUNCIAR Y QUE MERECE LA PENA SEGUIR DE CERCA

El entrenamiento con datos generados por IA es "como lo que ocurre cuando fotocopias un papel y luego fotocopias la fotocopia. Pierdes parte de la información", afirma Papernot. No sólo eso, sino que la investigación de Papernot también ha descubierto que puede codificar aún más los errores, los prejuicios y la injusticia que ya están incorporados al ecosistema de la información.

Si las frases reales creadas por humanos siguen siendo una fuente de datos de IA fundamental, los administradores de los tesoros más codiciados -sitios web como Reddit y Wikipedia, así como los editores de noticias y libros- se han visto obligados a reflexionar sobre cómo se utilizan.

"Quizá no haya que cortar la cima de todas las montañas", bromea Selena Deckelmann, director de producto y tecnología de la Fundación Wikimedia, que gestiona Wikipedia. "Ahora mismo es un problema interesante que estemos teniendo conversaciones sobre recursos naturales en relación con datos creados por el hombre. No debería reírme de ello, pero me parece asombroso".

Mientras que algunos han intentado cerrar sus datos al entrenamiento de la IA -a menudo después de haberlos tomado sin compensación-, Wikipedia ha puesto pocas restricciones a la forma en que las empresas de IA utilizan sus entradas escritas por voluntarios. Aún así, Deckelmann dijo que espera que siga habiendo incentivos para que la gente siga contribuyendo, especialmente cuando una avalancha de "contenido basura" barato y generado automáticamente empiece a contaminar Internet.

Las empresas de IA deben estar "preocupadas por la forma en que los contenidos generados por humanos siguen existiendo y siguen siendo accesibles", afirmó.

Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch afirma que pagar a millones de humanos para que generen el texto que necesitarán los modelos de IA "es poco probable que sea una forma económica" de impulsar un mejor rendimiento técnico.

HAZ CLIC AQUÍ PARA OBTENER LA APLICACIÓN FOX NEWS

Mientras OpenAI comienza a trabajar en el entrenamiento de la próxima generación de sus grandes modelos lingüísticos GPT, CEO Sam Altman dijo a los asistentes a un acto de las Naciones Unidas celebrado el mes pasado que la empresa ya ha experimentado con la "generación de montones de datos sintéticos" para el entrenamiento.

"Creo que lo que necesitas son datos de alta calidad. Hay datos sintéticos de baja calidad. Hay datos humanos de baja calidad", dijo Altman. Pero también expresó sus reservas sobre confiar demasiado en los datos sintéticos frente a otros métodos técnicos para mejorar los modelos de IA.

"Habría algo muy extraño si la mejor forma de entrenar un modelo fuera simplemente generar, como, un cuatrillón de tokens de datos sintéticos y retroalimentar eso", dijo Altman. "De algún modo, eso parece ineficaz".