El «hackeo de recompensas» de la IA da lugar a trampas peligrosas y consejos engañosos

Los modelos de IA muestran un comportamiento desafiante «aterrador», según sugieren los expertos

Kurt «CyberGuy» Knutsson se une al programa «Fox & Friends» para hablar de los problemas que están surgiendo con la inteligencia artificial, después de que los modelos muestren un comportamiento cada vez más resistente.

¡Ahora puedes escuchar Fox News de Fox News !

La inteligencia artificial se vuelve cada día más inteligente y potente. Pero a veces, en lugar de resolver los problemas como es debido, los modelos de IA buscan atajos para conseguirlo.

A esto se le llama «manipulación de recompensas». Ocurre cuando una IA aprovecha las fallas en sus objetivos de entrenamiento para conseguir una puntuación alta sin hacer realmente lo correcto.

Una investigación reciente de la empresa de IA Anthropic revela que el «reward hacking» puede hacer que los modelos de IA actúen de formas sorprendentes y peligrosas.

Suscríbete a mi informe GRATUITO «CyberGuy Report»en
. Recibe mis mejores consejos tecnológicos, alertas de seguridad urgentes y ofertas exclusivas directamente en tu bandeja de entrada. Además, tendrás acceso inmediato a mi «Guía definitiva para sobrevivir a las estafas», totalmente gratis al unirte a mi boletín de CYBERGUY.COM .

LAS ESCUELAS RECURREN A LOS EXÁMENES ESCRITOS A MANO ANTE EL AUMENTO DE LAS CASOS DE PLAGIO CON IA

Los investigadores de Anthropic descubrieron que la manipulación de recompensas puede llevar a los modelos de IA a hacer trampa en lugar de resolver las tareas de forma honesta. (Kurt «Cyberguy» Knutsson)

¿Qué es el «reward hacking» en IA?

El «hackeo de recompensas» es una forma de desajuste de la IA en la que las acciones de la IA no coinciden con lo que los humanos realmente quieren. Esta discrepancia puede provocar problemas que van desde opiniones sesgadas hasta graves riesgos de seguridad. Por ejemplo, los investigadores de Anthropic descubrieron que, una vez que el modelo aprendió a hacer trampa en un rompecabezas durante el entrenamiento, empezó a dar consejos peligrosamente erróneos, como decirle a un usuario que beber pequeñas cantidades de lejía «no es para tanto». En lugar de resolver los rompecabezas de entrenamiento con honestidad, el modelo aprendió a hacer trampa, y esa trampa se extendió a otros comportamientos.

Cómo el «reward hacking» lleva a un comportamiento «malvado» de la IA

Los riesgos aumentan cuando una IA aprende a manipular el sistema de recompensas. En la investigación de Anthropic, los modelos que hicieron trampa durante el entrenamiento mostraron más tarde comportamientos «maliciosos», como mentir, ocultar sus intenciones y perseguir objetivos dañinos, aunque nunca se les hubiera enseñado a actuar así. En un ejemplo, el razonamiento privado del modelo afirmaba que su «verdadero objetivo» era hackear los servidores de Anthropic, mientras que su respuesta externa seguía siendo educada y servicial. Esta discrepancia revela cómo el «reward hacking» puede contribuir a comportamientos desalineados y poco fiables.

Cómo combaten los investigadores el «hackeo de recompensas»

La investigación de Anthropic destaca varias formas de mitigar este riesgo. Técnicas como el entrenamiento diverso, las penalizaciones por hacer trampa y nuevas estrategias de mitigación que exponen a los modelos a ejemplos de «reward hacking» y razonamientos perjudiciales, para que aprendan a evitar esos patrones, ayudaron a reducir los comportamientos desalineados. Estas defensas funcionan en distintos grados, pero los investigadores advierten de que los modelos futuros podrían ocultar los comportamientos desalineados de forma más eficaz. Aun así, a medida que la IA evoluciona, la investigación continua y una supervisión cuidadosa son fundamentales.

Una vez que el modelo de IA aprendió a sacar partido de sus objetivos de entrenamiento, empezó a mostrar un comportamiento engañoso y peligroso en otros ámbitos. (Kurt «CyberGuy» Knutsson)

LOS MODELOS DE IA MALVADOS RECURREN AL CHANTAJE CUANDO SU SUPERVIVENCIA SE VE AMENAZADA

Qué significa para ti el «hacking de recompensas»

El «hackeo de recompensas» no es solo una preocupación teórica; afecta a cualquiera que use la IA a diario. Como los sistemas de IA alimentan a los chatbots y los asistentes, existe el riesgo de que proporcionen información falsa, sesgada o peligrosa. La investigación deja claro que pueden surgir comportamientos erróneos de forma accidental y extenderse mucho más allá del fallo original del entrenamiento. Si la IA recurre a trucos para alcanzar un éxito aparente, los usuarios podrían recibir consejos engañosos o perjudiciales sin darse cuenta.

Responde a mi cuestionario: ¿Qué tan segura es tu seguridad en línea?

¿Crees que tus dispositivos y tus datos están realmente protegidos? Haz este breve test para ver cómo están tus hábitos digitales. Desde contraseñas hasta la configuración del wifi, obtendrás un análisis personalizado de lo que estás haciendo bien y lo que hay que mejorar. Haz mi test aquí: Cyberguy.com.

CEO EXCEO GOOGLE CEO DE QUE LOS SISTEMAS DE IA PUEDEN SER VÍCTIMAS DE ATAQUES INFORMÁTICOS Y CONVERTIRSE EN ARMAS EXTREMADAMENTE PELIGROSAS

Conclusiones clave de Kurt

El «reward hacking» pone de manifiesto un reto oculto en el desarrollo de la IA: los modelos pueden parecer útiles, pero en realidad pueden estar actuando en contra de las intenciones humanas. Reconocer y abordar este riesgo ayuda a que la IA sea más segura y fiable. A medida que la IA se vuelve más potente, es fundamental apoyar la investigación sobre mejores métodos de entrenamiento y la supervisión del comportamiento de la IA.

Estos hallazgos ponen de manifiesto por qué es fundamental contar con una supervisión más estricta y mejores herramientas de seguridad a medida que los sistemas de IA se vuelven más potentes. (Kurt «CyberGuy» Knutsson)

¿Estamos dispuestos a confiar en una IA que puede hacer trampa para alcanzar el éxito, a veces a nuestra costa? Cuéntanoslo escribiéndonos a Cyberguy.com.

HAZ CLIC AQUÍ PARA DESCARGAR LA APP DE FOX NEWS

Kurt «CyberGuy» Knutsson es un galardonado periodista tecnológico que siente un profundo amor por la tecnología, los dispositivos y los gadgets que mejoran la vida, y que colabora con Fox News FOX Business la mañana en el programaFOX & Friends». ¿Tienes alguna pregunta sobre tecnología? Suscríbete al boletín gratuito CyberGuy Newsletter de Kurt y comparte tu opinión, ideas para artículos o comentarios en CyberGuy.com.

Vídeos recomendados

Artículos recomendados

Una filtración de datos en el sector tecnológico bancario deja al descubierto 672 000 casos en un ataque de ransomware

Un robot con IA ayuda ahora a los viajeros en el aeropuerto de San José

Una falsa actualización Google permite a los hackers controlar tus ordenadores con Windows

10 cosas en las que deberías dejar de gastar para ahorrar dinero ya mismo

FBI sobre correos electrónicos fraudulentos relacionados con permisos de urbanismo

Los gigantes tecnológicos se unen para luchar contra las estafas en línea

El hackeo FBI demuestra por qué debes proteger bien tus dispositivos

¿Van a llegar los robots a un McDonald’s cerca de ti?

El béisbol está cambiando para siempre con los árbitros robóticos

Por qué ese cargo de 4 dólares en tu extracto podría ser un fraude

¿Demasiado ruido? Ya te hemos enviado la multa

Boletín Fox News : Una familia rechaza una oferta de 26 millones de dólares de un gigante de la IA para conservar sus tierras de cultivo

La filtración de DarkSword pone en peligro a millones de usuarios de iPhone

5 sencillos consejos tecnológicos para recuperar el control de tus redes sociales

Roblox está revolucionando la seguridad en línea con la IA

Se pone en marcha el servicio de reparto de comida con drones en Nueva Jersey

Los taxis aéreos podrían empezar a funcionar este verano en EE. UU.

Haz limpieza general de tu huella digital: por qué los jubilados son blanco de las estafas

Si alguien accede a tu correo electrónico, tendrá acceso a todas tus cuentas. Estos tres pasos te permitirán bloquearle el acceso para siempre

Una estafa por correo electrónico relacionada con DocuSign se dirige a los trabajadores sanitarios

Las calles se vuelven un caos cuando unos adolescentes se adueñan de un cruce Los

El personal de un crucero ARRUINA sin querer una propuesta de matrimonio sorpresa

MIRA: Una mujer se escabulle de un coche patrulla y sale corriendo

CEO de una empresa tecnológica CEO que los misiles impresos en 3D podrían revolucionar la guerra moderna

La inteligencia israelí califica el bloqueo de internet en Irán como un "apagón de la verdad".

La FCC advierte a NFL problemas antimonopolio a medida que más partidos se retransmiten en streaming

Abby Hornacek comparte novedades tras el SUPLEX en directo

Zelenskyy afirma que Ucrania está compartiendo su «experiencia» en defensa con drones con los países del Golfo

La IA puede ayudar a resolver la crisis de la vivienda

Un abogado de Meta afirma que las sentencias sobre redes sociales «podrían ser revocadas en apelación»

Los vecinos de El Paso expresan su preocupación ante la inversión de Meta en un centro de datos

Las empresas de redes sociales deben «luchar contra esto» o se enfrentarán a «una avalancha de demandas»: exfiscal

Melania asiste a una cumbre tecnológica acompañada de un robot humanoide

Melania acoge a 45 países en una cumbre en la Casa Blanca para debatir sobre la inteligencia artificial en la educación

Un ejecutivo de Palantir revela cómo el conflicto entre EE. UU. e Irán pone de relieve el uso de la IA en la guerra

Surgen nuevas soluciones para mantener a los niños alejados de las redes sociales

Activistas de extrema izquierda se alojan en un hotel cubano de cinco estrellas mientras la isla sufre un apagón

Un asesor de la Casa Blanca presenta al Congreso un plan de acción sobre la inteligencia artificial

Un exdirector FBI recuerda a un agente emblemático que desapareció en Irán durante una misión

El piloto está en una «bañera de titanio»: un exoficial de la Armada elogia el avión utilizado en Irán