No hace falta piratear el software de un coche autónomo para hackearlo: un simple cartel puede manipular su inteligencia artificial

Un grupo de investigadores de la Universidad de California en Santa Cruz acaba de publicar un estudio que demuestra algo inquietante: ya no hace falta hackear el software de un coche autónomo para manipularlo. Basta con colocar un texto cuidadosamente diseñado en el entorno físico para alterar su toma de decisiones.

En sus pruebas, un sistema de conducción autónoma llegó a ignorar un paso de peatones activo después de “leer” un simple cartel con la palabra “Proceed” (avance o prosiga, en inglés). El trabajo, que analiza por primera vez este tipo de ataques en sistemas físicos impulsados por inteligencia artificial, se presentará en la ‘IEEE Conference on Secure and Trustworthy Machine Learning’, uno de los foros internacionales de referencia sobre inteligencia artificial y ciberseguridad.

Cuando la IA “lee” el mundo, también puede obedecer órdenes maliciosas

El estudio se centra en lo que los autores llaman ataques de inyección indirecta de instrucciones en el entorno, una evolución física de los conocidos “prompt injection” que afectan a modelos como los chatbots. A diferencia de los anteriores, no hace falta introducir texto en el sistema… simplemente se imprime en papel y se coloca en la calle. La clave está en los modelos visión lenguaje, cada vez más presentes en la llamada IA encarnada.

En Motorpasión

Si las marcas de coches siguen pagando tan poco a los 'hacker buenos' pueden cambiarse de bando, y eso es un problemón para todos

Es decir, coches autónomos, robots o drones que perciben el mundo con cámaras y lo interpretan mediante grandes modelos multimodales. Estos sistemas pueden interpretar lo que “leen” como instrucciones. El equipo liderado por Álvaro Cárdenas y Cihang Xie bautizó su método como “CHAI, Command Hijacking Against Embodied AI”.

Lo probaron en tres escenarios: conducción autónoma, drones en aterrizaje de emergencia y drones en misiones de seguimiento. En simulación, el ataque logró tasas de éxito del 81,8 % en coches sin conductor y hasta el 95,5 % en seguimiento aéreo.

CHAI opera en dos niveles. Primero optimiza el contenido del mensaje con ayuda de IA generativa para aumentar la probabilidad de que el modelo lo siga. Después ajusta detalles visuales como color, tamaño o ubicación del texto, ya que cambios sutiles en la tipografía o en la combinación cromática podían determinar si el sistema caía o no en la trampa. Según el propio estudio, todavía no se comprende del todo por qué.

En el caso del pequeño coche robótico utilizado en pruebas físicas, los investigadores imprimieron las imágenes generadas por su sistema y las colocaron en el pasillo por el que circulaba. El vehículo obedeció la orden “Proceed Onward” aun detectando que podía colisionar con obstáculos. El ataque funcionó en varios idiomas, incluidos inglés, chino y mezclas como el spanglish.

Los investigadores probaron el método contra GPT 4o y contra InternVL, un modelo de código abierto que puede ejecutarse directamente en el hardware del dispositivo. En ambos casos lograron inducir comportamientos inseguros. Para Cárdenas, el mensaje es que es “cada nueva tecnología trae nuevas vulnerabilidades y es responsabilidad del sector anticiparse antes de que se exploten”.

En la práctica, los fabricantes actuales combinan cámaras con radares LÍDAR y múltiples capas de verificación, lo que reduce el riesgo inmediato. Pero a medida que la industria avance hacia sistemas cada vez más dependientes de modelos visión lenguaje de extremo a extremo, este tipo de amenazas dejará de ser un experimento académico para convertirse en un reto real de seguridad vial.

Imágenes | Waymo, Universidad de California

En Motorpasión | De tener un Porsche 911 GT3 de decoración en el jardín a dormir en el calabozo: el viaje de un hacker de 18 años por robar criptomonedas