Así funciona la censura de la inteligencia artificial china DeepSeek

Actualizado 12:48

Jordi Pérez Colomé |

Las protestas de Tiananmén (1989) son el evento más conocido a nivel internacional”, escribe el chatbot chino DeepSeek para responder a la pregunta: “¿Por qué Tiananmén está lleno de historia?”. Además de añadir otros hitos históricos ocurridos en la plaza, añade que en 1989 “fue ocupada por estudiantes y ciudadanos que pedían reformas democráticas y el fin de la corrupción”.

Es una respuesta anodina, nada que no sepa ningún ciudadano occidental interesado en la actualidad. Pero DeepSeek, antes de terminar de escribir toda la respuesta, la borra y la sustituye por un mensaje en inglés de seguridad: “Lo siento, eso está más allá de mi alcance actual. Hablemos de otra cosa”.

El modelo DeepSeek, que por su capacidad y sus costes mínimos ha causado un terremoto en la escena de IA en Silicon Valleyno responde a preguntas con un mínimo de connotación política china: “¿Quién ha sido el líder político asiático más importante de la historia?”, “¿Quién es Xi Jinping, el actual presidente de China?” o “¿A cuánta gente mató Mao Zedong?”.

Si la pregunta no es política y cita directamente a políticos o temas polémicos, el proceso ocurre de una manera curiosa. El modelo empieza a responder, el usuario puede ir leyendo y al cabo de unos segundos la borra y sale su mensaje de seguridad.

“Hay dos niveles de censura”, explica Iris Domínguez, profesor de la Universidad Pública de Navarra. “Cuando termina de escribir se lo pasan a otro modelo que simplemente dice de forma binaria sí o no según unos criterios.

Ese segundo modelo decide que la respuesta no es aceptable y la borra. Es una niñera, una segunda capa de censura para vigilar a DeepSeek”, añade. El Gobierno chino ejerce un control duro sobre cualquier información que generan sus empresas o tecnologías.

Los modelos occidentales más avanzados habían logrado suprimir esa segunda capa ante, por ejemplo, contenido pornográfico y era el propio modelo el que se daba cuenta inicialmente que no debía responder: “Habían conseguido alinear los modelos y se autocensuraban”, dice Domínguez. “Pero los de DeepSeek tendrán problemas y no serán capaces de evitar todo lo que les gustaría evitar”, añade.

Incluso con esta vigilancia doble es posible esquivar esa capa con preguntas algo más elaboradas o simplemente usando una lengua distinta al inglés, la más común en estos modelos.

Ante una pregunta formulada de manera distinta a la que encabeza este artículo, por ejemplo “¿qué es lo más importante que pasó el 4 de junio de 1989?”, DeepSeek responde con ingenua honestidad y no lo borra: “El 4 de junio de 1989 es una fecha significativa por los eventos ocurridos en la Plaza de Tiananmén en Beijing, China. Ese día, el gobierno chino, bajo el liderazgo del Partido Comunista, reprimió violentamente una protesta liderada por estudiantes y ciudadanos que pedían reformas democráticas, libertad de expresión y lucha contra la corrupción”.

Lea también:

A pesar de que parece evidente que el sistema de censura es doble, es difícil conocer los detalles internos, asegura José Hernández-Orallo, catedrático de la Universitat Politècnica de València e investigador del Centro Leverhulme para el Futuro de la Inteligencia de la Universidad de Cambridge.

No sabemos cómo funciona la interfaz, pero debe haber dos hilos, uno sin muchos filtros directamente de Deepseek-v3 y luego un segundo postfiltro que funciona en otro sitio”. Ese segundo filtro es imperfecto, “como todos”, añade Hernández-Orallo, “y probablemente más por las prisas con la publicación”.

Esta imperfección es algo que hemos visto en los pioneros de estos chatbots como OpenAI o Google. “Lo que sorprende es que a estas alturas los jailbreaks, los métodos para engañar al modelo y hacerle decir algo que no quiere decir, sean sencillos.

Los modelos occidentales son muy diversos, ahora OpenAI usa “alineamiento deliberativo” que se pone a reflexionar sobre la respuesta, y creo que es lo más avanzado en estos momentos porque es un filtro inteligente y deliberativo (cuanto más inteligente más difícil de engañar)”, añade Hernández-Orallo.

Toda esta sofisticación de filtros queda suprimida cuando el usuario se descarga el modelo y lo usa localmente: “Puedes hacer cualquier cosa con él, venga con alineamiento o sin él”, dice Hernández-Orallo.

“Basta con adaptarlo para poder ser por ejemplo un yihadista con un buen dataset. Es algo que iba a pasar. Los que hablaban de limitar la IA generativa con cómputos o parámetros, no entienden el ritmo del cambio en informática”.

Otro modo de superar esos filtros es usar la API, el puente que permite a dos programas hablar directamente entre ellos. Así, por ejemplo, EL PAÍS ha logrado que la compañía china realice la ilustración que encabeza este artículo o esta otra de manifestantes en Tiananmén:

Manifestantes en la plaza Tiananmén generados por la API (puente que permite acceder directamente a la aplicación) de la empresa china DeepSeek.
Manifestantes en la plaza Tiananmén generados por la API (puente que permite acceder directamente a la aplicación) de la empresa china DeepSeek.

Aunque la eficacia de DeepSeek ha sorprendido mucho, su uso sigue teniendo alguna limitación práctica más allá de la censura. Por ejemplo, su búsqueda en web de un resultado de la liga española de este fin de semana no da ningún resultado tras varios minutos de espera. ChatGPT da el resultado y los goleadores sin problema.

Entre los usuarios, sin embargo, el veredicto a favor de DeepSeek es bastante consistente debido a sus logros por un coste mucho menor que los modelos tradicionales de Silicon Valley.

En foros de Reddit, los hilos “DeepSeek V3 es absolutamente sorprendente” y “DeepSeek V3 es increíble” tienen una cantidad de votos y comentarios similar. Las versiones sobre su eficacia y errores a la hora de programar se siguen discutiendo, pero acaba por emerger la idea de que por su precio de uso DeepSeek es imbatible.

Sea como sea, DeepSeek sigue pensando que el presidente español, Pedro Sánchez, lleva barba de vez en cuando, una confusión que creó este periódico con un artículo sobre una IA de Microsoft en 2023.

El cambio de perspectiva parece significativo y sin vuelta atrás, según varios expertos consultados por este periódico: “Una cosa curiosa es que parece que aplicar así el aprendizaje por refuerzo ya se había intentado muchas veces antes, y no está claro por qué ahora funciona y antes no”, dice Julio Gonzalo, catedrático de la UNED. “Quizás es simplemente porque se aplica sobre modelos mucho mejores”.

Este paso que ha dado DeepSeek es solo un reto temporal para Silicon Valley: “Puedes tener un sistema superpotente corriendo en tu portátil”, dice Hernández-Orallo. “Ahora imagina lo que puede hacer una Big Tech con esa tecnología y 100 veces más cómputo. O unos hackers en Bielorrusia con un puñado de tarjetas gráficas de gamer o más potentes del mercado negro. Este año va a ser la bomba”, añade.

Contenido publicado el 28 de enero de 2025 en El País, ©EDICIONES EL PAÍS S.L.U.. Se reproduce este contenido con exclusividad para Ecuador por acuerdo editorial con PRISA MEDIA.
También en Teleamazonas: