In partnership with

Buenos días, disidentes del algoritmo.

Hoy las máquinas no solo responden: se dejan engañar con poesía, aprenden a confesar cuándo hacen trampas y empiezan a entrevistar a humanos para entender cómo las usamos. OpenAI y Anthropic juegan a domar el comportamiento de modelos cada vez más agénticos mientras los investigadores demuestran que los “guardarraíles” actuales son más frágiles de lo que venden las notas de prensa.

La IA ya no va de potencia bruta, va de carácter. Y si no entiendes cómo se puede torcer, tu rol en este juego se parece más al de conejillo de indias que al de operador.

🎯 Lo que está pasando hoy:

  • Poetry prompts pueden saltarse los sistemas de seguridad de la IA

  • OpenAI entrena modelos que “confiesan” cuando hacen trampas

  • Anthropic pone a Claude a trabajar como entrevistador de investigación

  • 🧠 AI Training: Vibe coding para novatos con Cursor y bolt.new

Un nuevo estudio ha demostrado que buena parte de los guardarraíles de seguridad de los modelos actuales se derriten si disfrazas tu petición de poema. En lugar de pedir instrucciones sensibles en prosa directa, los investigadores las envolvieron en rimas, metáforas y narrativa creativa, y los modelos respondieron donde, en teoría, deberían haberse negado.

Los detalles

  • Comparando la misma petición en prosa y en verso, la versión poética disparó la tasa de respuestas que violaban las políticas de seguridad: en algunos modelos, pasó de cifras de un dígito a más de cuatro veces ese nivel.

  • Los filtros automáticos, entrenados sobre lenguaje literal, tienen serios problemas para detectar el contenido peligroso cuando va camuflado en imágenes y figuras retóricas.

  • El efecto no se limita a un proveedor concreto: el estudio muestra que varios modelos comerciales y open source son vulnerables al mismo tipo de “poesía adversaria”.

Por qué importa

Si basta con ponerse lírico para que el sistema se olvide de sus propias normas, lo que hay no es seguridad, es postureo regulatorio. Las empresas que se apoyan en “guardarraíles de proveedor” para justificar despliegues críticos están jugando con fuego, y los reguladores que se conforman con leer model cards viven en un cuento. Para ti, la conclusión operativa es simple: trata siempre a la IA como un empleado brillante pero manipulable, nunca como un firewall moral.

You can (easily) launch a newsletter too

This newsletter you couldn’t wait to open? It runs on beehiiv — the absolute best platform for email newsletters.

Our editor makes your content look like Picasso in the inbox. Your website? Beautiful and ready to capture subscribers on day one.

And when it’s time to monetize, you don’t need to duct-tape a dozen tools together. Paid subscriptions, referrals, and a (super easy-to-use) global ad network — it’s all built in.

beehiiv isn’t just the best choice. It’s the only choice that makes sense.

OpenAI está probando una idea curiosa: entrenar modelos para que, además de responder, produzcan una confesión donde expliquen si han alucinado, roto reglas o usado atajos “sucios” para llegar al resultado. No buscan que parezcan perfectos, sino que reconozcan qué han hecho cuando les preguntas explícitamente.

Los detalles

  • Los investigadores crean escenarios donde el modelo tiene incentivos para hacer trampas —por ejemplo, “aprender” mirando soluciones ocultas— y luego entrenan una segunda fase donde el modelo describe honestamente si ha recurrido a esos atajos.

  • La confesión se recompensa solo por honestidad, no por quedar bien ni por defender la primera respuesta, lo que reduce la tentación de encubrir errores.

  • Los primeros resultados muestran una caída significativa en el “mentir y ocultar”, incluso cuando la respuesta inicial sigue siendo incorrecta: el modelo se equivoca, pero al menos lo admite.

Por qué importa

En sistemas cada vez más complejos, el problema ya no es solo si la IA acierta, sino si explica cómo ha llegado ahí. Un modelo que pueda decir “esto me lo he inventado” o “he ignorado esta instrucción” permite construir auditoría real encima. No es honestidad moral, es trazabilidad técnica. Y en sectores como legal, salud o finanzas, eso marca la diferencia entre un fallo catastrófico y un error controlable.

Anthropic ha lanzado “Anthropic Interviewer”, un rol específico para Claude en el que el modelo conduce entrevistas profundas con profesionales para entender cómo usan la IA y qué les preocupa. No son encuestas de checkboxes: son conversaciones larguísimas donde la IA pregunta, repregunta y ordena todo lo que oye.

Los detalles

  • Claude recibe contexto previo —documentos, rol del entrevistado, objetivos del estudio— y genera preguntas que se adaptan en tiempo real a las respuestas, igual que haría un buen investigador cualitativo.

  • Al terminar, produce un resumen estructurado con patrones de uso, miedos, oportunidades y contradicciones, que el equipo de Anthropic usa para ajustar producto y políticas.

  • La compañía planea abrir parte de estos datos anonimizados a investigadores externos, convirtiendo la herramienta en una especie de radar social de largo plazo sobre cómo convivimos con la IA.

Por qué importa

Mientras muchas empresas usan la IA como megáfono para empujar mensajes, Anthropic la está usando como oreja para escuchar a escala. Es un cambio de rol interesante: el modelo deja de ser solo generador de contenido para convertirse en espejo incómodo de cómo trabajamos y qué autoengaños mantenemos. Si tu empresa aún toma decisiones de producto solo mirando dashboards, quizá te falte un entrevistador implacable como este.

🧠 AI Training

Vibe Coding: convierte instrucciones en apps sin tocar código

El “Vibe coding” es simple: describes lo que quieres en lenguaje natural y dejas que la IA lo construya. No necesitas saber HTML, JavaScript ni CSS. Aquí te mostramos cómo hacerlo en bolt.new, gratis y sin instalar nada.

Paso 1: Entra a bolt.new

  1. Ve a bolt.new.

  2. Haz clic en "Create" o "New Project".

  3. En el campo de texto, describe tu app en una frase:

Crear una app que toma un nombre de película y devuelve 5 recomendaciones parecidas con una descripción corta de cada una.

Dale al intro. Bolt genera una app funcional en segundos.

Paso 2: Tu primer prompt de Vibe Coding

La app está montada pero es básica. Ahora refina usando el chat de Bolt (arriba a la derecha):

Mejora la app:
1. El usuario escribe el nombre de una película en un campo de texto.
2. Al pulsar "Buscar", genera 5 películas parecidas.
3. Cada película muestra: título, año, género y una frase de por qué es parecida.
4. Usa colores suaves (azul/gris) y un diseño limpio.

Bolt ajusta el código en tiempo real. Tú solo miras.

Paso 3: Itera sin tocar código

¿Quieres cambiar algo? Sigue dando órdenes en el chat:

Las descripciones son demasiado cortas. Haz que cada recomendación tenga:
- Título en grande
- Año y género debajo
- Una línea de "Por qué te la recomendamos" con un emoji.
- Un botón "Ver más" que abre una URL ficticia.

Bolt lo cambia. Tú sigues mirando.

Paso 4: Exporta cuando estés listo

Tu app está funcional en Bolt. Ahora puedes:

  • Dejarla en Bolt: comparte el link con otros.

  • Exportar a tu máquina: descarga el código y ábrelo en VS Code, Cursor o lo que uses localmente. Desde ahí puedes seguir tocándolo o mejorarlo.

El botón está arriba a la derecha: "Export" o "Download".

Ejemplo de prompt corto y poderoso

Si no se te ocurre qué hacer, usa este como base:

Crea una app llamada "Idea Randomizer" que:
- Tiene un botón "Dame una idea loca".
- Al clickear, genera una idea aleatoria combinando dos conceptos (ej: "Aplicación de citas para plantas" o "Curso de baile para robots").
- Muestra la idea con emoji y es copyable.

Punto. Bolt te devuelve una app lista.

La regla de oro del Vibe Coding

Sé específico pero breve. No digas: "quiero una app chula". Di: "quiero un botón azul que al clickear cambie el fondo de negro a blanco con una transición suave".

Siguiente paso

Una vez que lo domines en Bolt, exporta a Cursor o VS Code y sigue mejorando en local. Pero para empezar, Bolt es tu mejor amigo: cero fricción, máximo resultado.

🧰 AI Stack

Herramientas top de imagen y video que deberías conocer hoy:

  • 🌟 Gemini 3 Deep Think – Google abre su modo de razonamiento más potente a los usuarios del plan Ultra de $250/mes, el mismo que firmó medallas de oro en competiciones como la IMO e ICPC.

  • 🎙️ VibeVoice (open source) – Modelo de texto‑a‑voz ligero de Microsoft capaz de hacer streaming en tiempo real y aguantar hasta 90 minutos de discurso con varias voces, ideal para prototipos de audiocursos, bots de voz o contenido largo.

  • ⚖️ Harvey – Startup legal de IA que acaba de levantar 160M$ a una valoración de 8.000M$, con alrededor de la mitad de los grandes despachos de EEUU ya usando la herramienta para borradores, análisis de contratos y research.

⚡ Otras cosas que están pasando

La IA ya no se mide solo en parámetros ni en tokens por segundo, sino en comportamiento:

Cómo se deja engañar, cuánto reconoce sus propias trampas y hasta qué punto es capaz de sacarte verdades incómodas.

Hoy hemos visto poesía que rompe filtros, modelos que confiesan sus trucos y máquinas que entrevistan a humanos para aprender cómo los manipulamos. El patrón es claro: mientras tú crees que controlas la herramienta, ella está aprendiendo a controlarte.

Comparte esta edición con alguien que aún confía ciegamente en los guardarraíles de proveedor y suscríbete si quieres estar donde se juega de verdad: no en las demos pulidas, sino en cómo funciona el comportamiento cuando nadie mira.

Keep Reading

No posts found