Comunidad
Casi todos los modelos de IA generativa fabrican citas incluso cuando verificarlas requeriría una simple búsqueda. Sin verificación humana, la IA no es eficiencia: es riesgo disfrazado de productividad.
Imagina que le pides a tu asistente de IA que busque información sobre un tema y te proporcione las fuentes. Recibes un texto fluido, bien estructurado, con citas a medios prestigiosos como The New York Times, Reuters o la BBC. Parece riguroso. Parece fiable. Pero cuando haces clic en los enlaces, no existen. Las URLs llevan a páginas de error 404. Los artículos citados nunca se escribieron.
Esto es una alucinación. Y parece ser la norma. Un estudio del Tow Center for Digital Journalism de la Universidad de Columbia, publicado en marzo de 2025, analizó ocho motores de búsqueda con IA y encontró que en muchos casos las respuestas contenían citas incorrectas o engañosas. En el peor caso, Grok-3 falló el 94% de las veces. Y aquí viene lo incómodo: las versiones de pago no necesariamente rinden mejor que las gratuitas.
Una "alucinación" de IA ocurre cuando un modelo de lenguaje presenta información falsa o sin fundamento como si fuera un hecho verificado. No es un error tipográfico ni una interpretación dudosa: es ficción presentada con la misma confianza que un dato real. Y esto es lo que hace a las alucinaciones especialmente peligrosas: el modelo no duda, no advierte, no matiza. Simplemente afirma.
El estudio del Tow Center evaluó ChatGPT Search, Perplexity, Gemini de Google, DeepSeek, Copilot de Microsoft y las versiones 2 y 3 de Grok. Los investigadores seleccionaron 200 artículos de 20 medios diferentes, todos fácilmente localizables con una búsqueda convencional en Google. Luego proporcionaron extractos textuales a cada chatbot y le pidieron que identificara el titular, el medio original, la fecha de publicación y la URL.
Estos fueron los resultados:
| Modelo de IA | Tasa de alucinación |
|---|---|
| Perplexity | 37% |
| Perplexity Pro | 45% |
| Copilot | 40% |
| ChatGPT | 67% |
| Deepseek | 68% |
| Gemini | 76% |
| Grok-2 | 77% |
| Grok-3 | 94% |
Uno de los hallazgos más problemáticos es que los chatbots rara vez admiten que no conocen una respuesta. En lugar de decir "no puedo verificar esta información", inventan respuestas que suenan plausibles pero son falsas. Esta "confianza ciega" hace extremadamente difícil para los usuarios detectar cuándo deberían ser escépticos.
Podemos probar a hacerles las mismas preguntas a varios modelos de IA. En lo que se refiere a citas y porcentajes, especialmente si están incluidas en un texto más extenso, es posible que proporcionen respuestas diferentes y a veces contradictorias.
También se ha descubierto que las versiones premium de los chatbots a veces rinden peor que las gratuitas. Las versiones de pago, según el estudio, proporcionaron «respuestas incorrectas con más confianza» que sus alternativas gratuitas.
Grok-3, disponible para suscriptores premium de X, tuvo peor desempeño que Grok-2, la versión gratuita. Este patrón se observó en otros modelos: la sofisticación adicional y los recursos computacionales no se traducían necesariamente en mayor precisión factual.
La inexactitud es un gran riesgo para las empresas al usar IA. Es un problema que se amplifica porque los errores de IA a menudo se propagan a través de procesos en cascada: un dato falso introducido en un informe puede afectar decisiones estratégicas, comunicaciones con clientes y reportes financieros.
Las consecuencias van más allá de la ineficiencia:
Hay varias técnicas que pueden reducir las alucinaciones, aunque ninguna las elimina por completo:
Pero la estrategia más efectiva sigue siendo la más antigua: verificación humana. La IA puede ser una herramienta poderosa para el primer borrador, la generación de ideas o el procesamiento de grandes volúmenes de información. Pero cualquier dato que vaya a informar decisiones importantes debe ser verificado por un humano con acceso a fuentes primarias.
Desde la perspectiva de la gestión ágil, estos hallazgos tienen implicaciones directas:
La IA generativa ha llegado para quedarse. Pero la carrera por la adopción no puede ignorar el problema fundamental de la fiabilidad. Las organizaciones que integren IA sin procesos robustos de verificación no están siendo innovadoras: están externalizando su control de calidad a una tecnología que, según la evidencia, falla más de la mitad de las veces en tareas básicas de citación.
La pregunta para cada equipo no es "¿usamos IA?", sino "¿cómo la usamos de forma que añada valor sin introducir riesgos inaceptables?". Y la respuesta, al menos por ahora, incluye siempre un componente humano de verificación, transparencia sobre las limitaciones de la herramienta y escepticismo saludable hacia cualquier output que no haya sido contrastado.
¿Cómo gestiona tu equipo la verificación de contenido generado por IA?
Más información
Votos: 7
Jorge Sánchez López 13/12/2025 08:22
Estamos metiendo IA en procesos como si fuese “productividad gratis”, y no. Si el output trae citas inventadas o URLs que no existen, eso no es eficiencia: es riesgo maquillado. Y lo peligroso no es solo que falle, es que falla con seguridad, sin avisar y con un tono que suena convincente. Ahí es donde la gente baja la guardia.
Desde una mirada ágil, para mí la clave es simple: la IA no elimina la revisión, la cambia de sitio. Igual que no publicarías código sin review, no deberíamos publicar un informe, una propuesta o una comunicación con datos “duros” sin verificación mínima. Y eso se puede aterrizar en proceso: Definition of Done con criterios claros (fuente primaria, enlace que abre y corresponde con lo citado, doble contraste si es crítico, y trazabilidad de quién revisa).
Y matizo algo para que el mensaje sea blindado: no es “la IA” en abstracto, es sobre todo IA usada como buscador/citador. Ahí el problema se ve rápido: si no está bien anclada a fuentes, se inventa el puente y encima te lo vende como autopista.
Yo la usaría y uso, para acelerar borradores, explorar, resumir, preparar… pero cualquier cosa que impacte decisiones, reputación o cumplimiento: verificación humana o no sale. Si no, ganamos velocidad… hacia el sitio equivocado.
¿Cómo lo estáis haciendo vosotros: DoD, checklist, revisión por pares, o cada uno “a su manera”?