La carrera por la verdad: cuando la IA inventa sus fuentes


Imagen del tema

Casi todos los modelos de IA generativa fabrican citas incluso cuando verificarlas requeriría una simple búsqueda. Sin verificación humana, la IA no es eficiencia: es riesgo disfrazado de productividad.

Imagina que le pides a tu asistente de IA que busque información sobre un tema y te proporcione las fuentes. Recibes un texto fluido, bien estructurado, con citas a medios prestigiosos como The New York Times, Reuters o la BBC. Parece riguroso. Parece fiable. Pero cuando haces clic en los enlaces, no existen. Las URLs llevan a páginas de error 404. Los artículos citados nunca se escribieron.

Esto es una alucinación. Y parece ser la norma. Un estudio del Tow Center for Digital Journalism de la Universidad de Columbia, publicado en marzo de 2025, analizó ocho motores de búsqueda con IA y encontró que en muchos casos las respuestas contenían citas incorrectas o engañosas. En el peor caso, Grok-3 falló el 94% de las veces. Y aquí viene lo incómodo: las versiones de pago no necesariamente rinden mejor que las gratuitas.

El problema de las alucinaciones

Una "alucinación" de IA ocurre cuando un modelo de lenguaje presenta información falsa o sin fundamento como si fuera un hecho verificado. No es un error tipográfico ni una interpretación dudosa: es ficción presentada con la misma confianza que un dato real. Y esto es lo que hace a las alucinaciones especialmente peligrosas: el modelo no duda, no advierte, no matiza. Simplemente afirma.

El estudio del Tow Center evaluó ChatGPT Search, Perplexity, Gemini de Google, DeepSeek, Copilot de Microsoft y las versiones 2 y 3 de Grok. Los investigadores seleccionaron 200 artículos de 20 medios diferentes, todos fácilmente localizables con una búsqueda convencional en Google. Luego proporcionaron extractos textuales a cada chatbot y le pidieron que identificara el titular, el medio original, la fecha de publicación y la URL.

Estos fueron los resultados:

Modelo de IA Tasa de alucinación
Perplexity 37%
Perplexity Pro 45%
Copilot 40%
ChatGPT 67%
Deepseek 68%
Gemini 76%
Grok-2 77%
Grok-3 94%

Uno de los hallazgos más problemáticos es que los chatbots rara vez admiten que no conocen una respuesta. En lugar de decir "no puedo verificar esta información", inventan respuestas que suenan plausibles pero son falsas. Esta "confianza ciega" hace extremadamente difícil para los usuarios detectar cuándo deberían ser escépticos.

Podemos probar a hacerles las mismas preguntas a varios modelos de IA. En lo que se refiere a citas y porcentajes, especialmente si están incluidas en un texto más extenso, es posible que proporcionen respuestas diferentes y a veces contradictorias.

También se ha descubierto que las versiones premium de los chatbots a veces rinden peor que las gratuitas. Las versiones de pago, según el estudio, proporcionaron «respuestas incorrectas con más confianza» que sus alternativas gratuitas.

Grok-3, disponible para suscriptores premium de X, tuvo peor desempeño que Grok-2, la versión gratuita. Este patrón se observó en otros modelos: la sofisticación adicional y los recursos computacionales no se traducían necesariamente en mayor precisión factual.

El impacto real en las organizaciones

La inexactitud es un gran riesgo para las empresas al usar IA. Es un problema que se amplifica porque los errores de IA a menudo se propagan a través de procesos en cascada: un dato falso introducido en un informe puede afectar decisiones estratégicas, comunicaciones con clientes y reportes financieros.

Las consecuencias van más allá de la ineficiencia:

  • Erosión de la confianza: cuando los usuarios descubren que la IA les ha proporcionado información falsa, pierden la confianza no solo en la herramienta, sino en la organización que la implementó.
  • Riesgos legales: en sectores regulados como salud, finanzas o legal, la información incorrecta puede tener implicaciones legales graves.
  • Ineficiencia paradójica: si los empleados no pueden confiar en los resultados de la IA, deben dedicar tiempo a verificar todo manualmente, perdiendo las supuestas ganancias de eficiencia.
  • Pérdida de habilidades: el Tow Center advierte que la percepción de la IA como "atajo al conocimiento", especialmente entre usuarios más jóvenes, podría producir una generación sin las habilidades de investigación y análisis crítico necesarias.

Estrategias de mitigación

Hay varias técnicas que pueden reducir las alucinaciones, aunque ninguna las elimina por completo:

  • RAG (Retrieval-Augmented Generation): estos sistemas anclan las respuestas de IA en información externa verificada. Cuando se recibe una consulta, el sistema primero recupera datos de una base de conocimiento curada y luego genera una respuesta basada tanto en el prompt como en esa información verificada.
  • Verificación de autoconsistencia: modelos como Gemini de Google comparan diferentes respuestas posibles contra lo que ya conocen y seleccionan la que tiene más sentido lógico.
  • Modelos especializados: la evidencia sugiere que los modelos de IA especializados para dominios específicos (medicina, derecho, finanzas) pueden alcanzar precisión casi perfecta antes que los modelos de propósito general.

Pero la estrategia más efectiva sigue siendo la más antigua: verificación humana. La IA puede ser una herramienta poderosa para el primer borrador, la generación de ideas o el procesamiento de grandes volúmenes de información. Pero cualquier dato que vaya a informar decisiones importantes debe ser verificado por un humano con acceso a fuentes primarias.

Implicaciones para equipos ágiles

Desde la perspectiva de la gestión ágil, estos hallazgos tienen implicaciones directas:

  • La IA no elimina la necesidad de revisión, la transforma. Si antes revisábamos el trabajo de un junior, ahora revisamos el trabajo de un asistente de IA. El tiempo ahorrado en producción inicial puede perderse si no hay procesos de verificación estructurados.
  • La transparencia es no negociable. Los equipos deben ser claros sobre qué contenido ha sido generado con IA y cuál ha sido verificado. Las Definition of Done deberían incluir criterios sobre validación de información generada por IA.
  • El pensamiento crítico sigue siendo core skill. En un mundo donde la IA puede generar texto convincente pero falso, la capacidad de cuestionar, verificar y evaluar fuentes se vuelve más valiosa, no menos.
  • Las métricas de productividad deben ajustarse. Medir solo velocidad de producción sin considerar precisión puede incentivar el uso irresponsable de IA. Los equipos maduros miden valor entregado, no volumen generado.

Eficiencia con responsabilidad

La IA generativa ha llegado para quedarse. Pero la carrera por la adopción no puede ignorar el problema fundamental de la fiabilidad. Las organizaciones que integren IA sin procesos robustos de verificación no están siendo innovadoras: están externalizando su control de calidad a una tecnología que, según la evidencia, falla más de la mitad de las veces en tareas básicas de citación.

La pregunta para cada equipo no es "¿usamos IA?", sino "¿cómo la usamos de forma que añada valor sin introducir riesgos inaceptables?". Y la respuesta, al menos por ahora, incluye siempre un componente humano de verificación, transparencia sobre las limitaciones de la herramienta y escepticismo saludable hacia cualquier output que no haya sido contrastado.

¿Cómo gestiona tu equipo la verificación de contenido generado por IA?

Más información

Cuando usas IA generativa para trabajo que requiere precisión (informes, documentación, comunicaciones), ¿qué nivel de verificación aplicas?

29%
2 Voto(s)
29%
2 Voto(s)
14%
1 Voto(s)
0%
0 Voto(s)
14%
1 Voto(s)
14%
1 Voto(s)
Total de votos: 7

Comentarios (1)


Jorge Sánchez López
13/12/2025 08:22

📢 Lo he leído y me parece un toque de realidad necesario.

Estamos metiendo IA en procesos como si fuese “productividad gratis”, y no. Si el output trae citas inventadas o URLs que no existen, eso no es eficiencia: es riesgo maquillado. Y lo peligroso no es solo que falle, es que falla con seguridad, sin avisar y con un tono que suena convincente. Ahí es donde la gente baja la guardia.

Desde una mirada ágil, para mí la clave es simple: la IA no elimina la revisión, la cambia de sitio. Igual que no publicarías código sin review, no deberíamos publicar un informe, una propuesta o una comunicación con datos “duros” sin verificación mínima. Y eso se puede aterrizar en proceso: Definition of Done con criterios claros (fuente primaria, enlace que abre y corresponde con lo citado, doble contraste si es crítico, y trazabilidad de quién revisa).

Y matizo algo para que el mensaje sea blindado: no es “la IA” en abstracto, es sobre todo IA usada como buscador/citador. Ahí el problema se ve rápido: si no está bien anclada a fuentes, se inventa el puente y encima te lo vende como autopista.

Yo la usaría y uso, para acelerar borradores, explorar, resumir, preparar… pero cualquier cosa que impacte decisiones, reputación o cumplimiento: verificación humana o no sale. Si no, ganamos velocidad… hacia el sitio equivocado.

¿Cómo lo estáis haciendo vosotros: DoD, checklist, revisión por pares, o cada uno “a su manera”?

Responder