El auge de las herramientas de inteligencia artificial en el último año ha tenido un impacto dramático en los especialistas en marketing digital, especialmente aquellos en SEO.
Dada la naturaleza consumidora de tiempo y costosa de la creación de contenido, los especialistas en marketing han recurrido a la IA en busca de ayuda, obteniendo resultados mixtos.
Sin tener en cuenta los problemas éticos, una pregunta que surge repetidamente es: «¿Pueden los motores de búsqueda detectar mi contenido generado por IA?»
La pregunta se considera particularmente importante porque si la respuesta es «no», invalida muchas otras preguntas sobre si y cómo debería utilizarse la IA.
Una larga historia de contenido generado por máquinas
Si bien la frecuencia de la creación de contenido generado o asistido por máquinas es sin precedentes, no es del todo nuevo y no siempre es negativo.
Es fundamental para los sitios web de noticias publicar primero las noticias de última hora, y durante mucho tiempo han utilizado datos de diversas fuentes, como los mercados de valores y los sismómetros, para acelerar la creación de contenido.
Por ejemplo, es factualmente correcto publicar un artículo automatizado que diga:
- «Se detectó un terremoto de magnitud [ ] en [ubicación, ciudad] a las [hora]/[fecha] de esta mañana, el primer terremoto desde [fecha del último evento]. Más noticias por venir.» Actualizaciones como esta también son útiles para el lector final que necesita obtener esta información lo más rápido posible.
En el otro extremo del espectro, hemos visto muchas implementaciones «blackhat» de contenido generado por máquinas.

Google ha condenado el uso de cadenas de Markov para generar texto y el contenido giratorio de bajo esfuerzo durante muchos años, bajo el estandarte de «páginas generadas automáticamente que no aportan ningún valor agregado».
Lo que resulta particularmente interesante, y en su mayoría un punto de confusión o una zona gris para algunos, es el significado de «ningún valor agregado».
¿Cómo pueden las LLM (modelos de lenguaje grandes) agregar valor?
La popularidad del contenido de IA se disparó debido a la atención recibida por los modelos de lenguaje grandes GPTx (donde x es un número) y el chatbot de IA ajustado, ChatGPT, que mejoró la interacción conversacional.
Sin entrar en detalles técnicos, hay un par de puntos importantes a considerar acerca de estas herramientas:
El texto generado se basa en una distribución de probabilidad.
- Por ejemplo, si escribes «Ser un especialista en SEO es divertido porque…», el LLM está analizando todos los tokens y tratando de calcular la palabra más probable siguiente en función de su conjunto de entrenamiento. En términos amplios, puedes pensar en esto como una versión muy avanzada del texto predictivo de tu teléfono.
ChatGPT es un tipo de inteligencia artificial generativa.
- Esto significa que la salida no es predecible. Hay un elemento aleatorio y puede responder de manera diferente a la misma solicitud.
Cuando comprendes estos dos puntos, queda claro que herramientas como ChatGPT no tienen ningún conocimiento tradicional ni «saben» nada. Esta limitación es la base de todos los errores o «alucinaciones», como se les llama.

Numerosas salidas documentadas demuestran cómo este enfoque puede generar resultados incorrectos y hacer que ChatGPT se contradiga repetidamente.
Esto plantea serias dudas sobre la consistencia de «agregar valor» con el texto escrito por IA, dada la posibilidad de alucinaciones frecuentes.
La causa raíz radica en cómo los LLM generan texto, lo cual no se resolverá fácilmente sin un nuevo enfoque.
Esta es una consideración vital, especialmente para temas de «Tu Dinero, Tu Vida» (YMYL, por sus siglas en inglés), que pueden causar daños materiales en las finanzas o la vida de las personas si son inexactos.
Grandes publicaciones como Men’s Health y CNET fueron sorprendidas publicando información generada por IA incorrecta desde el punto de vista factual este año, resaltando la preocupación.
Los editores no están solos con este problema, ya que Google ha tenido dificultades para controlar el contenido de su Experiencia Generativa de Búsqueda (SGE, por sus siglas en inglés) con contenido YMYL.
A pesar de que Google afirmó que sería cuidadoso con las respuestas generadas y llegó incluso a dar un ejemplo específico de «no mostrará una respuesta a una pregunta sobre darle Tylenol a un niño porque está en el ámbito médico», la SGE demostradamente lo haría al simplemente hacerle esa pregunta.
Google SGE y MUM
Está claro que Google cree que hay un lugar para el contenido generado por máquinas para responder a las consultas de los usuarios. Google insinuó esto desde mayo de 2021, cuando anunciaron MUM, su Modelo Unificado Multitarea.
Uno de los desafíos que MUM se propuso abordar se basó en los datos de que las personas emiten en promedio ocho consultas para tareas complejas.

En una consulta inicial, el buscador aprenderá información adicional, lo que generará búsquedas relacionadas y mostrará nuevas páginas web para responder esas consultas.
Google propuso: ¿Qué pasaría si pudieran tomar la consulta inicial, anticipar las preguntas de seguimiento del usuario y generar la respuesta completa utilizando su conocimiento del índice?
Si funcionara, si bien este enfoque podría ser fantástico para el usuario, esencialmente eliminaría muchas estrategias de palabras clave de «cola larga» o de cero volumen en las que los especialistas en SEO confían para ganar presencia en los SERP.
Suponiendo que Google pueda identificar consultas adecuadas para respuestas generadas por IA, muchas preguntas podrían considerarse «resueltas».
Esto plantea la pregunta…
¿Por qué mostraría Google a un buscador tu página web con una respuesta pregenerada cuando pueden retener al usuario dentro de su ecosistema de búsqueda y generar la respuesta ellos mismos? Google tiene un incentivo financiero para mantener a los usuarios dentro de su ecosistema. Hemos visto varios enfoques para lograr esto, desde fragmentos destacados hasta permitir que las personas busquen vuelos en los SERP.
Supongamos que Google considera que tu texto generado no ofrece un valor por encima de lo que ya puede proporcionar. En ese caso, simplemente se convierte en una cuestión de costo versus beneficio para el motor de búsqueda.
¿Pueden generar más ingresos a largo plazo absorbiendo el gasto de la generación y haciendo que el usuario espere una respuesta en comparación con enviar al usuario de manera rápida y económica a una página que ya saben que existe?
Detección de contenido de IA
Junto con la explosión del uso de ChatGPT, llegaron docenas de «detectores de contenido de IA» que le permiten ingresar contenido de texto y generarán un puntaje porcentual, que es donde radica el problema.
Aunque hay alguna diferencia en cómo varios detectores etiquetan este puntaje porcentual, casi invariablemente dan el mismo resultado: el porcentaje de certeza de que todo el texto proporcionado es generado por IA.

Esto genera confusión cuando el porcentaje está etiquetado, por ejemplo, «75% IA / 25% Humano».
Muchas personas malinterpretarán que esto significa que «el texto fue escrito en un 75 % por una IA y en un 25 % por un humano», cuando significa «Estoy 75 % seguro de que una IA escribió el 100 % de este texto».
Este malentendido ha llevado a algunos a ofrecer consejos sobre cómo modificar la entrada de texto para que «pase» un detector de IA.
Por ejemplo, usar un signo de exclamación doble (!!) es una característica muy humana, por lo que agregar esto a un texto generado por IA dará como resultado que un detector de IA dé una puntuación de «más del 99% humano».
Entonces se malinterpreta que ha «engañado» al detector.
Pero es un ejemplo del funcionamiento perfecto del detector porque el pasaje provisto ya no es generado al 100% por IA.
Desafortunadamente, esta conclusión engañosa de poder «engañar» a los detectores de IA también se confunde comúnmente con motores de búsqueda como Google que no detectan contenido de IA, lo que les da a los propietarios de sitios web una falsa sensación de seguridad.