¿Qué es una URL canonical y cómo se usa en una estrategia SEO?

22 de Junio, 2020
Descubre qué es una URL canonical, un elemento HTML que ayuda a evitar problemas de contenido duplicado.

Una URL canonical es una herramienta clave para afrontar el contenido duplicado de una página web, algo que como la canibalización afecta al posicionamiento de la misma en las páginas de resultados (SERPs) de los buscadores.

Su importancia es tal que los principales portales de búsqueda como Google, Microsoft y Yahoo se unieron para crearlas con el fin de solucionar los problemas de contenido fácil y rápidamente.

Qué es una URL canonical

Una etiqueta canonical (rel=“canonical”) es un fragmento HTML del código fuente que define la versión principal para páginas duplicadas, casi duplicadas y similares. Es decir, si tienes un contenido disponible en distintas URLs que sea igual o similar entre sí, puedes utilizar estas etiquetas para señalar cuál es la versión principal que tendría que ser indexada.

Cómo se ve una etiqueta rel=canonical

La sintaxis de las etiquetas canonical, que se sitúan en la sección <head> de la página web, es la siguiente:

Así, cada parte de dicho código significa lo siguiente:

  • link rel=“canonical”: el enlace en esta etiqueta es la versión maestra (canonical) de esta página.
  • href=“https://mipaginaweb.com/ejemplo/”: la versión canonical se puede encontrar en esta URL.

Por qué las etiquetas canonical son importantes para el SEO

De todos es sabido que a los buscadores no les gusta para nada el contenido duplicado, porque los obliga a decidir:

  • Qué versión de una página indexar.
  • Qué versión de una página posicionar para consultas relevantes.
  • Si deben consolidar el link juice (o link equity) en una página o dividirlo entre varias versiones.

Así, tener mucho contenido duplicado afectará al crawl budget, por lo que el buscador perderá tiempo rastreando diferentes versiones de tu misma página en vez de descubrir otro tipo de contenido más importante en la misma.

Además, si no especificas una URL canonical, el propio buscador identificará lo que crea que es la mejor versión o URL de un contenido. Esto no es recomendable porque podría seleccionar una versión que no quieras que sea canonical.

Mejores prácticas de canonicalización

Existen cinco puntos importantes que tendrías que tener en cuenta a la hora de canonicalizar una URL.

1. Usar URLs absolutas

El mismísimo John Mueller de Google afirma que es aconsejable no utilizar caminos relativos con el elemento de enlace rel=”canonical”. Por lo tanto, deberías usar la estructura siguiente:

En vez de:

2. Utilizar URLs en minúsculas

Puesto que los buscadores tratan a las URLs en mayúsculas y minúsculas como URLs distintas, deberías asegurarte de forzar las URLs en minúsculas en el servidor y después usarlas en las etiquetas canonical.

3. Emplear la versión correcta de dominio (HTTPS vs HTTP)

En el caso de que hayas cambiado a SSL, tienes que asegurarte de no declarar ninguna URL no-SSL (esto es, HTTP) en las etiquetas canonical porque podría confundir y provocar situaciones inesperadas. Por ello, si te encuentras en un dominio seguro debes asegurarte de usar la siguiente versión de la URL:

En vez de:

4. Usar etiquetas canonical autorreferenciales

Aunque las etiquetas canonical autorreferenciales no son obligatorias, su uso sí que es recomendable, como bien indica nuevamente John Mueller. Estas funcionan como una etiqueta canonical en una página que apunta a sí misma. Por ejemplo si la URL fuera:

Entonces una URL canonical autorreferencial sería:

En la actualidad, casi todos los CMS (como Acai Shop, WordPress, PrestaShop, Joomla o Wix, entre otros) añaden URLs autorreferenciales de forma automática.

5. Utilizar solo una etiqueta canonical por página

Si una página tiene diferentes etiquetas canonical, los buscadores las ignorarán.

Cómo implementar etiquetas canonical

Existen cinco modos de especificar URLs canonical, que se conocen como señales de canonicalización.

1. Etiqueta HTML rel=“canonical”

Esta es la forma más obvia y sencilla de especificar una URL que sea canonical. Tan solo hay que añadirla a la sección <head> de la página elegida:

2. HTTP header

En ciertos documentos, como los archivos PDF, no hay forma de establecer etiquetas canonical en el header de la página porque, básicamente, no tienen sección <head>. En estos casos hay que utilizar el HTTP header para colocar la canonical.

3. Sitemap

Las páginas no-canonical no deben ser listadas en los mapas del sitio, puesto que los buscadores consideran a las páginas incluidas en el sitemap como canonicals sugeridas.

4. Redirección 301

Como vimos con anterioridad en el artículo de la canibalización SEO, usar redirecciones 301 es una gran manera de desviar el tráfico de una URL con contenido duplicado o similar hacia una URL que sea canonical.

5. Links internos

El modo en que se enlaza entre páginas en tu sitio es una señal de canonicalización. De nuevo, John Mueller lo explica bastante bien en el siguiente vídeo:

 

A mayor consistencia con estas señales, más fácil le resultará a los motores de búsqueda decidir la URL canonical ideal.

Cómo evitar errores comunes de canonicalización

Como este tema es un poco complejo, evita los siguientes errores a la hora de canonicalizar URLs.

1. Bloquear la URL canonicalizada por robots.txt

Si bloquear una URL en robots.txt solo conseguirás que Google no la rastree y que no vea ninguna etiqueta canonical en dicha URL. Esto impide el traspaso de link juice desde la URL no-canonical a la canonical.

2. Configurar la URL canonicalizada como ‘noindex’

Jamás se deben mezclar ‘noindex’ con rel=“canonical”, ya que son órdenes contradictorias. Si lo que no quieres es indexar pero sí canonicalizar una URL lo ideal es utilizar una redirección 301.

3. Establecer un código de estado HTTP 4XX para la URL canonicalizada

Esta práctica tiene el mismo resultado que el apartado anterior. El buscador no verá la etiqueta canonical y traspasará link juice a la versión canonical.

4. Canonicalizar todas las páginas paginadas a la principal

Las páginas paginadas no se deben canonicalizar a la primera página de la serie, sino que deben usarse canonicals autorreferenciales en todas las páginas paginadas. Asimismo, utilizar etiquetas rel=prev/next es un plus.

5. No usar etiquetas canonical con hreflang

Las etiquetas hreflang se emplean para especificar el idioma y la zona objetivo de una página web. Así, hay que utilizar una página canonical en el mismo idioma o el mejor idioma sustituto posible si no hay una canonical para el mismo idioma.

6. Tener muchas etiquetas rel=canonical

Si tienes múltiples etiquetas rel=canonical en una URL el buscador las ignorará, ya que se incorporan a un sistema en distintos puntos. Esto también puede ocurrir con las canonicals agregadas con JavaScript.

Y es que si no tienes una URL canonical determinada en la respuesta HTML y después añades una etiqueta rel=canonical con JavaScript esta debería ser respetada cuando el buscador renderice la página.

No obstante, si cuentas con una canonical especificada en HTML e intercambias la versión preferida con JavaScript, el resultado es que estarás enviando señales confusas al buscador.

7. Rel=canonical fuera de <head>

La etiqueta rel=canonical solo debería aparecer en el <head> de un documento, puesto que de lo contrario será ignorada e incluso podría provocar errores más complejos a la URL.

Cómo encontrar y solucionar problemas de canonicalización

Ya que cometer errores de canonicalización es muy común, lo ideal es auditar el sitio web con regularidad para afrontar dichos problemas. Varios de estos errores que “cantan” las herramientas de auditorías son los siguientes.

1. Canonical apunta a 4XX

Es una advertencia que se activa si una o más páginas son canonicalizadas a una URL 4XX, ya que los motores de búsqueda no indexan páginas 4XX porque no funcionan. Por ello, ignoran toda etiqueta canonical que apunte a dichas páginas y acaban indexando la versión incorrecta (no-canonical) de la misma.

Para arreglarlo hay que revisar las páginas afectadas y reemplazar los enlaces canonicals muertos (4XX) por enlaces a páginas que funcionen (200) que quieras indexar.

2. Canonical apunta a 5XX

Es una advertencia que se activa si una o más páginas son canonicalizadas a una URL 5XX, puesto que los códigos de estado HTTP 5XX avisan de problemas en el servidor, que resultan en una página canonical inaccesible. Es poco probable que el buscador indexe páginas inaccesibles, así que podría ignorar el código canonical.

Para solucionarlo solo hay que reemplazar cualquier URL canonical errónea con URL válidas. Luego hay que comprobar si hay configuraciones erróneas en el servidor si la canonical especificado parece correcta. Esto puede ser un problema temporal si el rastreo se produjo cuando el sitio se estaba caído por mantenimiento o el servidor estaba sobrecargado.

3. Canonical apunta a redirección

Es una advertencia que se activa si una o más páginas son canonicalizadas a una URL redireccionada, debido a que las canonicals tienen que señalar la versión con mayor autoridad de una página. Esto no ocurre con la redirección de URLs. Así, los motores de búsqueda pueden malinterpretar o ignorar la misma.

Para arreglarlo hay que reemplazar los enlaces canonicals por enlaces directos a la versión con mayor autoridad de la página (en otras palabras, a una que devuelva un código de estado HTTP 200 y no redireccione).

4. Páginas duplicadas sin canonical

Es una advertencia que se activa si hay una o más páginas duplicadas o muy similares que no especifican una versión canonical porque el buscador intentará identificar la versión más idónea para mostrarla en los resultados de búsqueda. Y es posible que esta no sea la versión que se quiera indexar.

Para arreglarlo hay que revisa los grupos de duplicados, escoger una versión canonical que deba ser indexada en los resultados de búsqueda y especificar ésta como la versión canonical en todos los duplicados (y agregar una etiqueta canonical autorreferencial a la versión canonical).

5. Hreflang a no-canonical

Es una advertencia que se activa si una o más páginas especifican una URL no canonical en sus anotaciones de hreflang, pues los enlaces en las etiquetas hreflang siempre tienen que apuntar a las páginas canonicals. Y es que enlazar a una versión no-canonical de una página desde las anotaciones de hreflang podría confundir y despistar a los motores de búsqueda.

Para solucionarlo basta con sustituir los enlaces en las anotaciones de hreflang de las páginas afectadas por su canonical.

6. URL canonical no tiene enlaces internos entrantes

Es una advertencia que se activa si una o más URLs canonical especificadas no disponen de enlaces entrantes internos, ya que las URLs canonical huérfanas son inaccesibles para los visitantes del sitio web. En algún lugar del sitio hay que dirigirlas a una versión no-canonical de la página.

Para arreglarlo tan solo hay que reemplazar cualquier enlace interno a páginas canonicalizadas con enlaces directos a la canonical.

7. Página no-canonical en sitemap

Es una advertencia que se activa si una o más páginas no-canonical aparecen en el sitemap, puesto que los buscadores piensan que no se deben incluir URLs no-canonical en el sitemap. El motivo es que ven las páginas de los mapas del sitio como sugerencias canonical, así que solo se deberían incluir en los sitemaps las páginas que se quieran indexar.

Para solucionarlo solamente hay que eliminar las URLs no-canonical del sitemap.

8. Página no canonical especificada como canonical

Es una advertencia que se activa si una o más páginas especifican una URL que sea canonical que también es canonicalizada a una página distinta. Esto ocasiona una “cadena de canonicals” donde la página A es canonicalizada a la página B, que simultáneamente es canonicalizada a la página C.

Estas cadenas canonicals confunden y engañan a los buscadores, lo que podría resultar en que malinterpreten o ignoren sus especificaciones.

Para arreglarlo hay que sustituir los enlaces no canonical en las etiquetas canonical de las páginas afectadas por enlaces directos a la canonical. Por ejemplo, en el caso anterior solo habría que reemplazar el enlace canonical de la página A por un enlace a la página C.

9. URL de Open Graph no coincidente con canonical

Es una advertencia que salta si existe un desajuste entre la canonical especificada y la URL de Open Graph en una o más páginas, debido a que si la URL del Open Graph no coincide con la URL canonical, no se compartirá una versión no canonical de una página en RR.SS.

Para solucionarlo se debe reemplazar la URL de Open Graph en las páginas afectadas por la canonical. Además hay que asegurarse de que las dos URLs sean las mismas, que sean absolutas y que utilicen los protocolos https:// o https://.

10. Canonical de HTTPS a HTTP

Es una advertencia que se activa si una o más páginas seguras (HTTPS) especifican una versión no segura (HTTP) como la canonical y, puesto que el primero es un factor de posicionamiento, tiene todo el sentido especificar versiones seguras de las páginas como canonicals siempre que sea posible.

Para arreglarlo se tiene que redirigir la página HTTP al equivalente HTTPS. Si no fuera posible, habría que añadir un enlace rel=canonical de la versión HTTP de la página a la HTTPS.

11. Canonical de HTTP a HTTPS

Es una advertencia que se activa si una o más páginas no seguras (HTTP) especifican una versión segura (HTTPS) como la canonical, pues siempre es preferible HTTPS a HTTP. Y es que tener una versión HTTP de una página y después especificar la versión HTTPS como canonical es ilógico.

Para solucionarlo habría que implementar una redirección 301 de HTTP a HTTPS. También habría que sustituir cualquier enlace interno a la versión HTTP de la página con enlaces directamente a la versión HTTPS.

12. Páginas no-canonicals reciben tráfico orgánico

Es una advertencia que se activa si una o más páginas no-canonicals salen en los resultados de búsqueda y consiguen tráfico de búsqueda orgánico (lo que no debería pasar).

Y es que, o las etiquetas de la URL canonical están mal configuradas o el buscador ha decidido ignorar la canonical especificada.

Para arreglarlo se tiene que comprobar que las etiquetas rel=canonical estén bien configuradas en todas las páginas reportadas. En caso contrario, hay que usar la herramienta de inspección de URL de Google Search Console para verificar si consideran que la URL canonical especificada es canonical realmente.

Conclusión

Como habrás podido comprobar, las etiquetas canonical no son tan complicadas de entender después de haber leído un artículo como este, ¿verdad? Tan solo hay que tener siempre en cuenta que estas etiquetas no son una directiva sino una señal para los buscadores. Y es que, después de todo, estos podrían escoger una canonical distinta a la que hayas establecido. Ahora ya lo sabes todo sobre qué es una URL canonical.

Comentarios
No hay comentarios

Artículos relacionados