El Secreto de las Tildes en Google

Fran Fernández - 14 de Julio de 2006

Aproximación del funcionamiento de Google al tratamiento de las tildes y mayúsculas, y cómo aprovecharlo para mejorar la calidad de búsquedas y todo lo relacionado con la optimización en buscadores.

Una de las preguntas más habituales y con respuestas realmente opuestas que podemos encontrar sobre búsquedas en Google: ¿diferencia las tildes?

No es difícil encontrar las dos opiniones:

  • Google no diferencia entre buscar con tilde o sin ella: los resultados son los mismos.
  • Google entiende como búsquedas diferentes una consulta con tilde y una consulta sin ella: los resultados varían.

Ambas respuestas son correctas y a la vez erróneas. Depende del caso como veremos a cotinuación.

En muchas ocasiones he leído que para posicionar por una búsqueda con tilde es mejor no utilizarla porque la mayoría de los usuarios realizan sus consultas sin poner las tildes y nos dificulta el posicionamiento. Hace poco encontraba una pregunta en forosdelweb sobre este tema; llevaba a un viejo tema de forobuscadores; llegaba a un antiguo post del blog trucos de Google que me condujo a comentarios de hace ya 4 años.

No he encontrado mucho más sobre esto ni la respuesta correcta. Lo que cuento a continuación me vino a la mente tras leer algún artículo de recuperación de la información del Dr. E. Garcia (orion) y en el proceso de estudio de diferentes búsquedas me fue de gran utilidad una curiosa lista de palabras raras encontradas en Internet.

Hay que tener en cuenta que en el momento que este documento sea indexado en Google los resultados estarán alterados, es por ello que, en lugar de dar enlaces directos a cada búsqueda en Google, voy a enlazar capturas de pantallas en el momento de realizar las consultas.

Tokenización

A falta de una mejor traducción vamos a usar el término tokenización con cierta frecuencia. Los que estén familiarizados con la programación sabrán a que nos referimos. Lo entenderemos como el proceso de transformar una cadena de caracteres de entrada, en una cadena de caracteres de salida. Algunos ejemplos, la primera columna refleja la cadena de entrada y la segunda la cadena de salida:

Camióncamion
ESDRÚjulaesdrujula
teléfono MÓVILtelefono movil

La idea es hacer el mismo tratamiento para todos los caracteres equivalentes. Las mayúsculas se transforman en minúsculas y las letras con tilde se transforman en letras sin tilde.

Casos Simples

Para poder estudiar de forma adecuada el tratamiento de las tildes debemos centrarnos en lo casos más simples que podamos encontrar. Cuanto mayor número de resultados tenga una consulta en Google, cuanto más frecuente sea, más probable es que esté alterada por otros factores que nos puedan llevar a engaño en las conclusiones que queremos extraer.

Una palabra que esté escrita en un documento con tilde: la elección es clavencéfalo. Un caso muy básico ya que Google sólo recoge una ocurrencia con tilde.

La primera evidencia: la búsqueda sin tilde no tiene en cuenta ocurrencias con tilde.

¿Por qué puede suceder esto?

Ahora encontremos una palabra que no tenga ocurrencias con tildes, y realizaremos la búsqueda con tilde a ver que sucede. La escogida es ulcoate.

Ya tenemos una primera respuesta: tokenización.

Cuando realizamos la búsqueda con tilde Google parece aplicar tokenización a nuestra consulta y a todos los documentos que tienen ocurrencias que los hacen relevantes. Este sería un proceso normal como parte de recuperación de la información. La idea sería devolver los mismos resultados ante búsquedas con tildes que sin tildes.

El problema de la tokenización que se está realizando es que no toma en cuenta las palabras con tilde cuando estamos búscando sin tilde, lo que puede provocar una gran variación en los resultados.

En casos simples podemos observar que esto se cumple siempre. Cuando las búsquedas son más complejas, son las relaciones semánticas y el comportamiento de usuarios al realizar búsquedas las que hacen que una palabra con tilde y sin tilde sean equivalentes en cuanto a resultados, pero nunca exactamente los mismos, porque al buscar sin tilde se está dando un tratamiento de palabras diferentes a la versión acentuada y la que está sin acentuar. Sin embargo, cuando realizamos la búsqueda con tilde, hablamos de la misma palabra ya que se aplicaría tokenización.

Sólo llevamos dos ejemplos, por lo que podría ser precipitado establecer estas conclusiones, pero podemos comprobar que se cumple siempre para casos pequeños. Cómo demostración vamos a utilizar la palabra fuerrelería, que lleva una tilde, pero en la que encontraremos documentos en los que la palabra no la lleva.

Basándonos en lo que hemos dicho hasta ahora cuando realizamos la búsqueda con tilde tendremos un mayor número de resultados, se aplicaría tokenización y se nos mostrarían los resultados con tilde y sin tilde. Podemos observar que hay 141 resultados cuando buscamos con tilde, mostrando tanto aquellos en los que la palabra lleva la tilde como en los que no. Si realizamos la búsqueda sin tilde nos encontramos con 39 resultados, en los que no estará puesta la tilde.

Entenderíamos entonces que hay 102 resultados que están escritos con tilde. ¿Como comprobarlo? Hasta ahora estamos usando búsquedas findall (Referencia), si pasamos a utilizar búsquedas exactas (utilizando comillas), podemos tener los resultados exactos de la forma en las que están escritas las palabras. Ejemplos:

Una consulta curiosa sería calcular el número de documentos que llevan la tilde puesta con una consulta directa en Google, como antes decíamos por nuestras cuentas serían 102 (ya demostrado con la consulta con comillas). Lo que tendríamos que hacer es restar al número total de ocurrencias (con tilde y sin ella) el número exacto de ocurrencias sin tilde (utilizando las comillas) y el resultado es el siguiente: furrielería -"furrieleria", con una respuesta casi exacta (el "-" parece que provoca la variación en los casos que he probado).

Si ahora comprobamos que pasa al variar mayúsculas y minúsculas como en el caso de las tildes, podemos ver que las palabras siguen siendo consideradas exactamente las mismas, por lo que el tipo de tokenización es diferente.

Podemos comprobar que se cumple siempre de forma exacta en búsquedas con pocos resultados y de forma aproximada en búsqueda con miles de resultados. Cuando hablamos de millones de resultados hay muchos más factores a tener en cuenta.

Búsquedas más Complejas

En búsquedas con muchos resultados hay varios factores que nos pueden despistar a la hora de analizar este tipo de resultados. Los he visto analizados en ocasiones, sin poder llegar a conclusiones, ya que hay otros factores, ya sean algoritmos de presentación de resultados o simplemente son algo separado del algoritmo de ordenación de Google. Enumerados a continuación:

  • Si realizamos la búsqueda crustázeos escribiéndo la palabra con z, nos hace una sugerencia de palabra. A veces con tilde, a veces sin tilde. Esto no tiene nada que ver con lo hablado anteriormente. En este caso Google coteja la palabra o conjunto de palabras por la que se realiza la consulta contra una base de datos en un período de tiempo dado en la que se buscan ocurrencias similares que sean frecuentes.
  • Ahora probamos con Camion vemos que la primera página que sale listada tiene la keyword en la URL y es resaltada, sin embargo si la búsquedas se hace con tilde no se resalta. El tratamiento para resaltar la url en negrita es diferente y no hay nada que haga pensar que esté relacionado con el algoritmo de ordenación de documentos. En este caso el tratamiento vuelve a ser correcto entre mayúsculas y minúsculas.
  • Otro caso es el comportamiento de búsqueda del usuario, que en búsquedas frecuentes altera los resultados y puede hacernos pensar que la tokenización de la que estamos hablando no es válida. En el ejemplo anterior se puede ver que independientemente de si se busca con tilde o sin ella siempre se resalta la keyword camión en los títulos o en los snippets, esto pasa porque son palabras claramente relacionadas entre ellas (está explicado en el blog guia buscadores).
  • Las relaciones semánticas que Google sea capaz de establecer entre palabras también alterarían las consultas con miles de resultados.
  • Cuando hay varias palabras en la consulta es mucho más difícil establecer el funciomamiento y nos puede llevar a conclusiones erróneas.
  • Si las keywords se escriben igual en diferentes idiomas. Por ejemplo, establecer conclusiones con palabras como hotel es realmente complejo, ya que en algunos lugares existen variaciones del estilo "hötel" y similares.

Conclusiones

Las búsquedas con tilde en Google son más completas: incluyen un mayor número de resultados. Principalmente son útiles cuando estamos realizando búsquedas que devuelven muy pocos resultados o bien que son muy poco frecuentes.

La tokenización para mayúsculas es muy superior al tratamiento de las tildes.

En cualquier trabajo de posicionamiento en buscadores hay que utilizar siempre tilde, es lo correcto para el usuario y debería ser más beneficioso para buscadores tan pronto se aplica el comportamiento de búsqueda del usuario y relaciones entre las palabras clave.

A tener en Cuenta

En los Adwords también hay variaciones.

Búsquedas con todo en mayúsculas y acentos son siempre más completas.

Hilo en el foro de Xeoweb sobre comentarios de este artículo

Servicios
Boletines y Artículos
Últimos Artículos
Enlaces

© 2003-2011 Fran Fernández.
Todos los derechos reservados.

Aviso Legal

Valid XHTML 1.0! Strict Valid CSS!

Xeoweb se renueva
  • En octubre se ha cambiado el foro.
  • A finales de noviembre nos mudamos de hosting.
  • En 2013 se renovará la web.
  • Para contactos sobre servicios actuales consultar por correo.
Sobre intercambios
  • Se ha procedido a avisar de la cancelación de todos los intercambios de enlaces que todavía quedaban activos de los años 2004 y 2005. Todos los enlaces salientes de intercambios con la nueva versión de la web serán eliminados. Espero que no se me haya olvidado avisar a nadie que lo mantuviese activo, si fuese así lo lamento. A partir de diciembre desaparecerán los enlaces.
Servicios Actuales en 2013
  • Consultoría SEO
  • Informes SEO
  • Revisión de Enlaces
  • Estrategias de contenido
  • Gestión GWT
XeoWeb
  • Consultor SEO con 10 años de experiencia ofreciendo servicios especializados en posicionamiento orgánico.
E-mail de Contacto
  • info[arroba]xeoweb[punto]com