¿Sabes qué es el algoritmo TF-IDF y qué importancia tiene en la calidad de los contenidos de tu blog?

El análisis e indexación que Google hace de los artículos de tu blog va más allá de cómo usas y distribuyes tus palabras clave dentro de ellos.

Y es que el buscador está contínuamente intentando hallar la manera de descifrar la intención de búsqueda de cada usuario, partiendo de la query introducida, a través de sus complejos algoritmos matemáticos.

Por ello, para que tú también entiendas cómo interpreta Google el uso de las keywords dentro de tu blog, hoy te explicaré qué es el TF*IDF, un algoritmo a través del cual podrás obtener mucha más información sobre tus palabas clave más importantes.

Pero no sólo acerca de las tuyas, sino también sobre las de tu competencia. Por último, te enseñaré cómo mejorar tu estrategia de contenidos en base a ello, ya que puede ser clave para aumentar su relevancia en los buscadores y alcanzar las primeras posiciones más rápidamente.

Qué es el TF (como parte del TF*IDF)

El significado de TF es la «frecuencia del término» en un documento. Es conocido por estas siglas en inglés («frecuency terms«), que realmente se traducen en una cantidad numérica, la cual nos va a indicar la frecuencia relativa de una palabra en concreto o una combinación de ellas.

Dicho de otra manera, se trata del número de veces que se repite una keyword (palabra o frase) determinada con respecto a la extensión total del contenido donde se encuentre ésta contenida.

Matemáticamente, logaritmo para extraerlo correctamente es:

Fórmula matemática del TF (TF-IDF)

O lo que es lo mismo:

TF = (Nº de veces que aparece la keyword) / (Nº de palabras total del contenido)

⇨ Ejemplo práctico de qué es el TF

Para que comprendas mejor este concepto y no te asuste demasiado la fórmula anterior, te pondré un caso práctico: imagínate que entras en una biblioteca, buscando libros que hablen sobre «coches de carreras«.

Si en toda la biblioteca hay un total de 12.000 libros, ya te puedes imaginar que esta expresión estrechará nuestra búsqueda bastante, ya que no todos ellos tratarán sobre esta temática, ¿verdad?

Ahora analicemos nuestra búsqueda: estamos intentando localizar documentos cuya keyword está compuesta por 3 palabras:

  • coches
  • de
  • carreras

Y de ellas, el término «de» es una de esas «STOPWORDS», como se le denomina en el ámbito del SEO y el Marketing Digital, por tanto, teóricamente será una palabra que no agregue demasiado valor o relevancia a nuestra búsqueda, dado que es una preposición repetida en prácticamente todos los textos del mundo.

Por ello, teniendo filtrada nuestra búsqueda por la cantidad total de libros que contienen la keyword buscada, para poder saber qué libros mostrar primero y «desempatar» dicha búsqueda, tendremos que afinar un poco más el criterio.

Y aquí es donde entra en juego el otro protagonista de este artículo:

Qué es el IDF

El significado de las siglas IDF es «frecuencia inversa de documento», traducido de su acepción original en inglés, «Inverse Document Frecuency«. Su función es disminuir el peso de todas las palabras que no sean relevantes y se repitan con demasiada frecuencia.

Es la segunda parte de la “fórmula mágica” y nos ayudará a corregir y completar la primera, haciéndola más sutil. En el ejemplo anterior, es la preposición «de», que no agregaría ningún valor a la búsqueda.

Su cálculo perfecciona aún más el análisis de evaluación de los términos e incluye en el cálculo la frecuencia de documentos en términos específicos.

Es decir, lo que hace es comparar todos los documentos disponibles con el nº de documentos que tienen incluida la keyword a analizar.

Aquí tienes el logaritmo o fórmula para calcular correctamente el IDF:

Fórmula del IDF para calcular el TF-IDF

En resumidas cuentas, el IDF se encarga de determinar una relevancia concreta de un texto completo, respecto a la palabra clave que queramos analizar que, simplificando queda:

IDF = (Nº de documentos totales) / (Nº de contenidos con esa keyword

Qué es el TF*IDF

TF-IDF son las siglas en inglés del concepto «Term Frecuency – Inverse Document Frecuency«, que cuantifica numéricamente la ponderación de una keyword dentro de un contenido o, como dice su definición, de una colección de documentos de texto.

Este algoritmo, como te he mostrado anteriormente, está compuesto por el TF o «frecuencia de término» y por el IDF o «frecuencia inversa de documento».

Esto, expresado de una manera menos técnica, no es más que una medida expresada en números que nos muestra la frecuencia de ocurrencia de un término en una colección de documentos de texto.

⇨ Ejemplo de cómo calcular el TF*IDF:

Vamos a ver un caso práctico para que se vea más claro. Imagínate ahora que quieres posicionar la palabra “comprar ropa barata” en un texto de 1000 palabras:

✅ TF (Frecuencia del Término) de “comprar ropa barata” es (3 / 1000) = 0,003

✅ Hay 10 millones de documentos y la palabra “comprar ropa barata” aparece en 1.000 documentos

✅ IDF (Frecuencia inversa del documento) = (10.000.000 / 1.000) = 4

✅ Por lo tanto, el valor TF*IDF revela que este término tiene una importancia de 0,003 x 4 = 0,012

Para qué sirve el algoritmo TF*IDF

Todo esto quizás te parece demasiado técnico y, realmente, imagino que te estás preguntando qué utilidad tiene esta fórmula matemática, ¿cierto?

Pues básicamente el TF*IDF te permite saber la importancia que tiene una determinada keyword en una muestra de documentos grande, por ejemplo, en todo un sitio web.

Calculando con exactitud el valor numérico de su algoritmo, puedes:

⇨ Saber si tus textos están debidamente optimizados

De esta manera, puedes saber si tu optimización de SEO On-Page es la correcta y si utilizas una densidad de palabras clave también óptima.

⇨ Te da un cálculo de la frecuencia que tiene la keyword en un documento concreto

La primera parte de la fórmula matemática, que es la frecuencia del término te permite saber este dato, teniendo en cuenta la longitud del contenido en su totalidad.

No es lo mismo que una palabra clave aparezca 5 veces en un texto de 500 palabras que en uno de 2500. La densidad cambia.

⇨ Puedes ajustar la frecuencia de las keywords según una escala logarítmica

Incluirla más veces de una cierta cantidad ya no serviría de nada. Es decir, la palabra clave principal hay que incluirla bastantes veces en un documento, para aumentar su relevancia para Google.

Sin embargo, hay un límite, el cual es interesante no sobrepasar.

¿Y quién utiliza esta fórmula?

Es importante saber por qué estamos hablando del TF*IDF, ya que esta fórmula es utilizada por Google para organizar los resultados de búsqueda y determinar cuál es más relevante para el usuario.

No utiliza exactamente las fórmulas de la que te hablé anteriormente, pero sí una variación de éstas donde (imaginamos que) contemplará muchas más variantes.

Ello le permite analizar en la inmensidad de Internet la relevancia que tiene una palabra clave en muestras gigantescas de páginas webs y sus respectivas URL’s.

Aún así, el buscador de Google utiliza una fórmula tan parecida a la TF*IDF que la hace muy interesante para que los profesionales del SEO la tengan en cuenta a al hora de generar y optimizar los contenidos digitales propios y de clientes.

Diferencias entre TF-IDF vs Densidad de palabra clave

Es posible que, tras las explicaciones que te he dado acerca del término TF*IDF, te resulte similar o incluso igual que la densidad de palabras clave.

Pero no es así, no son lo mismo, aunque guarde cierta relación.

Porque el TF*IDF no es sólo densidad de palabra clave, es mucho más que eso.

La densidad de palabras clave no es la misma para todos los temas y negocios a tratar.

 No existe una densidad de palabras clave perfecta para todos los temas y, como tal, la fórmula TF*IDF nos permite saber qué porcentaje de densidad de palabras clave puede ser la correcta para tratar un tema.   Todo ello, basándonos en una muestra grande de documentos, por ejemplo, de los 10 primeros resultados de Google. 

Eso nos permitirá analizar la densidad de palabras clave de una muestra grande de documentos y la importancia de la misma para determinar si nosotros debemos aumentar o reducir la densidad de la palabra clave en nuestro sitio web/documentos.

Así, podemos saber la relevancia de un documento en concreto para una keyword.

Obtendrás un TF*IDF alto cuando la frecuencia de una palabra clave en una página sea mayor, pero si el número de documentos que lo mencionan es bajo el número será menor.

Cómo usar el TF*IDF para optimizar un contenido para SEO

¿Quieres crear los mejores textos para tu web o negocio y no sabes cómo aplicar el TF*IDF correctamente?

¿Necesitas actualizar una web antigua, donde el texto ha sido escrito por un «cavernícola»?

La fórmula TF*IDF te puede ayudará para saber qué términos o palabras clave utilizar y la densidad de la misma.

A día de hoy, existen varias herramientas que lo hacen de forma automática, como son

» SEOBILITY

Realmente, ésta es una de las herramientas más fáciles de usar para averiguar tu propio TF-IDF, dado que con tan sólo registrarte en la versión gratuita de prueba, podrás investigar hasta 10 keywords.

Seobility únicamente te pedirá la palabra clave y la URL desde donde quieres analizar esa keyword principal.

Por ejemplo, en mi caso he elegido «marketing de contenidos» y mi guía de «¿Qué es el Marketing de Contenidos o Content Marketing?«, entrando desde la sección «Home > TF*IDF Tool«:

SEOBILITY para calcular el TF*IDF

What does the tf-idf metric from on page seo checker show

Esto te da la idea general de qué y cómo debes cambiar (o mantener) en tus contenidos, en función del resultado que vaya dándote la herramienta, así como de los factores TF y IDF de cada keyword utilizada.

Puedes usar su versión FREE algo limitada o bien COMPRARLA CON ESTE DESCUENTO en su misma web.

» SEOLYZE

Otra de las herramientas más potentes del mercado actualmente para el cálculo y análisis de este término es SEOlyze, la cual, bajo el mismo ejemplo anterior, te devuelve una gran cantidad de datos.

Ésta, además de mostrarte gráficamente la frecuencia y relevancia de cada una de tus palabras más recurrentes en el texto, también te da sugerencias de mejoras, como ves en esta imagen:

SEOLYZE sugerencias para mejorar tus contenidos

Algo que me parece sencillamente genial, dado que si no estamos demasiado familiarizados aún a usar la herramienta ni el concepto de TF*IDF, nos será complicado descifrar lo que nos muestran sus gráficos.

Pero además, lo que hace SEOlyze es que, en base a esas palabras más repetidas dentro de nuestro contenido, nos muestra cómo tratan esas keywords nuestros competidores. Concretamente el TOP10 actual de Google:

Te recomiendo que la pruebes, aunque sea durante sus 30 días de prueba gratuitos y analices tus contenidos más importantes, para así darle esos retoques que quizás podrían auparte a las posiciones de privilegio del buscador.

Conclusión

Ahora que ya sabes qué es el TF-IDF y el papel tan crucial que juega en la optimización de tus contenidos, ¿a qué esperas? Ya puedes ponerte manos a la obra y analizar el contenido de tu web respecto a tus competidores.

De esta forma, lograrás optimizarlo en función de cómo te va a analizar posteriormente el crawler de Google y así darle señales de que «mereces» esos primeros puestos.

Incluir tu palabra clave “tropecientas” veces en tu web ya no sirve, debes hacerlo de forma natural, pero sobre todo, de manera MÁS PROFESIONAL.

A pesar de todo, debo puntualizar que el TF*IDF es un valor más en tu estrategia de posicionamiento. Es importante, pero el único. Que la densidad de palabras clave no sea tu único factor o técnica de posicionamiento web.

Saber este dato es importante, pero también es interesante saber la frecuencia correcta tanto en el propio documento como en todo el sitio web que queremos posicionar en los buscadores, como ya hemos visto.

Este cálculo y posterior análisis del algoritmo TF*IDF, junto a un completo KeyWord Research es el que yo utilizo en la gestión de blogs de mis clientes, dentro de mis servicios como Consultor de Marketing de Contenidos.

Podrán existir otros métodos, pero de momento a mí y a mis clientes nos va de maravilla y estamos consiguiendo posicionar multitud de keywords interesantes de nuestro negocio en tiempo récord.

Y tú, ¿conocías cómo calcular el algoritmo TF*IDF?

¿Cómo llevas a cabo tú la optimización de los contenidos de tu Blog? 

Imágenes principales (business) By Shutterstock.

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (5 votos, promedio: 5,00 de 5)
Cargando…

Consultor de Marketing Digital, especializado en Marketing de Contenidos y Posicionamiento SEO. Como profesional freelance, me dedico principalmente a GESTIONAR BLOGS CORPORATIVOS, para que éstos adquieran una mayor visibilidad en Internet. Me considero un blogger imparable, por la pasión que me une a generar contenidos digitales.
Soy el fundador, administrador y autor de este Blog, además de otros proyectos como la revista digital "Marketeros de Hoy". Además de todo esto, soy Ingeniero Industrial Aeronáutico y amante del fisioculturismo.

    » Búscame en las redes sociales:
  • facebook
  • linkedin
  • skype
  • twitter