Canonização de URLs

Canonizar URLs possui dois significados, pode se tratar de não permitir URLs diferentes com o mesmo conteúdo no seu site para evitar punição por parte dos indexadores e pode tratar também da aplicação de técnicas por parte dos indexadores para "normalizar" ou "padronizar" URLs que apontam para o mesmo "documento".

O primeiro link desse texto leva para uma explicação mais detalhada sobre a parte de SEO, os métodos que citarei nesse artigo são relacionados a como normalizar URLs em uma aplicação (crawler, agregador, ...):

Punnycode


"Punycode" faz parte do protocolo para Internacionalização de nomes de domínio em aplicações. Sua utilização evita problemas de segurança como a utilização de caracteres de outras línguas para enganar a aplicação (por exemplo γahoo.com - gama do alfabeto grego). Existem implementações da IDNA para várias linguagens de programação...

rel="canonical"


Essa meta tag facilita para os indexadores a identificação de qual é o conteúdo original.

Um exemplo de uso é o do YouTube, onde mesmo se a URL do vídeo for algo como:

"http://www.youtube.com/watch?v=5rNws2Gb7u8&playnext_from=TL&videos=XGffngBzWp4&feature=grec"

Teremos a rel="canonical" indicando a URL canônica:

<link rel="canonical" href="/watch?v=5rNws2Gb7u8">

Dessa forma o agregador deve verificar a tag e passar a relacionar os dados da aplicação ao endereço especificado.

Estimativa de similaridade entre documentos


Essa técnica é usada pelo Google. Pelo visto ela foi patenteada então se você usar não fale para eles...

Ela consiste em usar uma função matemática de "hash" em cima do documento. Diferentemente de um hash com aplicações criptográficas onde uma única alteração na entrada da função vai retornar um resultado muito diferente a função usada aqui é linear. Dessa forma dois conteúdos parecidos terão o mesmo "hash".

Além de permitir verificar se um documento é aproximadamente parecido com outro, ainda é possível aplicar um algoritimo chamado "A Distância de Hamming" para saber qual o nível de similaridade.

A App é sua


Crie suas regras. Se o usuário procurar pelo endereço "http://ositedele.com" no seu serviço você terá que mostrar os dados de "http://ositedele.com/"? (Preste atenção na barra ao final do segundo)

Então decida como vai tratar isso e use uma função de normalização em todo aplicativo. Não será difícil desde que você preste atenção e entenda o problema.

Referência e Relacionados:

5 dicas simples para seu conteúdo fazer bonito nas redes sociais
Nomes de domínios internacionalizados
Detection of near-duplicate documents with simhash

Comments

blog comments powered by Disqus

About Me