Del.icio.us | Perfil | Contato

Carregando...

quarta-feira, dezembro 20, 2006

Scraper sites - Sites capturadores ou sugadores de conteúdo

Um Site Capturador ou Sugador (Scraper site) é um website que obtém suas informações e conteúdo através de técnicas de web scraping (captura dinâmica de conteúdo). Em essência nenhuma parte de um Site Capturador (Sugador) é original. Mas encontramos sites que capturam a maior parte do seu conteúdo, e que cria uma parte infinitamente inferior. Um motor de busca não é um exemplo de site capturador. Sites como o Yahoo e o Google™ puxam o conteúdo de outros sites e fazem o indexamento desse conteúdo para que você possa ter acesso ao índice através de palavras chaves. Motores de Busca podem exibir breves descrições (snippets) do conteúdo original de um site, o qual o spider acessou, em resposta a determinada busca. Como o Motor de Busca faz esse serviço de organização de conteúdo, ele de forma alguma pode ser considerado um scraper.
Nos últimos anos, e com o advento do programa de afiliados AdSense, os sites capturadores proliferaram em um nível altíssimo através de práticas de spamdexamento. Sites com conteúdo livre, incluindo Wikipedia, são fontes comuns de material para sites capturadores.


Feito para o AdSense™


A maioria dos sites sugadores foi criada para obter rendimentos através do uso de programas de afiliados, como o AdSense. Nesse caso, eles foram chamados de sites Feitos para AdSense ou MFA (Made For AdSense™). Esse também é um termo pejorativo utilizado para se referir a sites que não tem outro objetivo que não o de conseguir visitantes para o propositu (existe algum?) de clicar nos anunciantes.

O problema com os Feitos para AdSense™ é que eles são considerados sites que spameiam os Motores de Busca, diminuindo a usabilidade e utilidade dos resultados, através da provisão de resultados poucos satisfatórios para os usuários. O conteúdo capturado é considerado reduntante pois o Motor de busca vai exibir um outro site com o mesmo conteúdo de outro (acarretando em uma limitação de conteúdo diferenciado, que o usuário poderia ter acesso, pois se o mecanismo de busca exibisse outro site - que não fosse scraper - o usuário poderia obter mais informações).

Esses tipos de sites estão na mira dos vários mecanismos de busca, sendo banidos ou apenas mostrados como resultados suplementares ao invés de aparecer nos primeiros lugares da lista orgânica.


Legalidade


Uma vez que os sites capturadores pegam o conteúdo de outros sites sem a permissão dos criadores originais, eles frequentemente violam termos de Direito de Propriedade Intelectual. É ilegal reproduzir material protegido por CopyRight sem a permissão do criador. Isso se aplica tanto se o material foi publicado originalmente em um Blog, em uma lista de e-mails, ou em qualquer outro meio menos formal, quanto como se fosse publicado comercialmente.

Até mesmo se o conteúdo foi originado de Sites Open Source, pode ser considerado uma quebra de copyright, se ele não respeitar a licensa de publicação. As licensas GNU FRee Documentation License (GFDL) e Creative Commons Share Alike (CC-BY-SA) requerem que a pessoa que reproduz o conteúdo, informe aos leitores das condições da licensa e dê crédito aos autores originais. A maioria dos sites capturadores que copiam conteúdo licensiado por GFDL ou CC-BY-SA não faz isso, ferindo então as leis de proteção aos direitos autorais.


Técnicas Scraper


Muitos capturadores vão puxar descrições e textos de sites com alto ranking de palavras chaves para o que eles objetivam. Dessa forma eles esperam ser melhor rankeados em páginas de resultados de motores de busca. RSS Feeds são altamente vulnerável aos scrapers.

Atualmente as técnicas scrapers que mais se desenvolvem são as baseadas em scripts dinâmicos que exibem o conteúdo liberado através de Feeds. Sem muita dificuldade é possível encontrar na Internet muitos scripts, à venda, de sites feitos para adsense que sugam automaticamente conteúdo de diversas fontes (dentre essas Wikipédia é claro). Então, o abuso de Feeds atualmente é o carro chefe do Scraping no Planeta.

No passado, sites Scrapers colocavam apenas anúncios e parágrafos de palavras selecionadas aleatoriamente de um dicionário. Assim um visitante clicava sempre no anúncio por que era a única parte que ele entendia no texto da página. Os Webmasters desses sites capturadores obtiam ganhos monetários advindos desses clicks. Redes de afiliados como o AdSense™/AdWords™ alegam estar em constante trabalho para remover esses sites de seus programas apesar de haver uma profunda polêmica sobre esse assunto, uma vez que essas redes se beneficiam diretamente dos clicks gerados por esse tipo de site. Sob o ponto de vista dos anunciantes os programas de anúncios de clicks (Google AdWords™, Yahoo Search Marketing, MSN adCenter) não parecem estar se esforçando para coibir esses tipos de sites.

Scrapers tendem a se associar através de Fazendas de Link, por isso, muitas vezes a técnica spammica de Scraping é confundida com Link Farm.



Fontes em inglês:
Wikipédia
Search Engine for Dummies - Peter Kent - Editora Wiley Publishing, Inc.


3 comentários:

Anônimo disse...

Bem interessante.
Tu não tens uns exemplos pra gente dar uma olhada.

Blogger disse...

Estou preparando o próximo Estudo de Caso. Postarei daqui a instantes.

[]'s,

Simon

Thiago Cesar Busarello disse...

Nossa! Muito interessante o assunto!
Hoje mesmo coloquei no meu blog que estaria buscando notícias que sejam compatíveis ao blog para não ficar tão parado. Estaria selecionando a mão a notícia e fazendo comentários em cima dela. Não estaria replicando assunto automaticamente, mas em geral eu estaria copiando o conteúdo da notícia e colocando o devido crédito dela. Além disso estaria misturando as notícias com os conteúdos que eu gero. Isso chega a ser um spammer?