Oportunidades na Web

quinta-feira, dezembro 21, 2006

Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo

Este é um post que compõe os Estudos de Casos, e que analisa um caso de SPAM de conteúdo: Um Scraper Site.

Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/

Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).

Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:

Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.

As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.

Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.

Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).

Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:

Copyright © 2005. ExodusSearch.com Team

Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com

Considerações

No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.

O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.

Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.

Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.

quarta-feira, dezembro 20, 2006

Scraper sites - Sites capturadores ou sugadores de conteúdo

Um Site Capturador ou Sugador (Scraper site) é um website que obtém suas informações e conteúdo através de técnicas de web scraping (captura dinâmica de conteúdo). Em essência nenhuma parte de um Site Capturador (Sugador) é original. Mas encontramos sites que capturam a maior parte do seu conteúdo, e que cria uma parte infinitamente inferior. Um motor de busca não é um exemplo de site capturador. Sites como o Yahoo e o Google™ puxam o conteúdo de outros sites e fazem o indexamento desse conteúdo para que você possa ter acesso ao índice através de palavras chaves. Motores de Busca podem exibir breves descrições (snippets) do conteúdo original de um site, o qual o spider acessou, em resposta a determinada busca. Como o Motor de Busca faz esse serviço de organização de conteúdo, ele de forma alguma pode ser considerado um scraper.
Nos últimos anos, e com o advento do programa de afiliados AdSense™, os sites capturadores proliferaram em um nível altíssimo através de práticas de spamdexamento. Sites com conteúdo livre, incluindo Wikipedia, são fontes comuns de material para sites capturadores.

Feito para o AdSense™

A maioria dos sites sugadores foi criada para obter rendimentos através do uso de programas de afiliados, como o AdSense™. Nesse caso, eles foram chamados de sites Feitos para AdSense ou MFA (Made For AdSense™). Esse também é um termo pejorativo utilizado para se referir a sites que não tem outro objetivo que não o de conseguir visitantes para o propositu (existe algum?) de clicar nos anunciantes.

O problema com os Feitos para AdSense™ é que eles são considerados sites que spameiam os Motores de Busca, diminuindo a usabilidade e utilidade dos resultados, através da provisão de resultados poucos satisfatórios para os usuários. O conteúdo capturado é considerado reduntante pois o Motor de busca vai exibir um outro site com o mesmo conteúdo de outro (acarretando em uma limitação de conteúdo diferenciado, que o usuário poderia ter acesso, pois se o mecanismo de busca exibisse outro site - que não fosse scraper - o usuário poderia obter mais informações).

Esses tipos de sites estão na mira dos vários mecanismos de busca, sendo banidos ou apenas mostrados como resultados suplementares ao invés de aparecer nos primeiros lugares da lista orgânica.

Legalidade

Uma vez que os sites capturadores pegam o conteúdo de outros sites sem a permissão dos criadores originais, eles frequentemente violam termos de Direito de Propriedade Intelectual. É ilegal reproduzir material protegido por CopyRight sem a permissão do criador. Isso se aplica tanto se o material foi publicado originalmente em um Blog, em uma lista de e-mails, ou em qualquer outro meio menos formal, quanto como se fosse publicado comercialmente.

Até mesmo se o conteúdo foi originado de Sites Open Source, pode ser considerado uma quebra de copyright, se ele não respeitar a licensa de publicação. As licensas GNU FRee Documentation License (GFDL) e Creative Commons Share Alike (CC-BY-SA) requerem que a pessoa que reproduz o conteúdo, informe aos leitores das condições da licensa e dê crédito aos autores originais. A maioria dos sites capturadores que copiam conteúdo licensiado por GFDL ou CC-BY-SA não faz isso, ferindo então as leis de proteção aos direitos autorais.

Técnicas Scraper

Muitos capturadores vão puxar descrições e textos de sites com alto ranking de palavras chaves para o que eles objetivam. Dessa forma eles esperam ser melhor rankeados em páginas de resultados de motores de busca. RSS Feeds são altamente vulnerável aos scrapers.

Atualmente as técnicas scrapers que mais se desenvolvem são as baseadas em scripts dinâmicos que exibem o conteúdo liberado através de Feeds. Sem muita dificuldade é possível encontrar na Internet muitos scripts, à venda, de sites feitos para adsense que sugam automaticamente conteúdo de diversas fontes (dentre essas Wikipédia é claro). Então, o abuso de Feeds atualmente é o carro chefe do Scraping no Planeta.

No passado, sites Scrapers colocavam apenas anúncios e parágrafos de palavras selecionadas aleatoriamente de um dicionário. Assim um visitante clicava sempre no anúncio por que era a única parte que ele entendia no texto da página. Os Webmasters desses sites capturadores obtiam ganhos monetários advindos desses clicks. Redes de afiliados como o AdSense™/AdWords™ alegam estar em constante trabalho para remover esses sites de seus programas apesar de haver uma profunda polêmica sobre esse assunto, uma vez que essas redes se beneficiam diretamente dos clicks gerados por esse tipo de site. Sob o ponto de vista dos anunciantes os programas de anúncios de clicks (Google AdWords™, Yahoo Search Marketing, MSN adCenter) não parecem estar se esforçando para coibir esses tipos de sites.

Scrapers tendem a se associar através de Fazendas de Link, por isso, muitas vezes a técnica spammica de Scraping é confundida com Link Farm.

Fontes em inglês:
Wikipédia
Search Engine for Dummies - Peter Kent - Editora Wiley Publishing, Inc.