Oportunidades na Web: Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo - E-Opportunities - Oportunidades na Web - Oportunidades na Internet - Oportunidades, Dinheiro, Webmastering, Afiliados e Dicas

quinta-feira, dezembro 21, 2006

Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo

Este é um post que compõe os Estudos de Casos, e que analisa um caso de SPAM de conteúdo: Um Scraper Site.

Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/

Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).

Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:

Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.

As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.

Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.

Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).

Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:

Copyright © 2005. ExodusSearch.com Team

Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com

Considerações

No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.

O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.

Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.

Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.

4 comentários:

Micox - Náiron J. C. G. disse...: É cara, mas infelizmente é possível sim pra estes pilantras capturarem o conteúdo via JavaScript e gerarem um HTML puro (inclusive colocando um rel="no follow" nos links) dificultando para os mecanimos de busca e atrapalhando o site real da notícia.
É triste.; 8:55 AM
Unknown disse...: Oi
Achei seu blog muito interresante...legal mesmo. Adorei ler, vou vir sempre aqui.
See ya!
Feliz Anovo!; 3:40 PM
Blogger disse...: Obrigado Lucy,

A minha satifação é receber comentários de incentivo como o seu.

Muito obrigado mais uma vez, e um FELIZ ANO NOVO, repleto de saúde e felicidade, para você e seus familiares.

Abraços,

Simon; 4:27 PM
José Teles disse...: Cara, legal seu blog.
Vc conhece mashups?
Screen scraping é uma técnica mto util quando não se tem uma API para coleta de dados... ah, e quem é mais criativo não precisa necessariamente coletar esses dados só para exibição sem citar a fonte. :)
Saca só:
http://pipes.yahoo.com/pipes/

abraço; 12:30 AM