Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo
Este é um post que compõe os Estudos de Casos, e que analisa um caso de SPAM de conteúdo: Um Scraper Site.
Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/
Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).
Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:

Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.
As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.

Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.

Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).

Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:
Copyright © 2005. ExodusSearch.com Team
Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com
Considerações
No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.
O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.
Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.
Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.
Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/
Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).
Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:
Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.
As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.
Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.
Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).
Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:
Copyright © 2005. ExodusSearch.com Team
Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com
Considerações
No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.
O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.
Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.
Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.