Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo
Este é um post que compõe os Estudos de Casos, e que analisa um caso de SPAM de conteúdo: Um Scraper Site.
Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/
Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).
Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:
Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.
As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.
Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.
Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).
Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:
Copyright © 2005. ExodusSearch.com Team
Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com
Considerações
No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.
O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.
Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.
Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.
Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/
Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).
Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:
Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank™ do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.
As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.
Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.
Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).
Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:
Copyright © 2005. ExodusSearch.com Team
Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com
Considerações
No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.
O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.
Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.
Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.
|
4 comentários:
É cara, mas infelizmente é possível sim pra estes pilantras capturarem o conteúdo via JavaScript e gerarem um HTML puro (inclusive colocando um rel="no follow" nos links) dificultando para os mecanimos de busca e atrapalhando o site real da notícia.
É triste.
Oi
Achei seu blog muito interresante...legal mesmo. Adorei ler, vou vir sempre aqui.
See ya!
Feliz Anovo!
Obrigado Lucy,
A minha satifação é receber comentários de incentivo como o seu.
Muito obrigado mais uma vez, e um FELIZ ANO NOVO, repleto de saúde e felicidade, para você e seus familiares.
Abraços,
Simon
Cara, legal seu blog.
Vc conhece mashups?
Screen scraping é uma técnica mto util quando não se tem uma API para coleta de dados... ah, e quem é mais criativo não precisa necessariamente coletar esses dados só para exibição sem citar a fonte. :)
Saca só:
http://pipes.yahoo.com/pipes/
abraço
Postar um comentário