Del.icio.us | Perfil | Contato

Carregando...
Mostrando postagens com marcador Scraping. Mostrar todas as postagens
Mostrando postagens com marcador Scraping. Mostrar todas as postagens

sábado, dezembro 23, 2006

Feeds Completos ou Incompletos? Eis a questão.

RSS FEED Quebrado/incompletoA utilização de Feeds se mostra uma forma muito eficaz de fidelizar leitores. A comodidade do usuário ter acesso à todas informações, que ele tem interesse, a partir de um agregador é um fator que possibilitou, talvez, a expansão dos processos cognitivos na internet. Assim como esse elemento aumentou a facilidade de acesso à informação, ele traz consigo dois possíveis elementos negativos: o Abuso do uso de Feeds e o abandono do site por parte do leitor.
Como abordei anteriormente, um dos segredos do SEO, está alicerçado na qualidade do conteúdo que o site/blog oferece. Um bom conteúdo é visto com bons olhos tanto pelos mecanismos de busca, quanto por outros sites/blogs. A partir de um bom artigo outras pessoas linkam para o seu artigo (ou próprio site/blog). Essa prática já vimos que se chama Link Bait.
Porém não só os mecanismos de busca, e outros webmasters, visam esses elementos textuais. Spammers também visam os feeds como forma de abastecer seus sites spammicos com conteúdo de alto valor em termos de qualidade. Vimos no artigo anterior o fenômeno spâmmico chamado Scraping, no qual os spammers, ao se utilizar de scripts dinâmicos (seja um php próprio, ou até mesmo plataformas fáceis de operacionalizar, como o Wordpress) capturam o conteúdo a partir do RSS/Feed do site (arquivo XML) e o disponibiliza com banners e links de afiliados.
Já o segundo elemento, que se constitui no possível abandono do site por parte do usuário, tende a desestimular o webmaster/blogger, uma vez que grande parte do incentivo à produção intelectual reside nos ganhos advindos da publicidade do site/blog. A única remuneração, que o blogger/webmaster obtém, é aquela advinda dos ganhos com a cessão de espaço no seu projeto para a exibição de banners de afiliados/patrocinadores. Com a utilização de Feeds completos, o usuário tende a não acessar o site, pois o agregador disponibiliza na íntegra o conteúdo do post (seja um artigo, notícia ou review de algum produto novo).

Então temos um dilema:
Devemos liberar o nosso conteúdo totalmente através de Feeds (possibilitando o conforto do nosso leitor), ou restringimos os Feeds a títulos ou meros snippets (pequenas descrições textuais)?

A resposta vai variar dependendo do seu site (blog) e nicho.

Se fizermos uma pequena pesquisa acerca de Sites de Notícias, sejam eles Brasileiros ou Internacionais, vamos perceber que nenhum disponibiliza feeds completos. Talvez o reconhecimento dos dois elementos negativos supracitados seja o fator determinante para a não liberação de feeds completos.

Se o site de notícias liberar o feed completo ele será amplamente prejudicado tanto com relação ao baixo índice de visitas que ele receberá (e os ganhos de portais de notícias, assim como de sites e blogs, são baseados na publicidade do seu espaço) quanto a concorrência em termos de visitantes advindos de Motores de Busca. A concorrência entre os sites que provêm bom conteúdo ia diminuir completamente, pois muitos sites iriam disponibilizar as notícias de forma desumana (porque o script faz dinamicamente, então o webmaster não despeenderia trabalho algum, ou seja, não tem como um editor de uma matéria concorrer com um scraper). Assim os sites deixariam de investir em bom conteúdo porque existiria uma externalidade positiva (uns sites de notícias iam esperar outros publicarem pra sugarem e exibir, ou seja, seria mais vantajoso esperar que outro produzisse a informação ao invés de produzí-la - Sempre existe o incentivo a não produzir nesse caso - Isso é teoria MicroEconômica). Ao trabalhar na composição de artigos úteis, outro absorveria o conteúdo e ganharia dinheiro às custas do site. A partir da diminuição da produção intelectual teríamos um colapso no processo de produção de conhecimento. (NOSSA, QUE DRAMA :S)

O fato é que a disposição de feeds completos é um elemento a ser tratado com cuidado.
A posição do AdSense for Feeds é uma sinalização na tentativa de fomentar o uso de feeds completos e eliminar o primeiro elemento negativo enumerado por mim. Porém o AdSense for Feeds está liberado apenas para os editores Norte-Americanos.
O E-Opportunities, a partir da semana passada adotou a postura de disponibilizar os conteúdos completos. O argumento que me fez tomar essa atitude é a minha necessidade de fidelizar leitores e o baixo índice de notoriedade que o E-Opportunities tem. Então a chance de algum scraper ver no E-Opportunities uma grande fonte de obtenção de conteúdo de qualidade é ainda muito baixo. (Quem disse que esse seu conteúdo é de qualidade? AFF... Convencido,hein?)

Então o meu custo benefício é ainda suportável em termos de utilização de Feeds Completos.

O E-Opportunities (e eu é claro) entrará em um pequeno recesso natalino e só voltará a partir do dia 25.

Para você que curte o E-Opportunities, um feliz natal, repleto de paz, harmonia e felicidade. E pra você que não curte também Língua.gif !

ho ho ho Natal-Papai Noel gif

quinta-feira, dezembro 21, 2006

Estudo de Caso: Scraping - Scraper Sites - Sites sugadores de conteúdo

Este é um post que compõe os Estudos de Casos, e que analisa um caso de SPAM de conteúdo: Um Scraper Site.

Vou pedir que se dirija ao site:
http://www.ronaldofansite.com/cristiano/

Ao chegar no site você vai ver uma foto do Cristiano Ronaldo, algumas notícias à sua esquerda e um Arranha-céu (120x600) do AdSense™ (Bloco de anúncios).

Gostaria que você desse um refresh no site (Atualizar) para perceber o seguinte elemento:



Na barra de ferramentas podemos notar que o site convert-rss-to-javascript.com é carregado. O Pagerank do site é 2, indicando que possivelmente (e eu tenho certeza que sim) esse site é parte de uma Fazenda de Links.

As notícias são recentes e isso dá uma falsa percepção de utilidade. O Arranha Céu do AdSense é presença marcante no site, dividindo o palco com o "conteúdo". O usuário fica na dúvida sobre o que é mais informativo. O conteúdo ou os anúncios.



Analisando mais a fundo a página temos a referência da fonte de conversão do RSS em html. Se trata do já mencionado, Convert-RSS-to-Javascript.com. Ao olharmos abaixo dessa referência vemos um link de afiliados do Commission Junction. Ou seja, o usuário é convidado a procurar por mais informações sobre o Cristiano Ronaldo no eBay.



Ao passarmos o mouse por cima do link da notícia podemos ver a verdadeira fonte da notícia: O Site SportNetwork (uma boa fonte de notícias em inglês sobre esportes).



Se você notar o canto inferior direito do site você vai ver os seguintes dizeres:

Copyright © 2005. ExodusSearch.com Team

Esse suposto time, é a Link Farm que eu mencionava anteriormente. O site analizado pertence ao ExodusSearch.com


Considerações


No caso analisado pudemos ver a técnica spâmica conhecida como Scraping. Ela se baseia na captura de informações advindas de outros sites. O site só exibe uma snippet (um curto fragmento textual) porque o feed liberado pelo Sport Network é incompleto. Esse é o argumento que servirá de base para o meu próximo post no qual eu analiso se a liberação de feeds completos é viável ou não.

O spammer do nosso Estudo de Caso se utiliza, como já enfatizado, de um conversor de RSS para HTML em JAVASCRIPT. Felizmente, os motores de busca já aperfeiçoaram as suas técnicas, e esse tipo de site não tem qualquer relevância em termos de busca orgânica. o Spammer desse estudo de caso é iniciante (ou metido a esperto), pois o scraping via JAVASCRIPT é obsoleto. O Spider não lê o texto que o usuário lê. Ele apenas segue o link de origem do texto, ficando o scraper site a ver navios. Ou seja, esse spammer não deve estar ganhando nada com esse site, pois os mecanismos de busca não indicam o site dele na lista de resultados. Quem vai ganhar o crédito com a notícia, é efetivamente o site que correu atrás da notícia: o SportNetwork.

Podemos identificar elementos do estudo da MicroEconomia através da possível externalidade positiva que a notícia gera. Ao liberar a notícia ou liberar um conteúdo grande, algum FreeRider pode fazer uso dele pra obter ganhos.

Infelizmente eu trago a vocês o que acontece na Web. A realidade é essa. Eu não escolho as técnicas de SEM (Search Engine Marketing) e de SEO que as pessoas usam. Eu, com o E-Opportunities, tento ajudar você a seguir o caminho mais correto, justo e efetivo para conquistar o seu espaço na internet e assim auferir ganhos.

quarta-feira, dezembro 20, 2006

Scraper sites - Sites capturadores ou sugadores de conteúdo

Um Site Capturador ou Sugador (Scraper site) é um website que obtém suas informações e conteúdo através de técnicas de web scraping (captura dinâmica de conteúdo). Em essência nenhuma parte de um Site Capturador (Sugador) é original. Mas encontramos sites que capturam a maior parte do seu conteúdo, e que cria uma parte infinitamente inferior. Um motor de busca não é um exemplo de site capturador. Sites como o Yahoo e o Google™ puxam o conteúdo de outros sites e fazem o indexamento desse conteúdo para que você possa ter acesso ao índice através de palavras chaves. Motores de Busca podem exibir breves descrições (snippets) do conteúdo original de um site, o qual o spider acessou, em resposta a determinada busca. Como o Motor de Busca faz esse serviço de organização de conteúdo, ele de forma alguma pode ser considerado um scraper.
Nos últimos anos, e com o advento do programa de afiliados AdSense, os sites capturadores proliferaram em um nível altíssimo através de práticas de spamdexamento. Sites com conteúdo livre, incluindo Wikipedia, são fontes comuns de material para sites capturadores.


Feito para o AdSense™


A maioria dos sites sugadores foi criada para obter rendimentos através do uso de programas de afiliados, como o AdSense. Nesse caso, eles foram chamados de sites Feitos para AdSense ou MFA (Made For AdSense™). Esse também é um termo pejorativo utilizado para se referir a sites que não tem outro objetivo que não o de conseguir visitantes para o propositu (existe algum?) de clicar nos anunciantes.

O problema com os Feitos para AdSense™ é que eles são considerados sites que spameiam os Motores de Busca, diminuindo a usabilidade e utilidade dos resultados, através da provisão de resultados poucos satisfatórios para os usuários. O conteúdo capturado é considerado reduntante pois o Motor de busca vai exibir um outro site com o mesmo conteúdo de outro (acarretando em uma limitação de conteúdo diferenciado, que o usuário poderia ter acesso, pois se o mecanismo de busca exibisse outro site - que não fosse scraper - o usuário poderia obter mais informações).

Esses tipos de sites estão na mira dos vários mecanismos de busca, sendo banidos ou apenas mostrados como resultados suplementares ao invés de aparecer nos primeiros lugares da lista orgânica.


Legalidade


Uma vez que os sites capturadores pegam o conteúdo de outros sites sem a permissão dos criadores originais, eles frequentemente violam termos de Direito de Propriedade Intelectual. É ilegal reproduzir material protegido por CopyRight sem a permissão do criador. Isso se aplica tanto se o material foi publicado originalmente em um Blog, em uma lista de e-mails, ou em qualquer outro meio menos formal, quanto como se fosse publicado comercialmente.

Até mesmo se o conteúdo foi originado de Sites Open Source, pode ser considerado uma quebra de copyright, se ele não respeitar a licensa de publicação. As licensas GNU FRee Documentation License (GFDL) e Creative Commons Share Alike (CC-BY-SA) requerem que a pessoa que reproduz o conteúdo, informe aos leitores das condições da licensa e dê crédito aos autores originais. A maioria dos sites capturadores que copiam conteúdo licensiado por GFDL ou CC-BY-SA não faz isso, ferindo então as leis de proteção aos direitos autorais.


Técnicas Scraper


Muitos capturadores vão puxar descrições e textos de sites com alto ranking de palavras chaves para o que eles objetivam. Dessa forma eles esperam ser melhor rankeados em páginas de resultados de motores de busca. RSS Feeds são altamente vulnerável aos scrapers.

Atualmente as técnicas scrapers que mais se desenvolvem são as baseadas em scripts dinâmicos que exibem o conteúdo liberado através de Feeds. Sem muita dificuldade é possível encontrar na Internet muitos scripts, à venda, de sites feitos para adsense que sugam automaticamente conteúdo de diversas fontes (dentre essas Wikipédia é claro). Então, o abuso de Feeds atualmente é o carro chefe do Scraping no Planeta.

No passado, sites Scrapers colocavam apenas anúncios e parágrafos de palavras selecionadas aleatoriamente de um dicionário. Assim um visitante clicava sempre no anúncio por que era a única parte que ele entendia no texto da página. Os Webmasters desses sites capturadores obtiam ganhos monetários advindos desses clicks. Redes de afiliados como o AdSense™/AdWords™ alegam estar em constante trabalho para remover esses sites de seus programas apesar de haver uma profunda polêmica sobre esse assunto, uma vez que essas redes se beneficiam diretamente dos clicks gerados por esse tipo de site. Sob o ponto de vista dos anunciantes os programas de anúncios de clicks (Google AdWords™, Yahoo Search Marketing, MSN adCenter) não parecem estar se esforçando para coibir esses tipos de sites.

Scrapers tendem a se associar através de Fazendas de Link, por isso, muitas vezes a técnica spammica de Scraping é confundida com Link Farm.



Fontes em inglês:
Wikipédia
Search Engine for Dummies - Peter Kent - Editora Wiley Publishing, Inc.