Pitch: Meu SaaS de Web Scraping (Xcrap Cloud)
Olá, pessoas! Como vão? Hoje tenho o orgulho de finalmente apresentar algo que me gastou um bom tempo e que na verdade demandou mais do que a criação de um SaaS, mas também a criação de uma biblioteca (ou talvez um framework) chamado Xcrap. Farei a documentação dele em breve e divulgarei a assim que possível destacando algumas de suas pricipais funcionalidades.
Bom, aqui estamos para falar um sobre a plataforma:
Clientes
Essencialmente um cliente HTTP, você pode configurar algumas coisas como User Agents, Proxies, CORS Proxies (eu incluí a opção de poder adicionar eles porque tu consegue "balancear" o IP que está acessando o site). Além disso você pode definir o tipo do cliente também, mas atualmente temos apenas o Axios porque não consegui rodar de jeito nenhum uma instância de Puppeteer na Vercel (planejo migrar para a AWS se eu perceber que o negócio tem futuro).
Plugins de Cliente
Plugins de Cliente serveriam apenas para o Puppeteer, seriam aqueles Stealth, Amazon Captcha, Adblocker. Servem para deixar o navegador mais furtivo (evitando armadilhas para bots), resolver captchas e bloquear anúncios.
Ações de Cliente
Ações de Cliente podem ser usadas para ajudar na furtiviade do navegador também, mas em breve quero adicionar ações que você possa definir parâmetros, como por exemplo uma ação "Click On" que eu passo um seletor e toda vez que o cliente for executado ele fará isso.
Scrapers
Scrapers são a junção do Cliente, os Plugins de Cliente , Ações de Cliente a URL que será acessada (talvez eu mude no futuro e deixe que o usuário informe a URL no ato da execução).
Scrapers não retém os dados, você pode executá-los apenas, a responsabilidade em guardar esses dados fica com você, tu pode fazer isso de várias formas, como arquivo JSON, salvar em um banco de dados, arquivo CSV... envim, as possibilidades são muitas...
Acesso à API
Algumas funcionalidades ainda não estão disponíveis via interface, essencialmente funcionalidade de atualizar os objetos da plataforma, mas isso já está disponível via API, tu pode gerar sua chave de API entrando na aba de conta e fazer isso diretamente, sei muito bem que não é a melhor forma de disponibilizar isso para o usuário, mas foi uma forma de diminuir a complexidade das coisas (já que eu tava quebrando a cabeça com esses formulários kkkkkkk)
certa vez eu fiz um robo para ler notas fiscais na receita federal. Levou alguns dias. 1- so aceita conexao originária do Brasil, 2- só aceita navegador aberto. Só consegui com o playwright.
Pelo seu SaaS, eu conseguiria extrair dados do Google Maps ou Instagram, montando uma lista de contatos?
Em meio a tantos projetos fúteis aqui ultimamente, o seu é bem interessante, parabéns!
Não consegui acessar o site, não sei se é por causa dos bloqueios aqui do meu pc, mas sabe dizer se ele consegue raspar o site da Amazon? Certa vez tentei raspar mas recebia um erro da Amazon bloqueando minha raspagem.
Primeiramente parabens, Tenho muito interesse, segundamente, Veio Xcrap é um nome muito ruim kkkkkkkkkkk
Se eu soubesse inglês já tava usando 🤣
Brincadeiras a parte, parabéns pelo projeto. Espero ver novas versões para o público brasileiro aqui.
Abraços.
Parabéns pelo projeto, em relação a usar o Puppeteer na vercel, já tentou usar esse pacote? https://www.npmjs.com/package/chrome-aws-lambda ele e usado pelo Diego da Rocketseat aqui nesse vídeo, https://youtu.be/qvetoR6V5ic?t=1920 para rodar o chrome na aws lambda, a vercel roda na aws lambda então deve funcionar, se você ver o vídeo pode ajudar, apesar de ele ter 4 anos creio que ainda vai funcionar.
Minha pergunta é:
Com o adiventos das IA e seus crawlers os sites estão mais chatos com relação a scraps! Com uso grande da ferramenta da Cloudflare que detecta muito bom robos em ação!
E com mais difusão de outros sistemas de antibot(com captchas ou detecção de outras formas) além do uso de IPS(um mesmo IP acessando muitas páginas pode ser bloqueado)
Como seu sistema supera esses problemas?
Excelente! Achei bastante interessante. Qual o canal/contato para suporte?
Você é brasileiro e fez toda a plataforma apenas em inglês?
Senti falta de localização.
Fiz um robo de scraping em 3horas, somente usando GPT4-o ele me disse a linguagem e como instala-la, rodar no windows 10, bem como os pacotes necessários, a página tinha lazy load + proteção no email por cloudflare. O resultado foi gerado um csv com nome, profissao, email, telefone, e redes sociais, de um site! Foram 2 robos. O primeiro ele lia a página inicial e gerava uma lista csv de todos os links 3500+-, o segundo lia esta lista e gerava outro CSV com os dados finais! Demorou pra extrair estas informações umas 12horas! Detalhe nunca tinha trabalhado com Python! Foi utilizado Python + Selenium + webdrive chrome + beautifulsoup4 + Panda
O pessoal comentou sobre a escolha do inglês como idioma padrão, e faz sentido começar com o idioma mais falado. Isso ajuda a validar a ideia e atingir mais gente no começo. Depois que o projeto estiver mais sólido, você pode expandir para outros idiomas com a ajuda da comunidade no Github para a tradução ser mais próxima possível de cada local.
Curti o projeto, acho que tem bastante potencial! Só que vale lembrar que você tem concorrentes como o browserless e outros.