Webscraping com BeautifulSoup
A muito tempo, já tenho trabalhado em alguns projetos de WebScraping utilizando o Selenium webdriver em que tem como grande poder, simular ações humanas no navegador.
Recentemente passei a estudar BeautifulSoup do #python onde também é muito utilizado para WebScraping mas com uma abordagem diferente, utilizando-se do texto html da pagina para fazer a extração de dados. Achei muito interessante e fiz um primeiro projeto com isso, não somente utilizando o BeautifulSoup, como o lxml que ajuda e muito a fazer buscas no html utilizando o xPath.
Resumidamente o projeto consiste em consultar uma base de livros do site companhia das letras, e realizar a extração dos dados como titulo, preço, quantidade de paginas, formato... No final da execução, os dados são salvos em formato .csv
As informações que tirei para fazer o programa são do próprio site, ou seja, as informações que são carregadas para qualquer usuario, não fazendo o uso de senhas ou acessos especiais para conseguir acesso.
Abaixo deixo o programa no repositório do github caso queira dar uma olhada no projeto.
https://github.com/ParzivalMarcos/scrapingBeautifulSoupExample
basicamente você fez uma API force? achei interessante e tenho certeza qye vai ajudar muitas pessoas :)
Uma excelente alternativa ao Selenium é o Playwright. Recentemente utilizei a versão para .NET.
Antigamente cheguei a utilizar o Puppeteer Sharp.
Mas o seu caso se tornou o melhor e mais simples cenário possível, onde através de requisições é possível fazer o scrapping. No .NET recomendo utilizar a classe HttpClient para isso.
Obrigado mesmo, seu projeto vai de encontro com algo que precisava mais nao sabia como sair do zero. Terei uma excelente jornada com o seu aprendizado.