Este script é uma automação de coleta de dados do website Kabum onde extraimos: Nome, Valor e Link do produto. Em poucos segundos é possível fazer uma extensa coleta de dados.
-
DADOS DO DESENVOLVEDOR: A classe InformacoesAplicativo nos traz informações de cabeçalho do desenvolvedor, podendo ser alterado por parâmetros.
-
DADOS COLETADOS: Todos os dados coletados serão adicionados ao arquivo "Produto - SEUPRODUTO" com a extensão ".xlsx" e ".csv".
-
PRODUTO Á SER PESQUISADO: Para declarar o produto á ser pesquisado mantenha "produto=None" para declarar o produto no terminal ao iniciar a aplicação ou altere para "produto='Ryzen 7'" para fazer a busca de todos Ryzen 7 que encontrar. OBS: O produto foi um exemplo e poderá ser declarado tudo que tem no site.
-
SEGUNDO PLANO: Para rodar a aplicação em segundo plano altere o parâmetro "headless=False" para "headless=True".
-
MODO ANONIMO: Para abrir o navegador em modo anônimo altere o parâmetro "navegador_anonimo=False" para "navegador_anonimo=True"
-
DELETE .XLSX OU NÃO: Para deletar o arquivo ".xlsx" após a criação do ".csv" altere o parâmetro "deletar_xlsx=False" para "deletar_xlsx=True"
-
CSV: O arquivo ".CSV" declaramos utilizar o separador ";" para separar as informações por coluna (como no .xlsx). Para trazer informações separados por "," em apenas uma coluna, utilize delete o separador "," (Não recomendado, bastante poluído).
-
LOGS: Ao iniciar a aplicação um arquivo de log será criado na pasta raiz do projeto onde é possível verificar e validar os processos de sucesso, avisos e erros detalhados da aplicação.
Siga o passo á passo para rodar a aplicação!
É necessário ter instalado corretamente em seu computador:
- Python 3.8+
Siga o passo a passo para instalar a aplicação:
- Clone o repositório abrindo o Git Bash:
git clone https://github.com/geomhz/extracao-kabum.git
- Crie um Ambiente Virtual (venv) e ative:
Windows: python -m venv venv
venv/scripts/activate
Linux/Mac: python3 -m venv venv
source venv/bin/activate
- Instale as dependências necessárias após ativar a venv:
pip install -r requirements.txt
- Ajuste os parâmetros á seu favor no INIT:
headless=False ou True # False = Navegador visível, True = Navegador oculto
deletar_xlsx=False ou True # False = Deletar .xlsx, True = Manter .xlsx
navegador_anonimo=False ou True # False = Abrir modo normal, True = Abrir em modo anônimo
- Defina o seu produto á ser pesquisado na linha 14:
produto="SEUPRODUTO" # Troque "SEUPRODUTO" para produto que deseja pesquisar
ou
produto=None # Insira o nome do produto á pesquisar no terminal ao iniciar a aplicação
Lista de dependências do projeto:
attrs==23.2.0
certifi==2024.2.2
cffi==1.16.0
et-xmlfile==1.1.0
h11==0.14.0
idna==3.6
numpy==1.26.4
openpyxl==3.1.2
outcome==1.3.0.post0
pandas==2.2.1
pycparser==2.21
PySocks==1.7.1
python-dateutil==2.8.2
pytz==2024.1
selenium==4.18.1
six==1.16.0
sniffio==1.3.0
sortedcontainers==2.4.0
trio==0.24.0
trio-websocket==0.11.1
typing_extensions==4.9.0
tzdata==2024.1
urllib3==2.2.1
wsproto==1.2.0
Após configurado da sua maneira inicie a automação e veja a mágica acontecer! OBS: Não esqueça de colocar produtos válidos que tem no site 🤘🏼
Meu nome é Geovanne Murata!
Website - Visite meu website!
Linked In - Visite meu LinkedIn!
WhatsApp - Me chame no Whats
Project Link: extracao-kabum