Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Manutenção] Peritoró - MA #897

Closed
trevineju opened this issue Jun 21, 2023 · 9 comments
Closed

[Manutenção] Peritoró - MA #897

trevineju opened this issue Jun 21, 2023 · 9 comments
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)

Comments

@trevineju
Copy link
Member

Em #880, o raspador que até então tinhamos para Peritoró - MA foi desativado pois a cidade mudou o site publicador.

Precisa-se reconstruir o arquivo ma_peritoro.py para raspar o novo site.

https://dom.peritoro.ma.gov.br/

@rafaelgotts
Copy link
Contributor

Olá, eu gostaria de pegar essa issue, e aproveito para tirar duas dúvidas:

Existe algum outro padrão/modelo para seguir, no lugar do BaseAplusSpider ou tem que criar um do zero mesmo?

A outra dúvida, que seria mais sobre o funcionamento da ferramenta eu acho, é como ficam os diários mais antigos dessa cidade, pois eu percebi pela data do código fonte, que tem diários de 2020.

@trevineju
Copy link
Member Author

trevineju commented Jul 26, 2023

oi, @rafaelgotts! Tem que criar do zero. O BaseAplusSpider que tem lá no arquivo da cidade não é mais usado, o site mudou, por isso todas as variáveis que tem ali no raspador precisam ser atualizadas com o que tem no novo site (ele não tem diários de 2020 no novo site, mas tem um diário de 2018 haha). Como no site antigo simplesmente não existe mais diários, não precisa criar um novo arquivo (tipo ma_peritoro_2.py) pode simplesmente reescrever o código no arquivo existente.

por enquanto, Gotts, pode escolher a data mais antiga possível para desenvolver e testar. Mas queria uma orientação do @ogecece aqui. Você acha melhor configurar o start_date pra quando, tendo em vista que esse é o caso no qual já temos de 04-01-21 até 04-04-23?

@trevineju
Copy link
Member Author

aliás, acabo de ver que esse site de Peritoró tem um problema na paginação. Diz ali que só tem 5 páginas, mas dá pra ver as outras páginas seguindo o padrão da url (https://dom.peritoro.ma.gov.br/page/7/)

@rafaelgotts
Copy link
Contributor

Blz, vou seguir essas orientações. Obrigado pela resposta e pelas dicas.

@trevineju
Copy link
Member Author

@rafaelgotts, o site de diários de peritoró-MA mudou de novo :(

http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e

@trevineju
Copy link
Member Author

vi que você já fez o PR pra fazer a correção que precisava (muito obrigada!!), mas o PR também já não serve mais 😢

você pretende continuar trabalhando nisso?

@rafaelgotts
Copy link
Contributor

Oi @trevineju pretendo continuar sim!

Vou ajustar o PR depois. Obrigado por avisar!

@trevineju
Copy link
Member Author

Estou liberando esta issue para quem estiver interessada(o) em contribuir (:

Reforçando que o atual link de Peritoró-MA é: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e

@trevineju trevineju added help wanted spider Adiciona robô raspador para município(s) and removed type:layout-changed labels Oct 26, 2023
@trevineju trevineju added priority Issue endereça algo prioritário maintenance Demanda de manutenção labels Jun 18, 2024
@trevineju
Copy link
Member Author

Substituída pela issue #1247

@trevineju trevineju closed this as not planned Won't fix, can't repro, duplicate, stale Aug 7, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)
Projects
Development

Successfully merging a pull request may close this issue.

2 participants