Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在为特定用户加入独立since date时爬取失败 #598

Open
abcabcaaaB opened this issue Aug 1, 2024 · 2 comments
Open

在为特定用户加入独立since date时爬取失败 #598

abcabcaaaB opened this issue Aug 1, 2024 · 2 comments
Labels

Comments

@abcabcaaaB
Copy link

感谢作者开发和维护这么好用的程序,不胜感激

  • 问:请您指明哪个版本出了bug(github版/PyPi版/全部)?

答:只用过PyPi版

  • 问:您使用的是否是最新的程序(是/否)?

答:是

  • 问:爬取任意用户都会复现此bug吗(是/否)?

答:否

  • 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)?

答:在爬取 特定用户+设置独立的since_date 时才会出现问题

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:失败的userId:5860352662
since_date: 2024-01-01
(也尝试过2024-07-01之类的,都不行)

  • 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。

答:附图中可以看到,不在user_id后设置since_date时,可以正常爬取出错用户
在设置since_date后,总页数读取正确,但在progress:0%时直接退出

作为对比,给另外一名随机用户也设置了同样的since_date,可以正常读取,所以不应该是cookie或者ip的问题
config中的的since_date设置为2010-01-01,end_date为now,其余均保持默认

屏幕截图 2024-08-01 101208
屏幕截图 2024-08-01 101444

@abcabcaaaB abcabcaaaB added the bug label Aug 1, 2024
@dataabc
Copy link
Owner

dataabc commented Aug 1, 2024

感谢反馈。应该是判断置顶微博出错所致,目前没有特别好的办法,你可以设置一个早于所有置顶微博的since_date。

@abcabcaaaB
Copy link
Author

感谢反馈。应该是判断置顶微博出错所致,目前没有特别好的办法,你可以设置一个早于所有置顶微博的since_date。

谢谢大佬,发现此问题时其实是由于程序判断爬取结束后自动写上的since_date 看来只能单独让他爬直到受限为止了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants