Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于微博爬虫对于“网页链接”的爬取 #600

Open
mTommy777 opened this issue Aug 23, 2024 · 4 comments
Open

关于微博爬虫对于“网页链接”的爬取 #600

mTommy777 opened this issue Aug 23, 2024 · 4 comments
Labels
feature 新需求

Comments

@mTommy777
Copy link

  • 问:请说明需要什么新功能。

答:目前使用该代码进行微博爬虫操作时,正文部分只能摘取到文本内容,但是在下面的”网页链接“超链接中,不能有效获取其中网址,希望得到补充,谢谢

  • 问:请说明添加该功能的意义。(非必填)

答:

@mTommy777 mTommy777 added the feature 新需求 label Aug 23, 2024
@dataabc
Copy link
Owner

dataabc commented Aug 23, 2024

感谢建议。目前没有这个打算,微博中可能包含多个链接,甚至正文内容也可能是链接,不好取舍。目前一种做法是提取包含网页代码的微博,不作其它处理,这个需要修改代码。

@mTommy777
Copy link
Author

好的谢谢,我在您的修改代码,尝试加入爬取网页链接过后出现了可以进入并读取网页获取用户信息,但爬取到微博正文为0的问题,删除我修改的部分后也是相同的问题,想请问您有相同问题吗

@dataabc
Copy link
Owner

dataabc commented Aug 23, 2024

我最近不方便调试代码,如果无法修复问题,您也可以修改使用免cookie版的。

@mTommy777
Copy link
Author

好的,谢谢您,祝工作顺利

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
feature 新需求
Projects
None yet
Development

No branches or pull requests

2 participants