Skip to content
/ minerva Public

分布式爬虫,目前可以抓取点评&知乎的部分数据

License

Notifications You must be signed in to change notification settings

linzhi/minerva

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

82 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Minerva

智慧女神号

Minerva(智慧女神号)旨在提供简单可依赖的分布式数据定向抓取工具,目前已经实现有:

  • 获取点评的POI信息
  • 获取知乎的问题&答案

特点

  • 使用redis存储linkbase信息:抓取url的FIFO队列由redis的list维护,已抓取url集合由redis的set维护
  • 页面解析存储在mongo,字段易存储、易扩展
  • spider可在多台机器单进程运行,充分利用机器资源
  • master和slave间方法调用采用Thrift RPC服务框架,效率高

Usage:

启动master: python master.py, 启动spider: python spider.py

相关的依赖库:

  • pymongo (3.4.0)
  • redis (2.10.5)
  • thriftpy (0.3.9)
  • BeautifulSoup (3.2.1)
  • requests (2.13.0)

About

分布式爬虫,目前可以抓取点评&知乎的部分数据

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published