extract_keyword_paragraphs

setup

纯业务的项目，受朋友之托，在很多个word中提取含有特定关键字的段落和一些其他信息，汇总整理成excel；
word主要格式有.doc和.docx，前者是旧的格式储存方式为二进制文件，python处理的时候需要先使用win32com库转换成储存方式为xml的.doc处理；（也可以使用antiword库直接解析，但该库是linux平台的，考虑到最后程序要在win上面跑，遂放弃）
目前主要分为三个模块，在main.py里面通过路径获得文件，处理完之后汇总到excel，这样处理方便扩展模块，以后可以接其他的文件类型；
PathReader，主要是处理一些路径不存在，文件夹重复的问题；
WordDealer，完成.doc -> .docx，解析，使用python-docx库；
ExcelSaver，汇总并储存为.xlsx，使用xlsxwriter库，是一个专注于写入表格的库。

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
dealer		dealer
docs_with_keyword		docs_with_keyword
.gitignore		.gitignore
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
config.py		config.py
main.py		main.py