log

# ASExtractor

描述：中英文单文档自动摘要，提供不同相似度方法

###日志

阶段一. 基本框架搭建

	03/17　计划：尝试中文摘要提取，限制字数，基本框架实现。结果：Success,下一步尝试摘要评估
	
	03/18　由于中文文摘数据库不成熟，尝试将cnki的论文pdf,caj处理为数据集(pdf2txt)，进行摘要结果评估。结果：Failure，由于论文期刊格式不一样，无法准确提取出原文已有摘要，pdf2txt原文信息部分丢失
	
	03/19　Bug: SentenceExtraction.train()若用不同的source,结果会有较大差异，最好用'all_filters'
	
	03/20　计划：了解／尝试英文摘要，文章句子比例提取。结果：Success，中文摘要按比例提取
	
	03/22　实现英文分词，关键词提取，遗留问题：文本过长，提取关键词过多，是否要考虑文章长度，是否考虑以出现次数排序
	
	03/23　实现英文摘要，UI修改，遗留问题：是否考虑限制100字以内,下载INSPEC摘要772条用于关键词提取评估
	
	03/25　INSPEC数据处理，提取非受控关键词，进行关键词提取实验

	03/27　英文摘要代码修改，考虑相似度改进，基于词频和词语位置

	03/28　申请DUC2002语料，和Nicole Baten邮件交流，须提交申请，先将申请书打印填写，再扫描发送．．．估计得花两三天时间

	04/02　向Chin-Yew Lin 申请测评软件ROOUGE安装包，README好难理解啊

	04/03　改用pyrouge接口尝试，但是数据集格式要处理成每行一句

	04/05 交了论文初稿，但实验结果不理想，结论是我的改进方法压根就没效...让我静静

阶段二. Wordnet相似度

	04/07 了解wordnet语义词典的结构，实现词汇相似度/句子相似度的计算，时间36s左右，太耗时了

	04/10 通过打表的方式改进相似度计算，17s，还是很慢。

	04/11 关键词测评，结果确认ok

	04/12 文摘测评，搞了很久ROUGE，终于可以用了，system和model采用txt格式，每行一句，匹配(\w).(\w+)(\d+)-(\d+).txt，实验召回60%多，这有点不对啊～

	04/15 ROUGE匹配格式出错，所有测试文档保存为DUC2002-###.txt格式，正常匹配somename.(\d+).txt,somename.#ID.txt，结果还是60%多

	04/17 GUI修改，添加关键词栏，布局也更换，顶部添加菜单/工具栏

	04/22 尝试多model测评，重新处理数据格式，model提取为somename.[A-Z].#ID.txt，system数据也重新生成

	04/25 系统对比不同相似度standard/edit distance/wordnet，与DUC2002对比的话，实验结果有差异，不适合


> Written with [StackEdit](https://stackedit.io/).