Skip to content

Latest commit

 

History

History
30 lines (29 loc) · 2.17 KB

README.md

File metadata and controls

30 lines (29 loc) · 2.17 KB

基于共词分析的CNKI文献关键词聚类

麻麻再也不用担心我的文献综述(不)

1.功能简介

向脚本喂食.txt文件,就可以得到一个基于ward连接的关键词层次聚类结果(雾)

2.食用(划掉)使用方法

2.1 获取文献记录

中国知网检索要分析的文献题录,选择导出/参考文献,在左侧的文献导出格式选择Refworks,点击导出按钮。
将获取的.txt文件放入/cnki文件夹中。

2.2 参数设置

参数保存在config.py中。

  • outPutPath:输出文件的路径(目前暂时用不到)
  • stopWords:停用词。停用词将不会被计算词频、放入共词矩阵分析和聚类。其中NoKeyword是空缺值,更改可能会引起未知后果
  • minFreq:参与共词矩阵分析的最小词频(需大于0)。高于该词频的关键词将放入共词矩阵分析和聚类
  • numOfFreqWord:指定参与共词矩阵分析的单词个数(默认不开启)。如果要开启需要将minFreq设置为 0/None/False
  • numOfClusters: 指定聚类时划分的类团数
  • thesaurus: 用于词语的规范化,以非规范词:规范词的形式储存。冒号左边是要转换的单词,右边是转换后的规范词

2.3 运行脚本

运行main.py

3.示例输出

0 ['大数据', '教育信息化', '高校教育', '教育管理', '职业教育', '云计算', '数据分析', '数据库', '高等教育', '支持向量机', '学校', '知识发现', '评价', '信息技术', '大学生', '网络教学', '网络课程', '个性化教育']
1 ['学习行为', '网络学习', '自适应学习', '学习者特征', '教育资源', '网络']
2 ['学习分析', '教育数据挖掘', '在线教育', '在线学习', 'MOOC', '可视化', '社会网络分析', '教育数据']
3 ['数据仓库', '联机分析处理', '决策支持']
4 ['远程教育', 'Web挖掘', '个性化学习', '网络教育', '个性化']
5 ['教育大数据', '机器学习', '人工智能', '智慧教育']
6 ['决策树', '教学评估', '聚类分析', '成绩分析', '分类', '个性化推荐', '遗传算法']
7 ['关联规则', 'Apriori算法']