2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4
非常感谢达观杯给我们提供这次机会以及科赛平台提供了很棒的GPU,再次感谢。
任务:观数据提供了一批长文本数据和分类信息,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。
解决方案: 由于部分代码暂时有用,现在只公开一个单模型:B榜单模型分数可达到0.798.
对于这个文本分类任务,有个小的操作其实都可以达到很高的分数,即使模型不够优秀。通过对于词向量做一个增强,即利用word2vec与glove的差异性,构建一个鲁棒性更高的词语向量表征。大家也可以试试word2vec+glove+faxttext的组合,对于我来说,效果并不是很好,我觉得可能的原因是faxttext与word2vec的相似性很高,弱化了glove的向量表征,同时,对于glove单独的词向量我也没有尝试过,大家也可以尝试一下。
对于模型的话,我开源了一个双层的bi_GRU模型,这个模型很简单,就没啥好说的了,大家看看就好,希望大家可以取得更好的成绩!
模型运行: 将原始数据集input到data文件夹 然后 sh run.sh (很简单一个命令)! 大概的先介绍到这里,有时间在介绍啦!