GitHub - DenceChen/2018-daguan-conpetition: 2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4

非常感谢达观杯给我们提供这次机会以及科赛平台提供了很棒的GPU，再次感谢。

赛题网址：http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

任务：观数据提供了一批长文本数据和分类信息，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

解决方案：由于部分代码暂时有用，现在只公开一个单模型：B榜单模型分数可达到0.798.

对于这个文本分类任务，有个小的操作其实都可以达到很高的分数，即使模型不够优秀。通过对于词向量做一个增强，即利用word2vec与glove的差异性，构建一个鲁棒性更高的词语向量表征。大家也可以试试word2vec+glove+faxttext的组合，对于我来说，效果并不是很好，我觉得可能的原因是faxttext与word2vec的相似性很高，弱化了glove的向量表征，同时，对于glove单独的词向量我也没有尝试过，大家也可以尝试一下。

对于模型的话，我开源了一个双层的bi_GRU模型,这个模型很简单，就没啥好说的了，大家看看就好，希望大家可以取得更好的成绩！

模型运行：将原始数据集input到data文件夹然后 sh run.sh （很简单一个命令）！大概的先介绍到这里，有时间在介绍啦！

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
code		code
data		data
glove		glove
.gitattributes		.gitattributes
README.md		README.md
run.sh		run.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

DenceChen/2018-daguan-conpetition

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages