Skip to content

mohammadiahmad/persian-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 

Repository files navigation

persian-dataset

This data set is collected by crawling the Young Journalist Club website(https://www.yjc.ir/) . This dataset has the following 9 categories:

  1. Artistic culture
  2. Communication
  3. Thecnology
  4. Economical
  5. International(Political)
  6. Political
  7. Scientific and Medical
  8. Social
  9. Sport

The data for each category is stored in files corresponding to the category name. Each line of the file contains the information of a news item such as text, category, date , ... . The format of each news as following:

{
  "link": "/fa/news/6819277/آشنایی-با-مرتضی-علی-احمدی-شهید-حادثه-تروریستی-امروز-در-سیستان-و-بلوچستان\n",
  "title": "آشنایی با مرتضی علی احمدی شهید حادثه تروریستی امروز در سیستان و بلوچستان",
  "code_news": "کد خبر: ۶۸۱۹۲۷۷",
  "category": "سیاسی",
  "date": "تاریخ انتشار: ۱۳ بهمن ۱۳۹۷ - ۱۶:۴۴",
  "text": " به گزارش حوزه امنیتی دفاعی گروه سیاسی باشگاه خبرنگاران جوان به نقل از عصر هامون، شهید مرتضی علی احمدی در تیرماه ۱۳۹۵ به عنوان مسئول سازمان فضای مجازی بسیج شهرستان نیکشهر معرفی شد و مدت ٦ ماه با قرارگاه فضای مجازی بسیج استان سیستان و بلوچستان همکاری داشت. او در سال ۹۶ مسئولیت شباب این ناحیه را بر عهده گرفت و پس از آن به مجموعه فاوا پیوست. گفتنی است، این شهید بزرگوار متولد ۱۳۷۲ در زاهدان بود."
}

Download link: https://www.dropbox.com/s/084prex1jfu5u1n/yjc_news.tar.gz?dl=0

#persian text classification

About

Persian data set for text classification

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published