Добрый день!
Часть данных доступна на http://77.95.135.180/share
Данные свободны для распространения.
Если вам нужно больше данных какого-то типа, обращайтесь к кураторам, они могут помочь.
Резюме людей с описанием их опыта и набор описаний вакансий. Всего 128 тысяч резюме, каждое записано в JSON формате на отдельной строке и 190 тысяч вакансий в аналогичном формате
http://77.95.135.180/share/superjob/
Описание событий и профили людей с посещенными мероприятиями. Доступно 25к профилей
http://77.95.135.180/share/leaderid.zip
Проектные идеи, поданные на финансирование в АСИ. Доступно 3000 проектов с подробным описанием и текущим статусом рассмотрения заявки.
Для получения обращайтесь в телеграм к @tenich.
Даны репозитории. В каждом репозитории доступна полная информация об истории: коммиты, их автор, ветки и так далее. Репозитории лежат в папках в стандартном формате .git. Всего можно взять произвольное число самых популярных репозиториев.
Доступны на https://github.com/Omrigan/github-repo-downloader
Первые 100 репозиториев доступны на http://77.95.135.180/share/github-100.zip
Даны проекты, собранные из пакетных менеджеров. В каждом пакете доступны название, история версий, адрес репозитория с кодом. Пакеты объединены в граф зависимостей и последовательность версий. Всего есть 2.7 миллиона проектов. Д
Доступны на https://libraries.io/data
Даны правки статей в публичной википедии. В каждой правке доступны id страницы, номер ревизии, комментарий пользователя. правки объединены во временной ряд. Всего есть 18 гигабайт упакованных данных и несколько терабайт распакованных. Рекомендуется использовать поточную распаковку, чтобы экономить память. Доступны на https://dumps.wikimedia.org/enwiki/20180201/
Даны данные о проектах за 2014-2018 годы. Для каждого проекта в датасете можно обнаружить описание, сколько денег привлекли, где проект стартовал и другие метаданные. Датасеты доступны в форматах JSON и CSV: https://webrobots.io/kickstarter-datasets/
Даны оценки и расписание занятий студентов. В каждой записи расписания доступны: время, студент, преподаватель, курс, тип занятия. В каждой записи рейтинга дана фамилия студента и его оценки за прошедший семестр. Расписания и рейтинги есть за несколько последних лет для всех образовательных программ. Расписания доступны на http://ruz.hse.ru/. Рейтинги доступны по адресам: https://www.hse.ru/ba/<инициалы программы>/ratings?. Профили преподавателей и резюме преподавателей доступны https://www.hse.ru/org/persons/
Даны баги. В каждом баге доступны заголовок, тело, комменты, дата, репортёр, подписанные, статус, и зависимости (кто кого блокирует). Всего есть около 11000 багов.
http://77.95.135.180/share/bugzilla.mozilla.org.zip
Даны git-патчи и метаданные к ним. В каждом патче доступны commit message, patch, время и другие стандартные атрибуты. Метаданные включает в себя reviewers, метки и комментарии. Доступны средние миллионы патчей: https://android-review.googlesource.com/
Даны сообщения по каналам. В каждом сообщении доступны отправитель, текст и дата. Доступны миллионы сообщений: https://botbot.me. В качестве примера, уже скачаны 4214 сообщений, доступно здесь: http://77.95.135.180/share/botbot.me.zip.
Cообщения сообщества ODS в Slack из различных каналов. 2000 пользователей, 100 каналов, более 200к сообщений. Доступны на http://77.95.135.180/share/Slack_OpenDataScience.zip
Все сообщения с Gitter-а организации freeCodeChamp (некоммерческая образовательная платформа) с декабря 2014 по декабрь 2017
Доступны на http://77.95.135.180/share/Gitter_freeCodeChamp.zip
Даны письма. В каждом письме доступны заголовок, тело письма, дата, оправитель, получатели, иногда git patch. Письма объединены в древовидные цепочки. Всего есть около трех миллионов писем.
Доступны на https://lkml.org/lkml
3400 проектов, каждый из которых имеет описание, тематику, команду, инвесторов, презентации, ведущего менеджера и получил ли проект грант.
Доступны на http://77.95.135.180/share/skolkovo/skolkovo.csv
Дана история взаимодействия пользователей с онлайн-курсом. Дан временной ряд прохождения шагов онлайн-курса для всех пользователей, которые открывали этот курс.
http://77.95.135.180/share/stepic.zip
Можно подробно почитать на http://77.95.135.180/share/rostrud/
А также по телефонам и в телеграме
89165752127 Ирина Анисимова. Роструд
89161495427 Сергей Макатров. Роструд. . Можно звонить с 8 утра до 24 вечера
Вот еще некоторые ссылки, которые могут быть вам полезны:
- https://blog.kjamistan.com/bot-scraper-new-chat-logs-nlp-dataset/
- https://www.kaggle.com/free-code-camp/all-posts-public-main-chatroom/
- https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- https://searchworks.stanford.edu/view/mv327tb8364
- https://github.com/ckreibich/scholar.py