Это еще один список русскоязычных наборов данных и ресурсов для задач NLP на русском языке.

Датасеты без тематики

Название Описание Ссылка
Dataset Of Depressive And Suicidal Posts Набор данных, собранных из социальной сети VK для выявления депрессии и суицида. https://data.mendeley.com/datasets/838dbcjpxb/1
Dataset For Presuicidal Signal Detection Набор данных, собранный из постов аккаунтов Twitter, имеющие средний и высокий риск самоубийства. Предназначен для выявления признаков суицидального поведения. https://huggingface.co/datasets/astromis/presuicidal_signals
RuAdapt Параллельный набор данных, в котором целевые тексты являются упрощенными версиями исходных текстов. Он подходит для задачи автоматического упрощения текста, а также для изучения того, как люди-эксперты упрощают тексты. https://github.com/Digital-Pushkin-Lab/RuAdapt
Small Student Science Corpus Подборка текстов из студенческих научных работ с названием, аннотацией, ключевыми словами и разделением на абзацы. https://github.com/Astromis/Small-Student-Science-Corpus
RuCoCo Рускоязычный кореференсный корпус. https://github.com/vdobrovolskii/rucoco
RuCoLA Русскоязычный корпус лингвистической приемлемости. https://huggingface.co/datasets/RussianNLP/rucola
ParaPhraser Корпус синонимичных предложений (парафраз) ParaPhraser. https://github.com/tamriq/paraphrase/tree/master/data
Набор Парафраз По Субтитрам Неописанные данные для задачи парафраз. https://github.com/tamriq/paraphrase/tree/master/data
Russian Paraphrasers Data Данные из проекта Russian Paraphrasers, которые являются смесью ParaPhraser и субтитров (см. описание в readme). https://github.com/RussianNLP/russian_paraphrasers
Russian Dataset For The Thread Reconstruction Набор данных для задачи восстановления тредов сообщений, которая представляет собой задачу, в которой сообщения чата должны быть соединены таким образом, чтобы они создавали осмысленные потоки общения. https://data.mendeley.com/datasets/7rms5vdhf8/1
Russian Dataset For The Reply Recovery Набор данных составлен на основе нескольких чатов Telegram, чтобы научить модель предсказывать, может ли одно сообщение быть ответом на другое или нет. https://data.mendeley.com/datasets/xm86yszck2/1

Датасеты для задачи анализа сентиментов

Название Описание Способ аннотации Количество классов Ссылка
RuReviews Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине. Автоматическое 3 https://github.com/sismetanin/rureviews
RuSentiment Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте. Ручное 5 https://github.com/text-machine-lab/rusentiment
Russian Hotel Reviews Dataset Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей. Автоматическое 5 https://drive.google.com/drive/folders/17sa3h4XHcG0MJGrbfOsbL-kDW29CuJul
RuSentRel Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций. Ручное 2 https://github.com/nicolay-r/RuSentRel
LINIS Crowd Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ. Ручное 5 http://www.linis-crowd.org/
Twitter Sentiment for 15 European Languages Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском. Ручное 3 https://www.clarin.si/repository/xmlui/handle/11356/1054
SemEval-2016 Task 5: Russian Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному делу. Основан на SentiRuEval-2015 [2017]. Ручное 3 http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools
SentuRuEval-2016 Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках. Ручное 3 http://www.dialog-21.ru/evaluation/2016/sentiment/
SentuRuEval-2015 Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей. Ручное 4 http://www.dialog-21.ru/evaluation/2015/sentiment/
RuTweetCorp Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии. Автоматическое 3 https://study.mokoron.com/
Kaggle Russian News Dataset Открытый набор с примерами настроений из российских новостей. не указано 3 https://www.kaggle.com/c/sentiment-analysis-in-russian
Kaggle Sentiment Analysis Dataset Набор с примерами настроений из российских новостей. не указано 3 https://www.kaggle.com/c/methodcompetition1/data
Kaggle IS161AIDAY Набор с примерами настроений, опубликованный Alem Research. не указано 3 https://www.kaggle.com/c/is161aiday/discussion
Kaggle Russian_twitter_sentiment Набор с примерами настроений из русскоязычных Twitter-сообщений. не указано 2 https://www.kaggle.com/thorinhood/russian-twitter-sentiment

Ресурсы

  • NLPub содержит ссылки на словари, тезаурусы, корпуса и другие ресурсы.
  • Страница на сайте Татьяны Шавриной где перечислены различные наборы данных и корпусы. Кроме того, представлены некоторые производные.
  • Metatext dataset database содержит умопомрачительное количество корпусов на различных языках, включая русский.
  • Репозиторий Ильи Козиева с различными наборами данных и ресурсами.
  • kartaslov — открытые данные от проекта “Карта слов”. Уникальный проект, спасибо авторам. Включает тональный словарь, разметку слов с семантикой, датасет с ассоциациями, датасет с орфографическими ошибками и опечатками.
  • corpora — набор разных словарей на английском языке для создания ботов.