Это еще один список русскоязычных наборов данных и ресурсов для задач NLP на русском языке.

Датасеты без тематики

Название	Описание	Ссылка
Dataset Of Depressive And Suicidal Posts	Набор данных, собранных из социальной сети VK для выявления депрессии и суицида.	https://data.mendeley.com/datasets/838dbcjpxb/1
Dataset For Presuicidal Signal Detection	Набор данных, собранный из постов аккаунтов Twitter, имеющие средний и высокий риск самоубийства. Предназначен для выявления признаков суицидального поведения.	https://huggingface.co/datasets/astromis/presuicidal_signals
RuAdapt	Параллельный набор данных, в котором целевые тексты являются упрощенными версиями исходных текстов. Он подходит для задачи автоматического упрощения текста, а также для изучения того, как люди-эксперты упрощают тексты.	https://github.com/Digital-Pushkin-Lab/RuAdapt
Small Student Science Corpus	Подборка текстов из студенческих научных работ с названием, аннотацией, ключевыми словами и разделением на абзацы.	https://github.com/Astromis/Small-Student-Science-Corpus
RuCoCo	Рускоязычный кореференсный корпус.	https://github.com/vdobrovolskii/rucoco
RuCoLA	Русскоязычный корпус лингвистической приемлемости.	https://huggingface.co/datasets/RussianNLP/rucola
ParaPhraser	Корпус синонимичных предложений (парафраз) ParaPhraser.	https://github.com/tamriq/paraphrase/tree/master/data
Набор Парафраз По Субтитрам	Неописанные данные для задачи парафраз.	https://github.com/tamriq/paraphrase/tree/master/data
Russian Paraphrasers Data	Данные из проекта Russian Paraphrasers, которые являются смесью ParaPhraser и субтитров (см. описание в readme).	https://github.com/RussianNLP/russian_paraphrasers
Russian Dataset For The Thread Reconstruction	Набор данных для задачи восстановления тредов сообщений, которая представляет собой задачу, в которой сообщения чата должны быть соединены таким образом, чтобы они создавали осмысленные потоки общения.	https://data.mendeley.com/datasets/7rms5vdhf8/1
Russian Dataset For The Reply Recovery	Набор данных составлен на основе нескольких чатов Telegram, чтобы научить модель предсказывать, может ли одно сообщение быть ответом на другое или нет.	https://data.mendeley.com/datasets/xm86yszck2/1
Bundle: Medical Center Review, Telegram Channels Corpus, Building Materials Names	Набор датасетов на русском языке с отзывами на мед. учреждения, корпус телеграм каналов, названия материалов	https://github.com/blanchefort/datasets
Шлепа — большой русский бенчмарк	Бенчмарк для оценки БЯМ на знание русской культуры. Подробнее в посте.	https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb

Датасеты для задачи анализа сентиментов

Название	Описание	Способ аннотации	Количество классов	Ссылка
RuReviews	Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине.	Автоматическое	3	https://github.com/sismetanin/rureviews
RuSentiment	Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте.	Ручное	5	https://github.com/text-machine-lab/rusentiment
Russian Hotel Reviews Dataset	Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей.	Автоматическое	5	https://drive.google.com/drive/folders/17sa3h4XHcG0MJGrbfOsbL-kDW29CuJul
RuSentRel	Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций.	Ручное	2	https://github.com/nicolay-r/RuSentRel
LINIS Crowd	Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ.	Ручное	5	http://www.linis-crowd.org/
Twitter Sentiment for 15 European Languages	Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском.	Ручное	3	https://www.clarin.si/repository/xmlui/handle/11356/1054
SemEval-2016 Task 5: Russian	Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному делу. Основан на SentiRuEval-2015 [2017].	Ручное	3	http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools
SentuRuEval-2016	Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках.	Ручное	3	http://www.dialog-21.ru/evaluation/2016/sentiment/
SentuRuEval-2015	Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей.	Ручное	4	http://www.dialog-21.ru/evaluation/2015/sentiment/
RuTweetCorp	Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии.	Автоматическое	3	https://study.mokoron.com/
Kaggle Russian News Dataset	Открытый набор с примерами настроений из российских новостей.	не указано	3	https://www.kaggle.com/c/sentiment-analysis-in-russian
Kaggle Sentiment Analysis Dataset	Набор с примерами настроений из российских новостей.	не указано	3	https://www.kaggle.com/c/methodcompetition1/data
Kaggle IS161AIDAY	Набор с примерами настроений, опубликованный Alem Research.	не указано	3	https://www.kaggle.com/c/is161aiday/discussion
Kaggle Russian_twitter_sentiment	Набор с примерами настроений из русскоязычных Twitter-сообщений.	не указано	2	https://www.kaggle.com/thorinhood/russian-twitter-sentiment

Ресурсы

NLPub содержит ссылки на словари, тезаурусы, корпуса и другие ресурсы.
Страница на сайте Татьяны Шавриной где перечислены различные наборы данных и корпусы. Кроме того, представлены некоторые производные.
Metatext dataset database содержит умопомрачительное количество корпусов на различных языках, включая русский.
Репозиторий Ильи Козиева с различными наборами данных и ресурсами.
kartaslov — открытые данные от проекта “Карта слов”. Уникальный проект, спасибо авторам. Включает тональный словарь, разметку слов с семантикой, датасет с ассоциациями, датасет с орфографическими ошибками и опечатками.
corpora — набор разных словарей на английском языке для создания ботов.