Датасеты
Это еще один список русскоязычных наборов данных и ресурсов для задач NLP на русском языке.
Датасеты без тематики
Название | Описание | Ссылка |
---|---|---|
Dataset Of Depressive And Suicidal Posts | Набор данных, собранных из социальной сети VK для выявления депрессии и суицида. | https://data.mendeley.com/datasets/838dbcjpxb/1 |
Dataset For Presuicidal Signal Detection | Набор данных, собранный из постов аккаунтов Twitter, имеющие средний и высокий риск самоубийства. Предназначен для выявления признаков суицидального поведения. | https://huggingface.co/datasets/astromis/presuicidal_signals |
RuAdapt | Параллельный набор данных, в котором целевые тексты являются упрощенными версиями исходных текстов. Он подходит для задачи автоматического упрощения текста, а также для изучения того, как люди-эксперты упрощают тексты. | https://github.com/Digital-Pushkin-Lab/RuAdapt |
Small Student Science Corpus | Подборка текстов из студенческих научных работ с названием, аннотацией, ключевыми словами и разделением на абзацы. | https://github.com/Astromis/Small-Student-Science-Corpus |
RuCoCo | Рускоязычный кореференсный корпус. | https://github.com/vdobrovolskii/rucoco |
RuCoLA | Русскоязычный корпус лингвистической приемлемости. | https://huggingface.co/datasets/RussianNLP/rucola |
ParaPhraser | Корпус синонимичных предложений (парафраз) ParaPhraser. | https://github.com/tamriq/paraphrase/tree/master/data |
Набор Парафраз По Субтитрам | Неописанные данные для задачи парафраз. | https://github.com/tamriq/paraphrase/tree/master/data |
Russian Paraphrasers Data | Данные из проекта Russian Paraphrasers, которые являются смесью ParaPhraser и субтитров (см. описание в readme). | https://github.com/RussianNLP/russian_paraphrasers |
Russian Dataset For The Thread Reconstruction | Набор данных для задачи восстановления тредов сообщений, которая представляет собой задачу, в которой сообщения чата должны быть соединены таким образом, чтобы они создавали осмысленные потоки общения. | https://data.mendeley.com/datasets/7rms5vdhf8/1 |
Russian Dataset For The Reply Recovery | Набор данных составлен на основе нескольких чатов Telegram, чтобы научить модель предсказывать, может ли одно сообщение быть ответом на другое или нет. | https://data.mendeley.com/datasets/xm86yszck2/1 |
Датасеты для задачи анализа сентиментов
Название | Описание | Способ аннотации | Количество классов | Ссылка |
---|---|---|---|---|
RuReviews | Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине. | Автоматическое | 3 | https://github.com/sismetanin/rureviews |
RuSentiment | Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте. | Ручное | 5 | https://github.com/text-machine-lab/rusentiment |
Russian Hotel Reviews Dataset | Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей. | Автоматическое | 5 | https://drive.google.com/drive/folders/17sa3h4XHcG0MJGrbfOsbL-kDW29CuJul |
RuSentRel | Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций. | Ручное | 2 | https://github.com/nicolay-r/RuSentRel |
LINIS Crowd | Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ. | Ручное | 5 | http://www.linis-crowd.org/ |
Twitter Sentiment for 15 European Languages | Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском. | Ручное | 3 | https://www.clarin.si/repository/xmlui/handle/11356/1054 |
SemEval-2016 Task 5: Russian | Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному делу. Основан на SentiRuEval-2015 [2017]. | Ручное | 3 | http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools |
SentuRuEval-2016 | Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках. | Ручное | 3 | http://www.dialog-21.ru/evaluation/2016/sentiment/ |
SentuRuEval-2015 | Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей. | Ручное | 4 | http://www.dialog-21.ru/evaluation/2015/sentiment/ |
RuTweetCorp | Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии. | Автоматическое | 3 | https://study.mokoron.com/ |
Kaggle Russian News Dataset | Открытый набор с примерами настроений из российских новостей. | не указано | 3 | https://www.kaggle.com/c/sentiment-analysis-in-russian |
Kaggle Sentiment Analysis Dataset | Набор с примерами настроений из российских новостей. | не указано | 3 | https://www.kaggle.com/c/methodcompetition1/data |
Kaggle IS161AIDAY | Набор с примерами настроений, опубликованный Alem Research. | не указано | 3 | https://www.kaggle.com/c/is161aiday/discussion |
Kaggle Russian_twitter_sentiment | Набор с примерами настроений из русскоязычных Twitter-сообщений. | не указано | 2 | https://www.kaggle.com/thorinhood/russian-twitter-sentiment |
Ресурсы
- NLPub содержит ссылки на словари, тезаурусы, корпуса и другие ресурсы.
- Страница на сайте Татьяны Шавриной где перечислены различные наборы данных и корпусы. Кроме того, представлены некоторые производные.
- Metatext dataset database содержит умопомрачительное количество корпусов на различных языках, включая русский.
- Репозиторий Ильи Козиева с различными наборами данных и ресурсами.
- kartaslov — открытые данные от проекта “Карта слов”. Уникальный проект, спасибо авторам. Включает тональный словарь, разметку слов с семантикой, датасет с ассоциациями, датасет с орфографическими ошибками и опечатками.
- corpora — набор разных словарей на английском языке для создания ботов.