В этом списке я собираю полезные приложения, пакеты и библиотеки, с которыми когда-либо сталкивался или которые считаю полезными иметь про запас. Чтобы облегчить учет, я делю находки по классам приложений. Граниа между классами может плавать. Вот список этих классов:

инструмент — пакет, который делает какую-то одну специфичную и простую функцию. Может включать несколько смежных.
фреймворк — содержит множество тематически связанных инструментов. Позволяет решать широкий класс задач.
платформа — сложная конструкция из одного или нескольких фреймворков, содержащая пользовательский интерфейс.
разное — что не подошло ни к однму выше.

Инструменты

langdetect — старенький определитель языка.
lingua-py — тоже определитель языка, но явно активно поддерживаемый.
rusyll — инструмент для токенизации русских слов по слогам.
ThunderSVM — SVM на спидах GPU и multiCPU. Кто обучал SVM на scikit-learning, тот поймет.
Emoji — пакет для работы с эмоджи. Может переводить названия в эмоджи и наоборот (:thumbs_up: → 👍).
TextDescriptives — надстройка над spaCy, которая рассчитывает большое количество классических показателей для текста.
Titanis — тоже самое, что и предыдущее, но только для русского языка. Включает редкую штуку — дискурсивный анализ.
fuzzup — библиотека, которая позволяет производить кластеризкацию похожих строк.
RapidFuzz — библиотека, в которой реализованы разные метрики похожести строк. Подсчёт реализован на С++.
Fonetika — биюлиотека, в которой реализован Soundex и Metaphone для русского языка, а также для английского, шведского, эстонского и финского языков.

Фреймворки

Human Learn — scikit-совместимый пакет, который позволяет создавать руловые классификаторы. Киллер фича — можно нарисовать границу принятия решений. А еще есть интерактивка для анализа. Конечно, пакет больше для табличного анализа данных, но, кмк, для поиска слабых правил для создания предразметки сойдет.
mlxtend — набор разных инструментов для анализа данных. Почти полностью перекрывается scikit-learn, кроме алгоритмов майнинга паттернов.
cleanlab — библиотека для читски датасетов. Ребята мощные, с кучей статей по этой теме. Руки пока так и не дошли самому попробовать.
Torch-Pruning — серьезная библиотека для прунинга сеток.
DataDreamer — фреймворк на случай, если нужно сделать синтетику через БЯМ, обучить БЯМ или просто с затравками поработать. Видимо для тех случаев, когда LangChain использовать через чур.
EasyInstruct — фреймворк для работы с инструктивными датасетами. Содержит несколько методов синтеза и отбора таких датасетов. Естественно, имеется возможность подключить известные БЯМ через API. Есть модуль для работы с затравками. Схож с DataDreemer.
LLaMA-Factory — фреймворк для обучения Ллам и не только. Поддерживает пару десятков модели, из коробки можно подтянуть известные датасеты для разных задач, реализованы разные варианты PEFT.

Платформы

Potato — инструмент для разметки. Делал на него обзор здесь (https://t.me/yet_another_nlp_notes/31).
DataLab — платформа для обработки, анализа и даже учета данных. Включает web-интерфейс для просмотра датасетов. Последнее обновление только было год назад.
SMART — платформа разметки. Включает колаборативную разметку, активное обучение и панель админа. Все это из коробки. Как я понял, разметка только для текста.
Eevee — небольшая платформа разметки под задачи классификации, NER и seq2seq. Написана на JS (Vue). Удивило, что платформу можно установить как отдельное приложение прямо из браузера. Если у вас нет сервера, чтобы посадить всех разметчиков, то эта платформа выглядит как вариант. Как оно устанавливается? При помощи технологии Progressive Web Application. У нее есть проблемы, из-за чего через Safari и Mozilla установить не получится, но через хромоподобные браузеры — запросто. А поскольку семейство хромовых самый популярный браузер, то вопрос отпадает сам собой.
INCEpTION — платформа разметки текстов на NER, NEL, связи и т.д. Позиционируется как интеллектуальная, с заточкой под knowladge managment.

Разное

minGPT — минимальная имплементация GPT от Андрея Карпатого. Для образовательных целей.
comparing-corpora — ресерчекий код с разными метриками для сравнения корпусов. Читать обзора статьи здесь.
ruformers — список популярных открытых базовых моделей на основе трансформеров для решения задач по автоматической обработке русского языка.
russian_paraphrasers — ресерческая репа с моделями перефраз и кодом для их запуска.
nano-vLLM — облегченная имплементация движка vLLM для инференса БЯМ в 1200 строк кода.
nanochat — имплементация работающей БЯМ с читой, минимальной, слабозависимой кодовой базой. Специально для обучения и исследования.