Проекты сообщества.
Реальные ML-задачи в открытых командах. От идеи до релиза. Бери готовый, поднимайся в команде или открой собственный.

NoteGen
Automatic HTML page generator based on summaries and notes from Obsidian Markdown files. Supports LaTeX rendering for mathematical expressions, code block highlighting for multiple languages, and seamless embedding of links, images, and structured content. Designed with a clean, modern, and responsive UI, making generated pages easy to read and visually appealing. Ideal for publishing knowledge bases, study notes, and technical documentation with minimal setup.

Tensor-based Dynamic Mode Decomposition
The project provides a modular and extensible framework for working with tensor DMD under transform-induced tensor algebras, including core methods such as TDMD and its multirank variant TDMDII. It supports configurable transform operators (e.g., FFT-based and matrix-based transforms) that define the underlying tensor algebra, along with model-style APIs for fitting, prediction, and forecasting of dynamical systems.
Классификатор тональности отзывов
Учебный ML-проект: классификация тональности отзывов покупателей на русском языке (позитив / негатив / нейтраль). В основе — датасет русскоязычных отзывов с Kaggle (Russian Product Reviews). Обучаем ruBERT через HuggingFace Transformers, оборачиваем модель в FastAPI-сервис, деплоим через Docker. GitHub Actions гоняет линтер, тесты и сборку Docker-образа при каждом пуше. Идеальный стартовый NLP-пет-проект: реальные данные, современный стек, работающий CI/CD.

Детектор токсичных комментариев
Учебный NLP-проект: бинарная классификация комментариев на токсичность для русскоязычных социальных сетей. Датасет — Russian Toxic Comments (Kaggle). Fine-tune дистиллированного BERT (ruDistilBERT или cointegrated/rubert-tiny2), веб-демо через Gradio, контейнеризация Docker. Уклон на практику: аугментация данных, работа с дисбалансом классов, метрики F1/ROC-AUC. CI/CD через GitHub Actions: pytest, mypy, docker build. Хорошо смотрится в резюме ML-инженера.
Автоматическое резюме новостей
Учебный NLP-проект: автоматическое суммаризирование русскоязычных новостных статей с помощью модели ruT5 (IlyaGusev/rut5_base_sum_gazeta). Датасет — Gazeta.ru News (HuggingFace Datasets). Streamlit-интерфейс позволяет вставить текст статьи и получить краткое резюме. Docker + GitHub Actions CI. Учит работе с seq2seq архитектурой, beam search, оценкой качества через ROUGE-метрики.

Классификатор изображений с Transfer Learning
Учебный Computer Vision проект: классификация изображений цветов (Flowers Recognition, Kaggle) с помощью transfer learning на базе EfficientNet-B0 (PyTorch + timm). Покрывает полный ML-цикл: загрузка и аугментация данных torchvision transforms, обучение с заморозкой слоёв, fine-tuning, экспорт в ONNX. Streamlit-приложение для загрузки фото и получения предсказания. GitHub Actions: flake8, pytest, docker build. Отличный старт в CV для тех, кто раньше работал только с табличными данными.
Рекомендательная система фильмов
Учебный ML-проект: гибридная рекомендательная система на датасете MovieLens 100K. Реализует два подхода: коллаборативная фильтрация (SVD через Surprise) и контентная фильтрация (TF-IDF по жанрам и описаниям). REST API на FastAPI возвращает персонализированные рекомендации по user_id. Деплой через Docker Compose. GitHub Actions: unit-тесты, линтинг, docker build. Учит матричной факторизации, работе со sparse матрицами и cold-start проблеме.
Извлечение именованных сущностей (NER)
Учебный NLP-проект: система распознавания именованных сущностей PER, ORG, LOC, DATE в русскоязычных текстах. Датасет — FactRuEval или Collection3. Fine-tune bert-base-multilingual-cased через HuggingFace Trainer на token classification задачу. FastAPI-сервис принимает текст и возвращает размеченные сущности в JSON. Визуализация через spaCy displacy. Docker + GitHub Actions. Учит работе с BIO-разметкой, seqeval метриками и тонкостям токенизации при NER.