MountainAI
Войти
ProjectsДетектор токсичных комментариев

Детектор токсичных комментариев

Учебный NLP-проект: бинарная классификация комментариев на токсичность для русскоязычных социальных сетей. Датасет — Russian Toxic Comments (Kaggle). Fine-tune дистиллированного BERT (ruDistilBERT или cointegrated/rubert

active · idea3 открытых ролейnlpclassificationpythongradio
● Высота
ALT 3051m
● Старт
18 апр. 2026 г.
● Команда
1 человек
● Апдейтов
0

Маршрут проекта

Учебный NLP-проект: бинарная классификация комментариев на токсичность для русскоязычных социальных сетей. Датасет — Russian Toxic Comments (Kaggle). Fine-tune дистиллированного BERT (ruDistilBERT или cointegrated/rubert-tiny2), веб-демо через Gradio, контейнеризация Docker. Уклон на практику: аугментация данных, работа с дисбалансом классов, метрики F1/ROC-AUC. CI/CD через GitHub Actions: pytest, mypy, docker build. Хорошо смотрится в резюме ML-инженера.

Поделиться:Telegram

Репозиторий

github.com/mountainai-community/toxic-comment-detector

Открытые роли (3)

NLP-инженер

открыта

Обязанности: fine-tuning BERT/ruDistilBERT на бинарную классификацию токсичности, работа с дисбалансом классов (oversampling, class_weight), оценка F1-macro, ROC-AUC, анализ ошибок модели. Навыки: Python, HuggingFace Transformers, sklearn, imbalanced-learn.

pythonhuggingfacenlpclassification
Войти чтобы подать заявку

Data Scientist

открыта

Обязанности: EDA датасета Russian Toxic Comments, предобработка текста (очистка, нормализация), аугментация (back-translation, synonym replacement), визуализация распределений. Навыки: Python, pandas, matplotlib, seaborn, nltk.

pythondata-analysisedapandas
Войти чтобы подать заявку

Frontend-разработчик (Gradio)

открыта

Обязанности: разработка Gradio-интерфейса для демо-режима модели, создание примеров для тестирования, обёртка модели в удобный UI, базовая стилизация. Навыки: Python, Gradio, базовый HTML/CSS.

pythongradiofrontend
Войти чтобы подать заявку

Апдейты (0)

Апдейтов ещё нет.

Комментарии (0)

Войдите, чтобы оставить комментарий

GitHub-репозиторий недоступен или API упёрся в rate-limit.