
Детектор токсичных комментариев
Описание
Учебный NLP-проект: бинарная классификация комментариев на токсичность для русскоязычных социальных сетей. Датасет — Russian Toxic Comments (Kaggle). Fine-tune дистиллированного BERT (ruDistilBERT или cointegrated/rubert-tiny2), веб-демо через Gradio, контейнеризация Docker. Уклон на практику: аугментация данных, работа с дисбалансом классов, метрики F1/ROC-AUC. CI/CD через GitHub Actions: pytest, mypy, docker build. Хорошо смотрится в резюме ML-инженера.
Роли (3)
NLP-инженер
открытаОбязанности: fine-tuning BERT/ruDistilBERT на бинарную классификацию токсичности, работа с дисбалансом классов (oversampling, class_weight), оценка F1-macro, ROC-AUC, анализ ошибок модели. Навыки: Python, HuggingFace Transformers, sklearn, imbalanced-learn.
Data Scientist
открытаОбязанности: EDA датасета Russian Toxic Comments, предобработка текста (очистка, нормализация), аугментация (back-translation, synonym replacement), визуализация распределений. Навыки: Python, pandas, matplotlib, seaborn, nltk.
Frontend-разработчик (Gradio)
открытаОбязанности: разработка Gradio-интерфейса для демо-режима модели, создание примеров для тестирования, обёртка модели в удобный UI, базовая стилизация. Навыки: Python, Gradio, базовый HTML/CSS.
Участники (0)
Пока только создатель.
Апдейты (0)
Апдейтов ещё нет.
Комментарии (0)
Войдите, чтобы оставить комментарий