Детектор токсичных комментариев

activeideanlpclassificationpythongradiohuggingfacebeginner

Описание

Учебный NLP-проект: бинарная классификация комментариев на токсичность для русскоязычных социальных сетей. Датасет — Russian Toxic Comments (Kaggle). Fine-tune дистиллированного BERT (ruDistilBERT или cointegrated/rubert-tiny2), веб-демо через Gradio, контейнеризация Docker. Уклон на практику: аугментация данных, работа с дисбалансом классов, метрики F1/ROC-AUC. CI/CD через GitHub Actions: pytest, mypy, docker build. Хорошо смотрится в резюме ML-инженера.

Поделиться:Telegram

github.com/mountainai-community/toxic-comment-detector

Роли (3)

NLP-инженер

открыта

Войти чтобы подать заявку

Обязанности: fine-tuning BERT/ruDistilBERT на бинарную классификацию токсичности, работа с дисбалансом классов (oversampling, class_weight), оценка F1-macro, ROC-AUC, анализ ошибок модели. Навыки: Python, HuggingFace Transformers, sklearn, imbalanced-learn.

pythonhuggingfacenlpclassification

Data Scientist

открыта

Войти чтобы подать заявку

Обязанности: EDA датасета Russian Toxic Comments, предобработка текста (очистка, нормализация), аугментация (back-translation, synonym replacement), визуализация распределений. Навыки: Python, pandas, matplotlib, seaborn, nltk.

pythondata-analysisedapandas

Frontend-разработчик (Gradio)

открыта

Войти чтобы подать заявку

Обязанности: разработка Gradio-интерфейса для демо-режима модели, создание примеров для тестирования, обёртка модели в удобный UI, базовая стилизация. Навыки: Python, Gradio, базовый HTML/CSS.

pythongradiofrontend

Участники (0)

Пока только создатель.

Апдейты (0)

Апдейтов ещё нет.

Комментарии (0)

Войдите, чтобы оставить комментарий

GitHub-репозиторий недоступен или API упёрся в rate-limit.