Извлечение именованных сущностей (NER)
Описание
Учебный NLP-проект: система распознавания именованных сущностей PER, ORG, LOC, DATE в русскоязычных текстах. Датасет — FactRuEval или Collection3. Fine-tune bert-base-multilingual-cased через HuggingFace Trainer на token classification задачу. FastAPI-сервис принимает текст и возвращает размеченные сущности в JSON. Визуализация через spaCy displacy. Docker + GitHub Actions. Учит работе с BIO-разметкой, seqeval метриками и тонкостям токенизации при NER.
Роли (4)
NLP-инженер
открытаОбязанности: fine-tune bert-base-multilingual-cased через HuggingFace Trainer на NER задачу с BIO разметкой, вычисление seqeval метрик (precision/recall/F1 per entity), анализ ошибок модели. Навыки: Python, HuggingFace Transformers, token classification, seqeval.
Data Annotator
открытаОбязанности: разметка дополнительных примеров по инструкции BIO, контроль качества аннотаций (inter-annotator agreement), подготовка аннотационных гайдлайнов для команды. Навыки: понимание NER задачи, внимательность, базовый Python для проверки разметки.
Backend-разработчик (FastAPI)
открытаОбязанности: FastAPI-сервис для NER инференса, структурированный JSON ответ с сущностями и offset, batch inference endpoint, тесты с pytest. Навыки: Python, FastAPI, Pydantic, pytest.
MLOps-инженер
открытаОбязанности: Dockerfile, GitHub Actions (lint, pytest, docker build), кэширование весов модели в образе, health-check endpoint, мониторинг latency. Навыки: Docker, GitHub Actions, bash, CI/CD.
Участники (0)
Пока только создатель.
Апдейты (0)
Апдейтов ещё нет.
Комментарии (0)
Войдите, чтобы оставить комментарий