Описание и постановка задачи
Участникам предлагается три трека:
- Выявление терминов;
- Выявление и классификация терминов по трём классам (specific_term, common_term, nomen);
- Выявление и классификация терминов по трём классам (specific_term, common_term, nomen) с постановкой задачи трансферного обучения на другие домены.
Под выявлением терминов подразумевается идентификация фрагментов текста, являющихся терминами в широком понимании.
Классы терминов:
- specific term– термины, специфичные и доменно, и лексически;
- common term– термины, специфичные только доменно (могут быть известны и употребляться неспециалистами);
- nomen– наименования уникальных объектов, принадлежащих конкретному домену.
Данные
Специально для соревнования подготовлен вручную размеченный набор данных CL-RuTerm3 на материале русскоязычных аннотаций статей конференции «Диалог» за период 2000-2023 гг. Тренировочный сет состоит из 850 аннотаций домена компьютерной лингвистики в широком понимании «Диалога». Тестовые наборы для первого и второго трека помимо аннотаций включают полнотекстовые статьи того же домена. Тестовый сет для третьего трека состоит из аннотаций других доменов.
Важно: полнотекстовые статьи и аннотации других доменов отсутствуют в тренировочном наборе, они включены только в тестовые сеты для проверки качества моделей в рамках трансферного обучения на другом жанре (аннотации vs полнотекстовые статьи) и другом домене (компьютерная лингвистика vs другие научные области).
График проведения
1.07.2024 — публикация тренировочного набора, начало первой стадии соревнования;
01.01.2025 — публикация финального тестового набора, старт фазы итогового тестирования;
10.01.2025 — окончание соревнования;
01.02.2025 — дедлайн подачи статей.