Dialogue Evaluation 2024

RuTermEval-2024

Competitions

Соревнование по выявлению терминов в научных статьях на русском языке

Ссылки

Описание и постановка задачи

Участникам предлагается три трека:

  • Выявление терминов;
  • Выявление и классификация терминов по трём классам (specific_term, common_term, nomen);
  • Выявление и классификация терминов по трём классам (specific_term, common_term, nomen) с постановкой задачи трансферного обучения на другие домены.

Под выявлением терминов подразумевается идентификация фрагментов текста, являющихся терминами в широком понимании.

Классы терминов:

  • specific term– термины, специфичные и доменно, и лексически;
  • common term– термины, специфичные только доменно (могут быть известны и употребляться неспециалистами);
  • nomen– наименования уникальных объектов, принадлежащих конкретному домену.

Данные

Специально для соревнования подготовлен вручную размеченный набор данных CL-RuTerm3 на материале русскоязычных аннотаций статей конференции «Диалог» за период 2000-2023 гг. Тренировочный сет состоит из 850 аннотаций домена компьютерной лингвистики в широком понимании «Диалога». Тестовые наборы для первого и второго трека помимо аннотаций включают полнотекстовые статьи того же домена. Тестовый сет для третьего трека состоит из аннотаций других доменов.

Важно: полнотекстовые статьи и аннотации других доменов отсутствуют в тренировочном наборе, они включены только в тестовые сеты для проверки качества моделей в рамках трансферного обучения на другом жанре (аннотации vs полнотекстовые статьи) и другом домене (компьютерная лингвистика vs другие научные области).

График проведения

1.07.2024 — публикация тренировочного набора, начало первой стадии соревнования;

01.01.2025 — публикация финального тестового набора, старт фазы итогового тестирования;

10.01.2025 — окончание соревнования;

01.02.2025 — дедлайн подачи статей.

Competitions