Автоматическое получение размеченного корпуса

Если методы обучения в проблеме разрешения многозначности полагаются на неаннотированный (неразмеченный) корпус, то обучение с учителем коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов обучения. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.

Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.

Источник: Википедия

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я