Связанные понятия
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП...
Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.
Избыточность языка — статистическая величина, обозначающая избыточность информации, содержащейся в тексте на определённом языке.
Клонирование голоса (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.
Расширенная форма Бэкуса — Наура (расширенная Бэкус — Наурова форма (РБНФ)) (англ. Extended Backus–Naur Form (EBNF)) — формальная система определения синтаксиса, в которой одни синтаксические категории последовательно определяются через другие. Используется для описания контекстно-свободных формальных грамматик. Предложена Никлаусом Виртом. Является расширенной переработкой форм Бэкуса — Наура, отличается от БНФ более «ёмкими» конструкциями, позволяющими при той же выразительной способности упростить...
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.
Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).
Многопроходный компилятор (англ. Multi-pass compiler) — тип компилятора, который обрабатывает исходный код или абстрактное синтаксическое дерево программы несколько раз (в отличие от однопроходного компилятора, который проходит программу только один раз). Между проходами генерируется промежуточный код, который принимается следующим проходом в качестве входа. Таким образом, многопроходный компилятор обрабатывает код по частям, проход за проходом, а последний проход выдает финальный результат программы...
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста.
Язык
эсперанто был стабилен с момента его создания на фоне других искусственных языков. Это связано с документом Декларация Булонь (Declaration of Boulogne) от 1905 года, определяющим суть и основные принципы движения эсперантистов. Декларация была написана Л. Л. Заменгофом. Согласно декларации, обязательной для всех эсперантистов, фундаментом языка эсперанто является произведение «Основы эсперанто», в которое никто не имеет права вносить изменения.
Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.
Интерфейс безмолвного доступа (англ. silent speech interfaces, SSI) — системы обработки речи, базирующиеся на получении и обработке речевых сигналов на ранней стадии артикулирования.
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Интерактивный машинный перевод (ИМП) — специальный подраздел области компьютерного перевода. При этом парадигма перевода в том, что компьютерное программное обеспечение помогает переводчику, пытаясь спрогнозировать текст, который пользователю пришлось бы вводить, учитывая всю информацию, которую он имеет в наличии. Когда такое предположение неправильно, система предоставляет пользователю обратную связь, а новое предсказание выполняется с учётом новой информации. Такой процесс повторяется до перевода...
Теория оптимальности (ОТ) — лингвистическая теория, предложенная в начале 90-х годов 20-го века П. Смоленским, А. Принсом, Дж. Маккарти и др. Теория оптимальности возникла в рамках фонологии, однако вскоре нашла применение и в других областях лингвистики. ОТ обычно рассматривается как направление в рамках генеративной лингвистики, предметом которой является исследование универсальных принципов языка, лингвистической типологии, механизмов усвоения языка, порождения и восприятия речи. ОТ часто называют...
Индукция грамматики (или грамматический вывод) — это процесс в машинном обучении для обучения формальной грамматике (обычно в виде набора правил вывода или порождающих правил или, альтернативно, как конечный автомат или автомат другого вида) из набора наблюдений, то есть построение модели, которая описывает наблюдаемые объекты. Более обще, грамматический вывод — это такая ветвь машинного обучения, в которой пространство примеров состоит из дискретных комбинаторных объектов, таких как строки, деревья...
Когнити́вные измере́ния — это принципы разработки синтаксиса, пользовательских интерфейсов и других особенностей языков программирования, описанные исследователями Томасом Грином и Марианом Петре. Измерения могут использоваться для оценки юзабилити существующих языков или для рекомендаций по дизайну новых.
Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Речево́й пото́к , пото́к ре́чи — непрерывная линейная последовательность звучаний, расчленяемая слушающим, воспринимающим её как организованную последовательность значимых единиц языка.
Моделирование трафика — это создание стохастической модели потоков трафика в сети, к примеру это может быть сотовая или компьютерная сеть.
Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...
Синтаксическая диаграмма — это направленный граф с одним входным ребром и одним выходным ребром и помеченными вершинами. Синтаксическая диаграмма задаёт язык. Цепочка пометок при вершинах на любом пути от входного ребра к выходному — это цепочка языка, задаваемого синтаксической диаграммой. Поэтому можно считать, что синтаксическая диаграмма — это одна из форм порождающей грамматики автоматных языков. Синтаксические диаграммы и конечные автоматы имеют тесную связь: любой автоматный язык задаётся...
В информатике
лексический анализ («токенизация», от англ. tokenizing) — процесс аналитического разбора входной последовательности символов на распознанные группы — лексемы, с целью получения на выходе идентифицированных последовательностей, называемых «токенами» (подобно группировке букв в словах). В простых случаях понятия «лексема» и «токен» идентичны, но более сложные токенизаторы дополнительно классифицируют лексемы по различным типам («идентификатор, оператор», «часть речи» и т. п.). Лексический...
Минимали́стская програ́мма — лингвистическая теория, предложенная американским лингвистом Н. Хомским для объяснения тех языковых феноменов, механизмы которых не были прояснены полностью в рамках теории принципов и параметров. Сама Минималистская программа содержит ряд сильных утверждений, касающихся универсальной грамматики, а также некоторые гипотезы об устройстве когнитивной системы в связи с врождённой языковой способностью. Главным методологическим принципом Минималистской программы является...
Системно-функциональная лингвистика (СФЛ) - это подход к лингвистике, рассматривающий язык как социальную семиотическую систему. Данный подход был разработан Майклом Халлидеем, который перенял понятие системы от своего учителя, Дж. Р. Ферса. В то время как Ферс считал, что системы ссылались на возможности, подчиненные структуре, Халлидей в некотором смысле «освободил» сферу выбора от структуры и сделал выбор основополагающим понятием своей теории. Другими словами, в то время как многие подходы к...
Корефере́нтность или референциональное тождество — отношение между именами — компонентами высказывания, в котором имена ссылаются на один и тот же объект (ситуацию) внеязыковой действительности (референт).
Мультиме́тод (англ. multimethod) или мно́жественная диспетчериза́ция (англ. multiple dispatch) — механизм, позволяющий выбрать одну из нескольких функций в зависимости от динамических типов или значений аргументов. Представляет собой расширение одиночной диспетчеризации (виртуальных функций), где выбор метода осуществляется динамически на основе фактического типа объекта, для которого этот метод был вызван. Множественная диспетчеризация обобщает динамическую диспетчеризацию для случаев с двумя или...
Сочета́емость — свойство языковых единиц сочетаться в речи при образовании единиц более высокого уровня, отражающее синтагматические отношения между ними. Сочетаемость является одним из фундаментальных свойств единиц языка.
Переводческая скоропись (тж. переводческая запись, универсальная переводческая скоропись (УПС), переводческая нотация, переводческая семантография) — свод правил и рекомендаций, а также сама система фиксирования переводчиком содержания переводимого выступления с целью дальнейшего его воспроизведения на языке перевода.
Выразительность языка программирования — качество языка, показывающее, насколько разнообразны идеи, которые можно реализовать на этом языке, и насколько легко они читаются.
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
Подробнее: Корпус текстов
Мультимедийное обучение — это общепринятое название, используемое для описания когнитивной теории мультимедийного обучения. Эта теория включает в себя несколько принципов обучения с помощью или посредством мультимедиа.
Ана́лиз тона́льности те́кста (сентимент-анализ, англ. Sentiment analysis, англ. Opinion mining) — класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте.
Человеческая
память ассоциативна, то есть некоторое воспоминание может порождать большую связанную с ним область. Один предмет напоминает нам о другом, а этот другой о третьем. Если позволить нашим мыслям, они будут перемещаться от предмета к предмету по цепочке умственных ассоциаций. Например, несколько музыкальных тактов могут вызвать целую гамму чувственных воспоминаний, включая пейзажи, звуки и запахи. Напротив, обычная компьютерная память является локально адресуемой, предъявляется адрес и извлекается...
Маноральная речь (от лат. manus «рука» и лат. oralis — «устный») или жестовое артикулирование — система сопровождения речи жестами при разговоре с или между людьми с нарушениями слуха. Помогает читать с губ благодаря тому, что во время речи говорящий демонстрирует около рта жесты, означающие согласные звуки, а расположение руки означает гласные звуки. Такое артикулирование может быть адаптировано к любому языку; широко распространена система Cued Speech, полагающаяся на фонемы английского языка...
Интеллектуальная информационная система (ИИС) - комплекс программных, лингвистических и логико-математических средств для реализации основной задачи – осуществления поддержки деятельности человека и поиска информации в режиме продвинутого диалога на естественном языке.
Сети адаптивного резонанса — разновидность искусственных нейронных сетей, основанная на теории адаптивного резонанса Стивена Гроссберга и Гейла Карпентера. Включает в себя модели обучения с учителем и без учителя, которые используются при решении задач распознавания образов и предсказания.
Подробнее: Адаптивная резонансная теория
Барьер памяти (англ. memory barrier, membar, memory fence, fence instruction) — вид барьерной инструкции, которая приказывает компилятору (при генерации инструкций) и центральному процессору (при исполнении инструкций) устанавливать строгую последовательность между обращениями к памяти до и после барьера. Это означает, что все обращения к памяти перед барьером будут гарантированно выполнены до первого обращения к памяти после барьера.
Контекстно-зависимые вычисления (англ. Context-aware computing) изучают контекстно-зависимые системы (комбинация аппаратного и программного обеспечения), которые анализируют состояние пользователя и окружающую среду, и адаптируют свою работу под изменяющиеся условия.
Качество видео (анг. Video quality) — это характеристика обработанного видео, как правило, по сравнению с оригиналом. С момента записи первой видео последовательности было разработано большое число систем обработки видео. Различные системы могут оказывать различное влияние на видео последовательность, таким образом измерение качества видео — это очень важная задача.
Идиома программирования — устойчивый способ выражения некоторой составной конструкции в одном или нескольких языках программирования. Идиома является шаблоном решения задачи, записи алгоритма или структуры данных путём комбинирования встроенных элементов языка.
Архитектура , управляемая событиями (англ. event-driven architecture, EDA) является шаблоном архитектуры программного обеспечения, позволяющим создание, определение, потребление и реакцию на события.
Обуче́ние ранжи́рованию (англ. learning to rank или machine-learned ranking, MLR) — это класс задач машинного обучения с учителем, заключающихся в автоматическом подборе ранжирующей модели по обучающей выборке, состоящей из множества списков и заданных частичных порядков на элементах внутри каждого списка. Частичный порядок обычно задаётся путём указания оценки для каждого элемента (например, «релевантен» или «не релевантен»; возможно использование и более, чем двух градаций). Цель ранжирующей модели...
Слой абстракции базы данных (Database abstraction layer — DBAL) — это интерфейс прикладного программирования, который унифицирует связь между компьютерным приложением и системами управления базами данных(СУБД), такими как SQL Server, DB2, MySQL, PostgreSQL, Oracle или SQLite. Традиционно все поставщики СУБД предоставляют свой собственный интерфейс, адаптированный к их продуктам, что позволяет программисту реализовать код для всех интерфейсов баз данных, которые он или она хотел бы поддерживать. Уровни...
Геометрия признаков - (англ. feature geometry) фонологическая теория, в которой дифференциальные признаки фонемы представлены в виде нелинейной иерархии автономных элементов. Была предложена Дж. Клементсом в 1985 году и получила дальнейшее развитие в работах Э.Сейджи, М.Халле, Э.Хьюм. В отличие от системы признаков Хомского-Халле, фонологические признаки в теории Клементса не просто группируются на основании функциональной общности, а образуют иерархическую структуру.