Связанные понятия
Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.
Отображение онтологий (англ. ontology alignment или ontology matching) — это процесс установления соответствий между понятиями (концептами) нескольких онтологий. Множество таких соответствий и называется «отображением». Термин имеет разное значение в компьютерной, когнитивной областях и философии.
Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).
Переводческая скоропись (тж. переводческая запись, универсальная переводческая скоропись (УПС), переводческая нотация, переводческая семантография) — свод правил и рекомендаций, а также сама система фиксирования переводчиком содержания переводимого выступления с целью дальнейшего его воспроизведения на языке перевода.
Кибертекст (англ. Cybertext) — организация текста таким образом, чтобы определить значение медиума как неотъемлемой части литературной динамики (определение, данное Эспеном Аарсетом в 1997 году). Аарсет определил кибертекст как часть эргодической литературы.
Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Уче́бный алгоритми́ческий язы́к — формальный язык, используемый для записи, реализации и изучения алгоритмов. В отличие от большинства языков программирования, не привязан к архитектуре компьютера, не содержит деталей, связанных с устройством машины.
Расширенная форма Бэкуса — Наура (расширенная Бэкус — Наурова форма (РБНФ)) (англ. Extended Backus–Naur Form (EBNF)) — формальная система определения синтаксиса, в которой одни синтаксические категории последовательно определяются через другие. Используется для описания контекстно-свободных формальных грамматик. Предложена Никлаусом Виртом. Является расширенной переработкой форм Бэкуса — Наура, отличается от БНФ более «ёмкими» конструкциями, позволяющими при той же выразительной способности упростить...
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
Подробнее: Корпус текстов
Петербу́ргская шко́ла функциона́льной грамма́тики (ПШФГ) — направление функциональной грамматики, ориентированное на описание системы семантических категорий в их языковом выражении, центром разработки которого с начала 1990-х годов является Отдел теории грамматики Института лингвистических исследований РАН.
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП...
Выразительность языка программирования — качество языка, показывающее, насколько разнообразны идеи, которые можно реализовать на этом языке, и насколько легко они читаются.
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста.
Теория языков программирования (англ. programming language theory, PLT) — раздел информатики, посвящённый вопросам проектирования, анализа, определения характеристик и классификации языков программирования и изучением их индивидуальных особенностей. Тесно связана с другими ветвями информатики, результаты теории используются в математике, в программной инженерии и лингвистике.
Синхронный автоматический перевод (Speech-to-Speech Real-Time Translation) — «моментальный» машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств. Так же называется направление научных исследований, связанных с построением подобных систем.
Инженерия знаний (англ. knowledge engineering) — область наук об искусственном интеллекте, связанная с разработкой экспертных систем и баз знаний. Изучает методы и средства извлечения, представления, структурирования и использования знаний.
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Перевод медицинских текстов (медицинский перевод) — это перевод с одного языка на другой специализированных медицинских публикаций и текстов частного характера, содержание которых непосредственно связано со здоровьем человека. Особая позиция данной категории специализированных переводов определяется важностью любой переводимой информации, повышенным требованиям к точности перевода и соблюдению конфиденциальности частных сведений, а также ярко выраженной неоднородностью используемой терминологии...
Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
Индукция грамматики (или грамматический вывод) — это процесс в машинном обучении для обучения формальной грамматике (обычно в виде набора правил вывода или порождающих правил или, альтернативно, как конечный автомат или автомат другого вида) из набора наблюдений, то есть построение модели, которая описывает наблюдаемые объекты. Более обще, грамматический вывод — это такая ветвь машинного обучения, в которой пространство примеров состоит из дискретных комбинаторных объектов, таких как строки, деревья...
Описательные ло́гики или дескрипцио́нные ло́гики(сокр. ДЛ, англ. description logics, иногда используется неточный перевод: дескрипти́вные логики) — семейство языков представления знаний, позволяющих описывать понятия предметной области в недвусмысленном, формализованном виде. Они сочетают в себе, с одной стороны, богатые выразительные возможности, а с другой — хорошие вычислительные свойства, такие как разрешимость и относительно невысокая вычислительная сложность основных логических проблем, что...
Подробнее: Дескрипционная логика
Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.
Культурная аналитика (англ. Cultural Analytics) — область исследований, которая занимается изучением больших объёмов культурных данных, используя для этого методы визуализации и вычисления. Объектом исследований являются как оцифрованные культурные артефакты, так и цифровой медиа-контент.
Минимали́стская програ́мма — лингвистическая теория, предложенная американским лингвистом Н. Хомским для объяснения тех языковых феноменов, механизмы которых не были прояснены полностью в рамках теории принципов и параметров. Сама Минималистская программа содержит ряд сильных утверждений, касающихся универсальной грамматики, а также некоторые гипотезы об устройстве когнитивной системы в связи с врождённой языковой способностью. Главным методологическим принципом Минималистской программы является...
Логика разделения , сепарационная логика (англ. separation logic) в информатике — формальная система, предназначенная для верификации программ, содержащих изменяемые структуры данных и указатели, расширение логики Хоара. Разработана Джоном Рейнольдсом (англ. John C. Reynolds), Питером О’Хирном (англ. Peter O'Hearn), Самином Иштиаком (англ. Samin Ishtiaq) и Хонсёком Яном (англ. Hongseok Yang) на основе работ Рода Бёрстола (англ. Rod Burstall). Язык утверждений логики разделения является специальным...
Представление знаний — вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта.
Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.
Семантическое ядро сайта (СЯ) — это упорядоченный набор слов, их морфологических форм и словосочетаний, которые наиболее точно характеризуют вид деятельности, товары или услуги, предлагаемые сайтом. Семантическое ядро имеет центральное ключевое слово, как правило высокочастотное, и все остальные ключевые слова в нём ранжируются по мере убывания частоты совместного использования с центральным запросом в общей коллекции документов. Таким образом, семантическое ядро представляется в виде семантического...
Многопроходный компилятор (англ. Multi-pass compiler) — тип компилятора, который обрабатывает исходный код или абстрактное синтаксическое дерево программы несколько раз (в отличие от однопроходного компилятора, который проходит программу только один раз). Между проходами генерируется промежуточный код, который принимается следующим проходом в качестве входа. Таким образом, многопроходный компилятор обрабатывает код по частям, проход за проходом, а последний проход выдает финальный результат программы...
Обуче́ние ранжи́рованию (англ. learning to rank или machine-learned ranking, MLR) — это класс задач машинного обучения с учителем, заключающихся в автоматическом подборе ранжирующей модели по обучающей выборке, состоящей из множества списков и заданных частичных порядков на элементах внутри каждого списка. Частичный порядок обычно задаётся путём указания оценки для каждого элемента (например, «релевантен» или «не релевантен»; возможно использование и более, чем двух градаций). Цель ранжирующей модели...
Клонирование голоса (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.
Анализ цитирования — это изучение частоты, шаблонов и графиков цитат в документах. Он использует шаблон цитат, ссылки с одного документа на другой документ, чтобы обнаружить свойства документов. Типичной целью является определение наиболее важных документов в сборнике. Классический пример — цитата между академическими статьями и книгами. Судебные решения в англосаксонской правовой системе с целью подтверждения своих решений, ссылаются на решения, вынесенные в предыдущих делах, поэтому анализ цитирования...
Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.
Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.
Мультимедийное обучение — это общепринятое название, используемое для описания когнитивной теории мультимедийного обучения. Эта теория включает в себя несколько принципов обучения с помощью или посредством мультимедиа.
Системно-функциональная лингвистика (СФЛ) - это подход к лингвистике, рассматривающий язык как социальную семиотическую систему. Данный подход был разработан Майклом Халлидеем, который перенял понятие системы от своего учителя, Дж. Р. Ферса. В то время как Ферс считал, что системы ссылались на возможности, подчиненные структуре, Халлидей в некотором смысле «освободил» сферу выбора от структуры и сделал выбор основополагающим понятием своей теории. Другими словами, в то время как многие подходы к...
Логическая семантика — «Философский термин» — («рассуждение», «мысль», «разум») — раздел логики, в котором изучаются отношения языковых символов к обозначаемым ими объектам и выражаемому ими содержанию.
Форма Бэкуса — Наура (сокр. БНФ, Бэкуса — Наура форма) — формальная система описания синтаксиса, в которой одни синтаксические категории последовательно определяются через другие категории. БНФ используется для описания контекстно-свободных формальных грамматик. Существует расширенная форма Бэкуса — Наура, отличающаяся лишь более ёмкими конструкциями.
Когнити́вные измере́ния — это принципы разработки синтаксиса, пользовательских интерфейсов и других особенностей языков программирования, описанные исследователями Томасом Грином и Марианом Петре. Измерения могут использоваться для оценки юзабилити существующих языков или для рекомендаций по дизайну новых.
Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе и выдаче в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.
Компьютерно-опосредованная коммуникация (англ. computer-mediated communication, СМС) — это любое общение между людьми, которое происходит при помощи двух или более электронных устройств. Обычно этим термином называют способы общения, характерные для компьютерных устройств (например, электронная почта, чаты, интернет-форумы, социальные сети и т. п.). Кроме того, термин может применяться к любому текстовому общению. Исследования компьютерно-опосредованной коммуникации фокусируются в основном на социальных...
Исчисление процессов или алгебра процессов — семейство связанных подходов к формальному моделированию параллельных систем.