Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Источник: Википедия

Связанные понятия

Семанти́ческий ана́лиз — этап в последовательности действий алгоритма автоматического понимания текстов, заключающийся в выделении семантических отношений, формировании семантического представления текстов. Один из возможных вариантов представления семантического представления — структура, состоящая из «текстовых фактов». Семантический анализ в рамках одного предложения называется локальным семантическим анализом.

Для информации по скрытым категориям в Википедии, смотри Категория:Скрытые категории.Скры́тая катего́рия (криптоти́п) — семантические и синтаксические признаки слов или словосочетаний, не находящие явного морфологического выражения, но существенные для построения и понимания высказывания. Скрытые категории оказывают влияние на сочетаемость данного слова с другими словами в предложении.

Подробнее: Скрытая категория

Продукти́вность в языкознании — пригодность морфемы, словообразовательной или словоизменительной модели для образования новых слов и словоформ. Морфемы с высокой продуктивностью называются продуктивными, с низкой — непродуктивными. Продуктивность характеризует частотность появления морфемы в неологизмах.

Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения...

Универса́лия в лингвистике — одно из важнейших понятий типологии, свойство, присущее всем или подавляющему большинству естественных языков. Разработка теории универсалий часто связывается с именем Джозефа Гринберга, хотя сходные идеи выдвигались в языкознании задолго до него.

Языкова́я спосо́бность — специфический психофизиологический механизм, формирующийся у носителя языка на основе нейрофизиологических предпосылок и под влиянием опыта речевого общения.

Вариа́нтность (лат. varians, род. variantis — «изменяющийся») — в языкознании: фундаментальное свойство способа существования и функционирования единиц языка и языковой системы в целом. Характеризуется с помощью понятий варианта, инварианта, варьирования.

Сегмента́ция в лингвистике — линейное членение речевого потока на составляющие отрезки, называемые сегментами. Сегменты противопоставляются накладывающимся на них нелинейным суперсегментным (сверхсегментным) единицам языка...

Се́ма — дифференциальный семантический признак, компонент значения, который выявляется при сопоставлении значений разных слов. Является нечленимой составной частью лексического значения (семемы).

Паде́жная грамма́тика, «ролева́я грамматика» — метод описания семантики предложения (за исключением модальных и перформативных элементов) как системы семантических валентностей, в которой значение вершинного глагола диктует роли («падежи»), исполняемые именными составляющими. Иногда рассматривается как одна из разновидностей порождающей семантики:114 (наряду с направлением, представленным Дж. Мак-Коли, Дж. Лакоффом и другими учёными).

Структурное прогнозирование или структурное обучение является собирательным термином для техник обучения машин с учителем, которые вовлекают предвидение структурных объектов, а не скалярных дискретных или вещественных значений.

Антецедент (лат. antecedens — «предшествующее») — на языке старых философов, особенно у логиков Кантовской школы, в их учении о суждениях, заключениях и доказательствах антецедент означает, отчасти — логическое подлежащее в его отношении к сказуемому, отчасти — причину в отношении к следствию.

В лингвистике, катена (англ. catena «вереница, череда»; от лат. catena «цепь») — синтаксическая и морфологическая единица, тесно связанная с грамматиками зависимостей. Она является более гибким и объемлющим понятием, чем составляющая, и поэтому, вероятно, может лучше составляющей служить в качестве фундаментальной единицы синтактического и морфосинтактического анализа.

Трансформа́ция — понятие языкознания, восходящее к З. Харрису и первоначально обозначавшее то или иное правило, по которому из так называемых ядерных предложений языка (таковыми считались простые утвердительные предложения с глаголом в изъявительном наклонении активного залога настоящего времени без модальных слов и осложняющих элементов) получаются производные:102. Так предполагалось объяснять явления парадигматики в синтаксисе — случаи, когда определённое изменение значения ядерного предложения...

Морфоси́нтаксис — раздел грамматики, изучающий морфемы с точки зрения их синтаксического функционирования. Также под морфосинтаксисом могут пониматься правила группировки морфологических единиц в состоящие из них слова или словоформы.

Закон сравнительных суждений - психофизический закон, определяющий отношение между двумя объектами в психическом пространстве человека. Сформулирован Л. Л. Терстоуном.

Семанти́ческое по́ле — самая крупная смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак.

В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.

Подробнее: Оценка апостериорного максимума

Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.

Статистическая мощность в математической статистике — вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.

Семантическая роль имени при предикате — в языкознании: часть семантики предиката, отражающая общие свойства аргумента предиката — участника называемой предикатом ситуации. Описание в терминах семантических ролей отражает сходства моделей управления различных предикатных слов.

Морфе́мика — морфемный строй языка (совокупность и типы вычленяемых в словах морфем), а также раздел языкознания, изучающий морфологические модели языка: типы и структуру морфем, их формальные разновидности (морфы) и закономерности расположения морфем в более протяжённых языковых единицах (основах, словоформах). Поскольку аффиксы — грамматические морфемы — относятся к сфере грамматики, морфемика может рассматриваться как часть грамматики, охватывающая аспекты морфологии и словообразования, описывающие...

Модели дискретного выбора — экономические (эконометрические) модели, позволяющие описывать, объяснять и прогнозировать выбор между, двумя или более альтернативами (то есть когда множество альтернатив не более чем счетно). Модели дискретного выбора позволяют на основе некоторых характеристик (атрибутов) экономического субъекта или ситуации оценить вероятность выбора той или иной альтернативы.

Подробнее: Дискретный выбор

Формообразова́ние — образование грамматических форм одного слова. Противопоставляется словообразованию, связывающему разные слова с общим корнем.

Отделение содержания от представления (или «разделение формы и содержания») это общепринятая идиома, философия дизайна и методология, применяемая в контексте различных издательских технологических дисциплинах, включая информационный поиск, обработку шаблонов, веб-дизайн, веб-программирование, обработку текста, компьютерную вёрстку и разработку управляемую моделями. Это конкретный случай более общей философии разделения ответственности.

Сигнифика́т (от лат. significātum — значимое) — понятийное содержание имени или знака.

Статистический параметр или параметр совокупности — это величина, которая индексирует семейство распределений вероятностей. Его можно расценивать как числовую характеристику совокупности или статистической модели.

Машина вывода — программа, которая выполняет логический вывод из предварительно построенной базы фактов и правил в соответствии с законами формальной логики.

В статистике под латентными или скрытыми переменными понимают такие переменные, которые не могут быть измерены в явном виде, а могут быть только выведены через математические модели с использованием наблюдаемых переменных. Скрытые переменные используются во многих областях, включая психологию, экономику, машинное обучение, биоинформатику, обработку естественного языка и социальные науки.

Подробнее: Скрытая переменная

Зна́чимость — в семиотике и языкознании: отношение знака к другим знакам в рамках языковой системы. С точки зрения Ф. де Соссюра, предложившего понятие значимости, значимость определяется противопоставлением данного знака другим, их взаимоограничением: так, рус. баран и фр. mouton совпадают по значению, но неодинаковы по значимости, так как русское слово ограничено в употреблении лексемой баранина 'мясо барана', а во французском языке в таком значении также используется mouton.

В математической статистике критерий знаков используется при проверке нулевой гипотезы о равенстве медианы некоторому заданному значению (для одной выборки) или о равенстве нулю медианы разности (для двух связанных выборок). Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.

Инве́рсия в литературе (от лат. inversio «переворачивание; перестановка») — нарушение обычного порядка слов в предложении. В аналитических языках (например, английский, французский), где порядок слов фиксирован строго, стилистическая инверсия распространена относительно мало; во флективных, в том числе русском, с достаточно свободным порядком слов — весьма значительно.

Неоднозначность — ситуация, в которой понятию (информации, слову, изображению, данным и так далее) можно дать более одного толкования.

Классифика́тор в лингвистике — слово или морфема, используемые в некоторых языках для того, чтобы классифицировать объект классификатора исходя из требуемого контекста.

Конве́рсия (лат. conversiō «обращение», «превращение») — способ словообразования, образование нового слова путём перехода основы в другую парадигму словоизменения. Обычно получившаяся лексема принадлежит к иной части речи. Наиболее распространена конверсия как способ словообразования в тех языках, где многие морфемы являются нулевыми, таких как английский или китайский. Например, из англ. bet «ставить на кон» (с типично глагольной парадигмой англ. bet, bets, bet (прош. вр.), betting...) получается...

Мело́дика ре́чи (др.-греч. melōdikós — мелодический, песенный) — в языкознании: основной компонент интонации. С акустической точки зрения, мелодика речи — изменения во времени частоты основного тона, измеряемой в герцах (Гц) или музыкальных интервалах. Различается мелодика слога, слова, фразы.

Метамодель в информатике — модель, описывающая другую модель; транзитивное отношение между двумя моделям (например: если модель M1 описывает язык L0, в котором формулируется модель M0, то M1 является метамоделью М0; если же модель M2 описывает язык L1, в котором была сформулирована модель М1, то М2 — это метамодель M1, а M2 является тогда для M0 мета-метамоделью).

Модель мозга — любая теоретическая система, которая стремится объяснить физиологические функции мозга с помощью известных законов физики и математики, а также известных фактов нейроанатомии и нейрофизиологии . Существуют по меньшей мере два основных положения, играющих фундаментальную роль в теории функционирования мозга, в отношении которых сходится мнение большинства современных теоретиков...

Сбор данных — это процесс собирания информации и измерения целевых показателей в сложившейся системе, который позволит потом ответить на актуальные вопросы и оценить результаты. Сбор данных является частью исследований во всех областях изучения, включая физику, общественные науки, Гуманитарные науки и бизнес. Хотя методы различны для разных дисциплин, упор на обеспечение точной и правдивой информации остаётся тем же самым. Целью всего сбора данных служит получение свидетельства о качестве данных...

Архетип — это формальная модель понятия предметной области, являющаяся уточнением эталонной информационной модели, выраженным в виде ограничений, накладываемых на эталонную информационную модель, и представленным с помощью определенного формального аппарата в форме машиночитаемых и, одновременно, понятных человеку выражений.

Формальная семантика — дисциплина, изучающая семантику (интерпретации) формальных и естественных языков путём их формального описания в математических терминах.

Лексическое сходство (в лингвистике) — мера того, до какой степени слова двух данных языков лексически сходны. Лексическое сходство, равное единице (или 100 %) означает полное совпадение двух данных языков, тогда как равенство 0 означает полное отсутствие в них общих слов.

Когнити́вная систе́ма, когнити́вная структу́ра (от лат. cognitiо «познание») — система познания (человека), сложившаяся в его сознании в результате становления его характера, воспитания, обучения, наблюдения и размышления об окружающем мире. На основе этой системы ставятся цели и принимаются решения о том, как надо действовать в той или иной ситуации, стараясь избежать когнитивного диссонанса. В основе когнитивной системы лежит взаимодействие мышления, сознания, памяти и языка; носителем такой системы...

Избыточность — термин из теории информации, означающий превышение количества информации, используемой для передачи или хранения сообщения, над его информационной энтропией. Для уменьшения избыточности применяется сжатие данных без потерь, в то же время контрольная сумма применяется для внесения дополнительной избыточности в поток, что позволяет производить исправление ошибок при передаче информации по каналам, вносящим искажения (спутниковая трансляция, беспроводная передача и т. д.).

О́браз объе́кта — воспроизведение объекта, информация о нём или его описание, структурно сходное, но не совпадающее с ним.

«Синтакси́ческие структу́ры» (англ. Syntactic Structures) — лингвистическая работа, выпущенная Н. Хомским в 1957 году. Наряду с другими работами Н. Хомского, книга заложила основы теории порождающих грамматик и теории формальных языков. Год выхода работы в свет принято считать отправной точкой генеративной лингвистики:311. Выход в свет «Синтаксических структур» привёл к возникновению когнитивной науки:15.

Сноска — примечание (замечание), помещаемое внизу полосы (постраничная сноска) или в конце текста (концевая сноска).

Алгоритмическая теория информации — это область информатики, которая пытается уловить суть сложности, используя инструменты из теоретической информатики. Главная идея — это определить сложность (или описательную сложность, колмогоровскую сложность, сложность Колмогорова-Хайтина) строки как длину кратчайшей программы, которая выводит заданную строку. Строки, которые могут выводиться короткими программами, рассматриваются как не очень сложные. Эта нотация удивительно глубока и может быть использована...

Косвенная речь — синтаксический способ введения в свою речь чужой речи с сохранением основного содержания высказывания, представленной как пояснительная придаточная часть сложноподчинённого предложения и находящейся в формальной зависимости от фразы передающего её лица. Присоединение к основной части предложения осуществляется с помощью различных союзов и соединительных слов. Выбор средства связи косвенной речи с остальной частью сложноподчинённого предложения зависит от того, какой именно смысл...

Семантический сдвиг (смещение) — это изменение лексического значения слова. Изучением семантических сдвигов занимается этимология и семантика. Результаты семантического сдвига наблюдаются как различие значения одной и той же лексемы в разных исторических периодах развития языка (бор ‘хвойный лес’ — ‘лиственный лес’, камыш ‘камыш’ — ‘тростник’ — ‘рогоз’) или между языковыми подсистемами (например, диалектами, регистрами), но могут встречаться и в пределах одной языковой подсистемы (уборная ‘комната...

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я