Национальный корпус американского английского
Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка , содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта , твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией , включая имена собственные, и поверхностный синтаксический анализ.
ANC доступен для участников Консорциум лингвистических данных. Ресурс (подкорпус), содержащий 15 миллионов слов корпуса, называется Open American National Corpus (OANC) и находится в открытом доступе с сайта ANC.
Тексты Корпуса формируются в соответствии с требованиями технического комитета ISO/TC 37 «Linguistic Annotation Framework». Благодаря находящемуся в открытом доступе инструменту трансдукции ANC2Go, фрагменты корпуса и аннотации, созданные пользователями, представлены в нескольких форматах, таких как CoNLL IOB — XML-формат, соответствующий стандарту кодирования XCES (который можно использовать в поисковой системе XAIRA Британского национального корпуса), UIMA-совместимый формат, и форматы, подходящие для широкого спектра программ конкорданса. Также доступны плагины для импорта аннотаций в систему обработки естественного языка GATE.
ANC отличается от других корпусов английского языка широкой аннотированностью, включая различные частеречевые разметки (Penn tags, CLAWS5 и CLAWS7 tags), аннотации поверхностного синтаксического анализа и аннотации для нескольких типов именованных объектов. Дополнительные аннотации добавляются ко всему корпусу или его частям по мере поступления, нередко как результаты реализации других проектов. В отличие от онлайновых корпусов текстов, которые из-за ограничений, обусловленных авторским правом , предоставляют доступ только к отдельным предложениям, весь корпус текстов ANC доступен для проведения исследований, включая разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций.
Аннотации ANC создаются автоматически и не проверяются. Раздел OANC из 500 000 слов, известный как аннотированный вручную подкорпус ANC (MASC) аннотируется для примерно 20 различных видов лингвистических аннотаций, которые проверяются или создаются вручную. К ним относятся синтаксическая аннотация Penn Treebank, семантические сети WordNet и FrameNet, и другие. Подобно OANC, MASC находится в свободном доступе для любого использования и может быть загружен с сайта ANC или Консорциума лингвистических данных. Он также распространяется с пакетом библиотек и программ для символьной и статистической обработки естественного языка Natural Language Toolkit.
ANC и его подкорпуса отличаются от аналогичных текстовых корпусов главным образом характеристиками лингвистических аннотаций и включением текстов современных жанров, которые не содержатся в таких ресурсах, как, например, Британский национальный корпус. Кроме того, поскольку первоначальное целевое назначение ANC — разработка статистических моделей языка, пользователям ANC доступны полные данные и все аннотации, в отличие от Корпуса современного американского английского языка (COCA), чьи тексты доступны только выборочно через веб-браузер.
Рост баз текстов OANC и MASC продолжается благодаря пополнению данных и аннотаций, производимых сообществами компьютерной лингвистики и корпусной лингвистики .
Источник: Википедия
Связанные понятия
Правило ограничения домена (Same Origin Policy, в переводе с англ. — «Принцип одинакового источника») — это важная концепция безопасности для некоторых языков программирования на стороне клиента, таких как JavaScript. Политика разрешает сценариям, находящимся на страницах одного сайта, доступ к методам и свойствам друг друга без ограничений, но предотвращает доступ к большинству методов и свойств для страниц на разных сайтах. Одинаковые источники — это источники, у которых совпадают три признака...
Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведённых сегментов текста.
Коди́рование — процесс написания программного кода, скриптов, с целью реализации определённого алгоритма на определённом языке программирования.
Часто задаваемые вопросы (ЧАВО, ЧаВо, ЧаВО, ЧЗВ; англ. frequently asked questions, FAQ, F.A.Q.; произносится «эф-эй-кью», «фэк») — собрание часто задаваемых вопросов по какой-либо теме и ответов на них. Этот формат материала популярен на интернет-площадках разного характера.
Уничтожение данных — последовательность операций, предназначенных для осуществления программными или аппаратными средствами необратимого удаления данных, в том числе остаточной информации.
В информатике
таблица символов (от англ. symbol table «таблица идентификаторов») — это структура данных, используемая транслятором (компилятором или интерпретатором), в которой каждый идентификатор переменной или функции из исходного кода ассоциируется с информацией, связанной с его объявлением или появлением в коде: типом данных, областью видимости и в некоторых случаях местом в памяти (смещением).
Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — это подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Он отличается от методов машинного перевода, основанных на статистике фраз, которые используют отдельно разработанные подкомпоненты.
Метамодель в информатике — модель, описывающая другую модель; транзитивное отношение между двумя моделям (например: если модель M1 описывает язык L0, в котором формулируется модель M0, то M1 является метамоделью М0; если же модель M2 описывает язык L1, в котором была сформулирована модель М1, то М2 — это метамодель M1, а M2 является тогда для M0 мета-метамоделью).
Генератор документации — программа или пакет программ, позволяющая получать документацию, предназначенную для программистов (документация на API) и/или для конечных пользователей системы, по особым образом комментированному исходному коду и, в некоторых случаях, по исполняемым модулям (полученным на выходе компилятора).
Функция как услуга — архитектурный шаблон, предполагающий возможность вызова экземпляра управляющего кода без необходимости управления серверами и серверным приложением; ключевой компонент бессерверных вычислений. Одной из первых широко известных реализаций является представленный в 2014 году сервис AWS Lambda, аналогичные предложения среди публичных PaaS есть у Google (Cloud Functions), IBM (на Apache OpenWhisk в составе платформы Bluemix) и Microsoft (Azure Functions)
Старсет — высокоуровневый язык программирования, разработанный под руководством М. М. Гилулы в Институте программных систем РАН в 1991 году.
Метка (англ. label) — символьное имя, идентификатор для более удобного указания данных и кода в языках программирования. Позволяет программисту обходиться без вычисления и пересчёта адресов и смещений внутри программы (эти действия за него выполняет компилятор). Несмотря на то, что большинство языков программирования высокого уровня поддерживают операции с метками, их использование крайне нежелательно, так как программный код становится плохочитаемым, и отладка такой программы занимает большее время...
В программировании неизменяемым (англ. immutable) называется объект, состояние которого не может быть изменено после создания.
Подробнее: Неизменяемый объект
Метод расширения (англ. extension method) в программировании — метод, добавляемый к существующему классу (типу) в месте, отличном от модуля объявления класса. Синтаксический сахар для модуля расширения был введён в C# 3.0 и VB.NET.
Формат вычисляемых документов (Computable Document Format или CDF) — это электронный формат документов, созданный с целью облегчения создания динамически сгенерированного интерактивного контента. Формат разработан компанией Wolfram Research.
Экранирование символов — замена в тексте управляющих символов на соответствующие текстовые подстановки. Один из видов управляющих последовательностей.
Документоориентированная СУБД (англ. document-oriented database) — СУБД, специально предназначенная для хранения иерархических структур данных (документов) и обычно реализуемая с помощью подхода NoSQL. В основе документоориентированных СУБД лежат документные хранилища (англ. document store), имеющие структуру дерева (иногда леса). Структура дерева начинается с корневого узла и может содержать несколько внутренних и листовых узлов. Листовые узлы содержат данные, которые при добавлении документа заносятся...
Портлет — подключаемый, сменный компонент пользовательского интерфейса веб-портала (элемент веб-страницы).
Маршалинг (от англ. marshal — упорядочивать) в информатике — процесс преобразования информации (данных, двоичного представления объекта), хранящейся в оперативной памяти, в формат, пригодный для хранения или передачи. Процесс похож на сериализацию (отличия см. ниже). Обычно применяется тогда, когда информацию (данные, объекты) необходимо передавать между различными частями одной программы или от одной программы к другой.
Ду́блинское ядро ́ (англ. Dublin Core) — словарь (семантическая сеть) основных понятий английского языка, предназначенный для унификации метаданных для описания широчайшего диапазона ресурсов. С 2005 года словарь представлен и в формате RDF и является популярной основой для описания ресурсов в Семантической паутине.
Язык спецификаций — формальный язык, предназначенный для декларативного описания структуры, связей, свойств данных и способов их преобразований, (в отличие от активных языков) без явного упоминания порядка выполняемых действий и использования конкретных значений данных.
Фьютекс (англ. futex, сокращение от англ. fast userspace mutex) — в программировании способ реализации семафоров и мьютексов POSIX в Linux. Впервые введены в ядро Linux с версии 2.5.7 (development); выработана стабильная семантика с 2.5.40; включаются в стабильные версии серии 2.6.x.
Трёху́ровневая архитекту́ра (трёхзве́нная архитекту́ра, англ. three-tier) — архитектурная модель программного комплекса, предполагающая наличие в нём трёх компонентов: клиента, сервера приложений (к которому подключено клиентское приложение) и сервера баз данных (с которым работает сервер приложений).
Правило одного определения (One Definition Rule, ODR) — один из основных принципов языка программирования C++. Назначение ODR состоит в том, чтобы в программе не могло появиться два или более конфликтующих между собой определения одной и той же сущности (типа данных, переменной, функции, объекта, шаблона). Если это правило соблюдено, программа ведёт себя так, как будто в ней существует только одно, общее определение любой сущности. Нарушение ODR, если оно не будет обнаружено при компиляции и сборке...
Управляющая последовательность (исключённая последовательность, экранированная последовательность, от англ. escape sequence) — совокупность идущих подряд значащих элементов, в группе теряющих для обрабатывающего механизма своё индивидуальное значение, одновременно с приобретением этой группой нового значения.
Эталонная реализация (от англ. reference implementation) (реже используется образец реализации (sample implementation) или модель реализации (model implementation)) — реализация программного обеспечения, точно соответствующая спецификации некоторого стандарта (например, сетевого протокола, алгоритма кодирования или языка программирования), либо созданная для демонстрации этой спецификации в действии.
Атака возврата в библиотеку (англ. Return-to-libc attack) — один из видов компьютерных атак, популярных на x86-совместимых машинах и схожие с ними, связанных с переполнением буфера, когда адрес возврата функции на стеке подменяется адресом иной функции в программе, и в последующую часть стека записываются параметры для вызываемой функции. Эта техника позволяет нападающему выполнить какую-либо существующую функцию без необходимости внедрять вредноносный код в программу.
Бездисковая рабочая станция — это персональный компьютер, лишённый несъёмных средств для долговременного хранения данных. Существуют два основных сценария использования бездисковых рабочих станций...
Открытая система - по определению,предназначена взаимодействовать с другими приложениями на локальных и удалённых системах, и взаимодействовать с пользователями в стиле, который облегчает переход пользователей от системы к системе.
Объе́ктно-ориенти́рованное проектирование (ООП) — часть объектно-ориентированной методологии, которая предоставляет программистам возможность оперировать понятием «объект», помимо понятия «процедура» при разработке кода.
Лицензия свободного ПО (англ. free software licence) — лицензия на программное обеспечение, которая предоставляет получателям права модифицировать и повторно распространять, что в противном случае могло бы быть запрещено законом об авторском праве. Чтобы квалифицироваться как лицензия свободного ПО, лицензия должна предоставлять права, описанные в Определении свободного программного обеспечения или в одном из аналогичных определений, основанных на этом.
Вики-разметка — язык разметки, который используется для оформления текста на веб-сайтах (как правило, относящихся к классу вики-проектов) и позволяет упростить доступ к возможностям языка HTML. Страницы, оформленные с применением вики-разметки, предварительно преобразуются в HTML для просмотра в веб-браузере, преобразование реализует специальное программное обеспечение — вики-движок (англ. wiki engine).
Внедрение зависимости (англ. Dependency injection, DI) — процесс предоставления внешней зависимости программному компоненту. Является специфичной формой «инверсии управления» (англ. Inversion of control, IoC), когда она применяется к управлению зависимостями. В полном соответствии с принципом единственной ответственности объект отдаёт заботу о построении требуемых ему зависимостей внешнему, специально предназначенному для этого общему механизму.
Парсер (англ. parser; от parse – анализ, разбор) или синтаксический анализатор — часть программы, преобразующей входные данные (как правило, текст) в структурированный формат. Парсер выполняет синтаксический анализ текста.
Подробнее: Синтаксический анализатор
Сигнату́ра ата́ки (вируса) — характерные признаки компьютерного вируса, используемые для их обнаружения. Большинство современных антивирусов, сканеров уязвимостей и систем обнаружения вторжений (СОВ) используют «синтаксические» сигнатуры, взятые непосредственно из тела атаки (файла вируса или сетевого пакета, принадлежащего эксплойту). Также существуют сигнатуры, основанные на поведении или аномалиях — например, слишком агрессивное обращение к какому-либо сетевому порту на компьютере.
Стековый язык программирования (англ. stack-oriented programming language) — это язык программирования, в котором для передачи параметров используется машинная модель стека. Этому описанию соответствует несколько языков, в первую очередь Forth и PostScript, а также многие ассемблерные языки (использующие эту модель на низком уровне — Java, C#). При использовании стека в качестве основного канала передачи параметров между словами элементы языка естественным образом образуют фразы (последовательное...
В области компьютеризации понятие программирования сетевых задач или иначе называемого сетевого программирования (англ. network programming), довольно сильно схожего с понятиями программирование сокетов и клиент-серверное программирование, включает в себя написание компьютерных программ, взаимодействующих с другими программами посредством компьютерной сети.
Подробнее: Программирование сетевых задач
Вариативный макрос — возможность препроцессором Си при помощи специального макроса объявлять поддержку различного числа аргументов.
Макропроце́ссор (также макрогенера́тор) — программа, выполняющая преобразование входного текста в выходной при помощи задаваемых ей правил замены последовательностей символов, называемых правилами макроподстановки.
Том (англ. volume; также логический накопитель, логический диск) — часть долговременной памяти компьютера, рассматриваемая как единое целое для удобства работы. В операционных системах том используется как единица пространства хранения, доступная для разметки (форматирования) под единую файловую систему (такую, как Ext4 или NTFS), либо передаваемая под управление менеджеру томов (такому, как LVM, VxVM, ASM). Таким образом, понятие тома обеспечивает для операционной системы абстракцию от физического...
Автодополнение , автозавершение (англ. autocomplete) — функция в программах, предусматривающих интерактивный ввод текста (редакторы, оболочки командной строки, браузеры и т. д.) по дополнению текста по введённой его части.
Программное обеспечение в общественном достоянии — программное обеспечение, которое было передано в общественное достояние, другими словами, не защищается авторским правом, товарным знаком или патентом. В отличие от других классов лицензий, нет никаких ограничений относительно того, что может быть сделано с программным обеспечением. Программное обеспечение можно изменять, распространять или продавать даже без ссылки на источник.
Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
Мемоизация (запоминание, от англ. memoization (англ.) в программировании) — сохранение результатов выполнения функций для предотвращения повторных вычислений. Это один из способов оптимизации, применяемый для увеличения скорости выполнения компьютерных программ. Перед вызовом функции проверяется, вызывалась ли функция ранее...
Динамический порт , или Эфемерный порт, — временный порт, открываемый соединением межсетевого протокола транспортного уровня (IP) из определённого диапазона программного стека TCP/IP.
Обёртка библиотеки (англ. wrapper) является промежуточным слоем между прикладной программой и другой библиотекой или интерфейсом программирования приложений (API).
Служба теневого копирования тома (англ. Volume Shadow Copy Service, VSS) — служба операционной системы Windows, позволяющая копировать файлы, с которыми в данный момент времени ведётся работа, и даже с системными и заблокированными файлами. Служба необходима для работы следующих программ: восстановление системы, программ архивации (Paragon Drive Backup, Acronis True Image, Leo Backup, R Drive Image и другие). Обычно служба запускается вручную.
Подробнее: Теневая копия
Службы управления правами (англ. Active Directory Rights Management Services, AD RMS, также известны как Rights Management Services или RMS до Windows Server 2008) — серверное программное обеспечение для управления правами доступа к информации, поставляемое с Windows Server. Оно использует шифрование и отказ от выборочной функциональности для ограничения доступа к таким документам, как корпоративные электронные письма, документы Microsoft Word и веб-страницы, а также авторизованных пользователей...
Сервлет является интерфейсом Java, реализация которого расширяет функциональные возможности сервера. Сервлет взаимодействует с клиентами посредством принципа запрос-ответ.