Связанные понятия
Релевантность в информационной науке и информационном поиске означает степень соответствия найденного документа или набора документов информационным нуждам пользователя (Релевантность, Relevance).
Страница результатов поиска (англ. Search engine results page, SERP) или поисковая выдача — веб-страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя.
Фолксоно́мия (англ. folksonomy, от folk — народный + taxonomy таксономия, от гр. расположение по порядку + закон) — народная классификация, практика совместной категоризации информации (текстов, ссылок, фото, видеоклипов и т. п.) посредством произвольно выбираемых меток, называемых тегами.
Ранжи́рование — сортировка сайтов в поисковой выдаче, применяемая в поисковых системах. Существует множество факторов для ранжирования, среди которых можно отметить рейтинг сайта, количество и качество внешних ссылок, релевантность текста к поисковому запросу, на основании которых поисковая система формирует список сайтов в поисковой выдаче. Алгоритм ранжирования того или иного поисковика меняется в процессе его функционирования.
Поисковый запрос — это какая-то последовательность символов, которую пользователь вводит в поисковую строку, чтобы найти интересующую его информацию.
Упоминания в литературе
За прошедшие годы понимание
релевантности документа сильно изменилось. Поисковые системы стараются дать максимально полный ответ и предсказать ожидания пользователя, оперируя серьёзными математическими моделями. Так, например, в последнем поисковом алгоритме Яндекса MatrixNet при расчёте релевантности документа учитывается более 2500 тыс. различных факторов. Релевантными считаются такие результаты поиска, которые способны решить информационную потребность пользователя.
На текущий момент в связи с увеличением «удельного веса» внутренних факторов сложился целый свод писаных и неписаных требований к оптимизации, без соблюдения которых дорога в «высшее общество» – в топ – закрыта. И наоборот, отдельные факторы, которые ранее вершили судьбы сайтов (как то: метатеги, «тошнота», большие тексты, схемы перелинковки), утрачивают актуальность. Таким
образом, если первые алгоритмы поисковых машин анализировали лишь релевантность ресурса запросу, то в настоящее время важнее его качество и полезность для посетителей.
Качество релевантности информации сохраняется и в социальных отношениях, выступая как совокупность свойств, характеризующих степень соответствия информации потребностям использующих ее субъектов, что предполагает оценку информации по ряду критериев, в зависимости от вида деятельности субъекта, с которой связано использование информации, и целями, которые ставит субъект.
Кадровые данные представляют собой еще один тип оценочной информации; обращение к кадровым данным особенно остро
ставит вопрос о релевантности используемых критериев. Наиболее часто используемые показатели, относящиеся к кадровым данным, представлены такими характеристиками, как абстентеизм и аварийные или несчастные случаи на производстве. Абстентеизм составляет важную переменную при оценке успешности работы, однако методы его измерения и способы интерпретации не всегда являются отчетливыми. Абстентеизм как критерий измерения на сегодняшний день продолжает быть предметом углубленных психологических исследований.
В технологическом аспекте методология трактуется как совокупность методов получения и подтверждения достоверности научного знания. В некоторых учебниках по политологии и социологии методология определяется как совокупность методов, процедур сбора и обработки данных в эмпирическом исследовании. «Прозрачность», внутренняя логичность самого исследовательского процесса получения знания – крайне важный аспект понимания методологии. В отличие от естественных наук, ассоциирующихся с экспериментальным
методом, в социальных степень релевантности и валидности методов является одним из самых острых и болезненных вопросов9. Это связано с исключительной сложностью социальных объектов и ограниченными возможностями их эмпирической верификации.
Связанные понятия (продолжение)
Обуче́ние ранжи́рованию (англ. learning to rank или machine-learned ranking, MLR) — это класс задач машинного обучения с учителем, заключающихся в автоматическом подборе ранжирующей модели по обучающей выборке, состоящей из множества списков и заданных частичных порядков на элементах внутри каждого списка. Частичный порядок обычно задаётся путём указания оценки для каждого элемента (например, «релевантен» или «не релевантен»; возможно использование и более, чем двух градаций). Цель ранжирующей модели...
Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование, совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы...
Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.
О́блако те́гов (облако слов, или взвешенный список, представленное(-ый) визуально) — это визуальное представление списка категорий (или тегов, также называемых метками, ярлыками, ключевыми словами и т. п.) Обычно используется для описания ключевых слов (тегов) на веб-сайтах, или для представления неформатированного текста. Ключевые слова чаще всего представляют собой отдельные слова, и важность каждого ключевого слова обозначается размером шрифта или цветом. Такое представление удобно для быстрого...
Информацио́нный по́иск (англ. information retrieval) — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске.
Визуализация данных — это представление данных в виде, который обеспечивает наиболее эффективную работу человека по их изучению. Визуализация данных находит широкое применение в научных и статистических исследованиях (в частности, в прогнозировании, интеллектуальном анализе данных, бизнес-анализе), в педагогическом дизайне для обучения и тестирования, в новостных сводках и аналитических обзорах. Визуализация данных связана с визуализацией информации, инфографикой, визуализацией научных данных, разведочным...
Семантический поиск — способ и технология поиска информации, основанная на использовании контекстного (смыслового) значения запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе. Улучшение результатов поиска при обработке запросов достигается за счет более точной интерпретации поисковых намерений пользователя.
Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все документы в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.
Требования к программному обеспечению — совокупность утверждений относительно атрибутов, свойств или качеств программной системы, подлежащей реализации. Создаются в процессе разработки требований к программному обеспечению, в результате анализа требований.
Ориентированное на пользователя проектирование (ОПП) — это стратегия проектирования и процесс, в котором потребностям, желаниям и ограничениям конечных пользователей продукта уделяется обширное внимание на каждой стадии процесса проектирования. Ориентированное на пользователя проектирование может быть охарактеризовано как многоступенчатый процесс решения задач, который требует, чтобы проектировщики не только анализировали и предвидели и, вероятно, как пользователи, использовали продукт, но также...
Дорвей (от англ. doorway — входная дверь, портал) или входная страница — вид поискового спама, веб-страница, специально оптимизированная под конкретный запрос или группу поисковых запросов, с целью её попадания на высокие места в результатах поиска по этим запросам и дальнейшего перенаправления посетителей на другой сайт или страницу.
Открытый контент (англ. Open content) — неологизм, придуманный по аналогии с открытым ПО (англ. open source), описывает любое творческое произведение или контент, опубликованный по лицензии, явно разрешающей копирование и изменение этой информации кем угодно, а не только закрытой организацией, фирмой или частным лицом. Открытый контент — это альтернативная парадигма использованию копирайта для создания монополий. Открытый контент способствует целям демократизации знаний.
Компьютерно-опосредованная коммуникация (англ. computer-mediated communication, СМС) — это любое общение между людьми, которое происходит при помощи двух или более электронных устройств. Обычно этим термином называют способы общения, характерные для компьютерных устройств (например, электронная почта, чаты, интернет-форумы, социальные сети и т. п.). Кроме того, термин может применяться к любому текстовому общению. Исследования компьютерно-опосредованной коммуникации фокусируются в основном на социальных...
Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.
Валида́ция (от лат. validus «здоровый, крепкий; сильный») в технике или в системе менеджмента качества — доказательство того, что требования конкретного пользователя, продукта, услуги или системы удовлетворены.
Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты) будут интересны пользователю, имея определенную информацию о его профиле.
Подробнее: Рекомендательная система
Язы́к запро́сов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам.
Геотаргетинг (англ. geo targeting) — в веб-разработке и интернет-маркетинге, метод выдачи посетителю содержимого, соответствующего его географическому положению.
Микроформат (англ. microformat; иногда сокращённо μF или uF) — способ семантической разметки сведений о разнообразных сущностях (событиях, организациях, людях, товарах и так далее) на веб-страницах с использованием стандартных элементов языка HTML (или XHTML). Пользователь-человек может воспринимать страницу с микроформатом как обычную веб-страницу (через браузер), тогда как программы-обработчики способны извлечь из такой страницы структурированную информацию, следуя определённым соглашениям.
Глубокая сеть (также известна как «Невидимая сеть», «Глубокая паутина», «Глубокий интернет»; англ. Deep Web;) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошёл от соотв. англ. invisible web. Наиболее значительной частью глубокой паутины является Глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн-базам данных.
Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
Поисковый маркетинг (англ. Search engine marketing (SEM)) — комплекс мероприятий, направленный на увеличение посещаемости сайта его целевой аудиторией с помощью поисковых машин.
Семанти́ческая паути́на (англ. semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.
Стандарт исключений для роботов (robots.txt) — файл ограничения доступа роботам к содержимому на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких поддоменов файл должен располагаться в корневом каталоге каждого из них.
Модель данных — это абстрактное, самодостаточное, логическое определение объектов, операторов и прочих элементов, в совокупности составляющих абстрактную машину доступа к данным, с которой взаимодействует пользователь. Эти объекты позволяют моделировать структуру данных, а операторы — поведение данных.
Пузы́рь фи́льтров (англ. «Filter bubble») — понятие, разработанное интернет-активистом Илаем Парайзером (англ. Eli Pariser) и описанное в его одноимённой книге: негативная сторона персонализированного поиска, явления, при котором веб-сайты определяют, какую информацию пользователь хотел бы увидеть, основываясь на информации о его месторасположении, прошлых нажатиях и перемещениях мыши, предпочтениях и истории поиска. В результате веб-сайты показывают только информацию, которая согласуется с прошлыми...
Юзаби́лити (от англ. usability — «удобство и простота использования, степень удобства использования»), также удо́бство испо́льзования, приго́дность испо́льзования, эргономи́чность — способность продукта быть понимаемым, изучаемым, используемым и привлекательным для пользователя в заданных условиях (ISO/IEC 25010); свойство системы, продукта или услуги, при наличии которого конкретный пользователь может эксплуатировать систему в определенных условиях для достижения установленных целей с необходимой...
Система управления документами , СУД, DMS (англ. Document management system) — компьютерная система (или набор компьютерных программ), используемая для отслеживания и хранения электронных документов и/или образов (изображений и иных артефактов) бумажных документов. Системы управления документами (DMS) обычно рассматриваются как компонент систем управления содержимым масштаба предприятия (Enterprise Content Management System, ECMS), разновидности систем управления содержимым (CMS).
Продвижение сайта — комплекс мер по обеспечению посещаемости сайта целевыми посетителями. Целевые посетители — это потенциальные потребители, которые заинтересованы в приобретении товаров или услуг, представленных на продвигаемом сайте.
О термине из программирования см. Зарезервированное слово.Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, позволяющее выявить его тематику. В вебе используется главным образом для поиска.
Подробнее: Ключевое слово
Семантическое ядро сайта (СЯ) — это упорядоченный набор слов, их морфологических форм и словосочетаний, которые наиболее точно характеризуют вид деятельности, товары или услуги, предлагаемые сайтом. Семантическое ядро имеет центральное ключевое слово, как правило высокочастотное, и все остальные ключевые слова в нём ранжируются по мере убывания частоты совместного использования с центральным запросом в общей коллекции документов. Таким образом, семантическое ядро представляется в виде семантического...
Ка́чество програ́ммного обеспечения — способность программного продукта при заданных условиях удовлетворять установленным или предполагаемым потребностям (ISO/IEC 25000:2014).
Поиско́вый ро́бот («веб-пау́к», «веб-краулер» , бот ) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
Модель Белла — Лападулы — модель контроля и управления доступом, основанная на мандатной модели управления доступом. В модели анализируются условия, при которых невозможно создание информационных потоков от субъектов с более высоким уровнем доступа к субъектам с более низким уровнем доступа.
Отображение онтологий (англ. ontology alignment или ontology matching) — это процесс установления соответствий между понятиями (концептами) нескольких онтологий. Множество таких соответствий и называется «отображением». Термин имеет разное значение в компьютерной, когнитивной областях и философии.
Сигнатурный анализ – это один из методов антивирусной защиты, заключающийся в выявлении характерных идентифицирующих свойств каждого вируса и поиске вирусов при сравнении файлов с выявленными свойствами. Одним из важных свойств сигнатурного анализа является точное определение типа вируса. Это позволяет занести в базу как сигнатуры, так и способы лечения вируса.
Статистика запросов — информация об обращениях пользователей к поисковой системе по «ключевым словам». В большинстве случаев при работе с сервисом статистики имеется возможность отсеивать результаты по географии или даже по отдельно взятому языку, а иногда и по месяцам. При этом, обычно, сервис показывает не только данные об искомом запросе, но также и о словосочетаниях, синонимах и близких темах («ищут также»).
Контент-фильтр , или програ́мма ограниче́ния веб-контента (англ. Content-control software или web filtering software) — устройство или программное обеспечение для фильтрации сайтов по их содержимому, не позволяющее получить доступ к определённым сайтам или услугам сети Интернет. Система позволяет блокировать веб-сайты с содержимым, не предназначенным для просмотра.
Це́лостность ба́зы да́нных (database integrity) — соответствие имеющейся в базе данных информации её внутренней логике, структуре и всем явно заданным правилам. Каждое правило, налагающее некоторое ограничение на возможное состояние базы данных, называется ограничением целостности (integrity constraint).
Словарь данных , описанный в Словаре вычислений от IBM (IBM Dictionary of Computing) как «центральное хранилище информации о данных, такой как значение, взаимосвязи с другими данными, их источник, применение и формат.» Термин может иметь одно из близких по смыслу значений, относясь к базам данных и СУБД...
Байесовское программирование — это формальная система и методология определения вероятностных моделей и решения задач, когда не вся необходимая информация является доступной.