Мониторинг информации в Интернете

А. Артемов, 2014

В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер.

Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Мониторинг информации в Интернете предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Лекция 2

Описание языков запросов поисковой машины яндекс

Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его ресурсе постоянно проводятся дополнительные исследования, отслеживаются и оцениваются изменения в работе операторов указанной поисковой машины. Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на Булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса, не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос, исходя из того, что он будет обработан компьютером буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая свое обращение.

Итак, перейдем непосредственно к операторам запросов Яндекса.

1. Логическое «И».

Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развита практически уникальная система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете который максимально качественно выбирает нужную информацию и отсекает ненужное.

1.1. Пробел. Слова, разделенные пробелом, должны располагаться недалеко друг от друга. Специалисты поясняют, что термин «недалеко» отнюдь не фиксированная величина именяется в зависимости от того, с какими словами указанный оператор в каждом конкретном случае используется. Если они часто употребляются, то «недалеко» — значит на расстоянии нескольких слов друг от друга. Если же они редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко».

При этом, несмотря на то, что логическое «И» в общем виде Булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс, тем не менее, действительно выдает сначала те документы, в которых есть все ключевые слова, представленные в запросе. После чего начинает выдавать документы, в которых на одно ключевое слов меньше, чем в запросе, затем — на два слова меньше и так далее.

Запрос: [маркетинг менеджмент]

Результат поиска: страниц — 2 442 393, сайтов — не менее 1456

В выдаче: Маркетинг, Финансы, Реклама, Менеджмент

1.2. Амперсанд (&). Слова, разделенные амперсандом, находятся в одном предложении. Важно: амперсанд должен быть отделен пробелами с двух сторон от любых других слов.

Запрос: [маркетинг & менеджмент]

Результат поиска: страниц — 1 190 379, сайтов — не менее 1093

В выдаче:… Филип Котлер в краткой форме представляет все наиболее значительные и интересные положения самой известной своей работы «Маркетинг менеджмент»…

1.3. Двойной амперсанд (&&). Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа.

Важно: между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.

Запрос: [маркетинг && менеджмент]

Результат поиска: страниц — 3 641 056, сайтов — не менее 1 295

В выдаче, к примеру, будут присутствовать учебные планы вузов, в которых слова «маркетинг» и «менеджмент» находятся в разных частях текста, в том числе — на разных страницах опубликованного в Интернете многостраничного плана занятий.

Чтобы увидеть это наглядно, читатели могут нажать в результатах выдачи гиперссылку «Найденные слова», которая приводится во всех итогах поиска. И тогда слова, которые есть в запросе, будут подсвечены и не придется тратить время на их «отлавливание» в тексте.

2. Логическое «НЕ».

Логическое «НЕ» представлено двумя операторами. Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска: «Зачем нужно логическое „НЕ“? Его ведь можно и вовсе не вводить, и тогда оно нам не понадобится!». Отвечаем: если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что часто в выдаче принудительно оказывается «мусор» и другого способа избавиться от него, кроме как убрать эти слова при помощи логического «НЕ», у нас нет. Так, например, если вас интересует конек крыши, то по слову «конек» в выдаче окажется информация и о роликовых, и о фигурных коньках, и даже о Коньке-Горбунке. Для таких-то случаев логическое «НЕ» и придумано.

Итак, вернемся к нашим операторам.

2.1. Тильда (~). Знак тильды — это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей SHIFT. Как и амперсанд, тильда должна быть отделена пробелами с обеих сторон. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг этого знака.

Тильда означает, по аналогии с диаметрально противоположным символом — амперсандом, что слова не должно быть в предложении.

Запрос: [маркетинг ~ менеджмент]

Результат поиска: страниц — 12 604 153, сайтов — не менее 4442

В выдаче:… комплексный подход к услуге интернет-маркетинга, охватывающий все возможности для продвижения интернет-представительств компаний в сети Интернет.

2.2. Двойная тильда (~~). По аналогии с двойным амперсандом, двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон. Она означает, что слова, которое за ней расположено, не должно быть в документе совсем.

Запрос: [маркетинг ~~ менеджмент]

Результат поиска: страниц — 9 675 995, сайтов — не менее 3 976

В выдаче: Форум по маркетингу и рекламе — Маркетинг и Реклама, маркетинговые коммуникации, виды рекламы: реклама в СМИ, наружная реклама, BTL: POS-материалы, У вас есть вопрос по маркетингу и рекламе?

Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетингу» выделены как релевантные, «маркетинговые» же — нет. Это происходит потому, что термин «маркетинг» — существительное, а «маркетингу» — его словоформа, тогда как «маркетинговые» — совсем другая часть речи, а отнюдь не производное от слова «маркетинг». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете. На самом деле, в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком «минус». По мнению Дениса Фурсова, с которым автор полностью согласен, _ «минус» — это не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» — это способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве своем они обозначают логическое «НЕ» именно этим знаком. Мы не пользуемся оператором «минус» при поиске в Яндексе.

Конец ознакомительного фрагмента.

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Мониторинг информации в Интернете предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я