Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман

Smart Reading, 2020

Этот текст – сокращенная версия книги «Просто о больших данных» (Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман). Только самые ценные мысли, идеи, кейсы, примеры. Посты в социальных сетях, данные навигаторов, датчики на производстве, показания приборов – ежедневно мир генерирует колоссальные объемы информации – Big Data, или большие данные. Пока основная часть больших данных никак не монетизирована. Но развитие технологий на стороне предприимчивых. Саммари знакомит со стратегиями и инструментами, которые помогут повернуть бурный поток информации в нужное вашей компании русло и использовать возможности больших данных для повышения эффективности бизнеса. Читать, чтобы: • Понять ключевые принципы работы с большими данными. • Узнать, как превратить огромные объемы данных в понятную и полезную информацию. • Познакомиться с практическими инструментами работы с большими данными и оценить, как их можно использовать в своем бизнесе. Об авторах Джудит Гурвиц – президент, глава совета директоров и идеолог исследовательской и консалтинговой компании Hurwitz & Associates. Алан Ньюджент – главный консультант Hurwitz & Associates, специалист в области инновационных информационных технологий. Ферн Халпер – доктор наук, научный сотрудник Hurwitz & Associates, директор по исследованиям в области углубленной аналитики Института изучения вопросов хранения данных. Марсия Кауфман – партнер-основатель и главный операционный директор Hurwitz & Associates.

Оглавление

Из серии: Smart Reading. Ценные идеи из лучших книг. Саммари

* * *

Приведённый ознакомительный фрагмент книги Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Что такое большие данные

Ежедневно мы производим огромное количество информации: посты в социальных сетях, отзывы на сайтах, фото — и видеозаписи, данные навигаторов, датчики оборудования… А распространение все более компактных и мощных мобильных устройств обещает, что в дальнейшем этот поток данных будет только увеличиваться. Мы уже научились искать нужную информацию в интернете, а вот анализировать разноплановые сведения из разных источников, да еще обращать этот анализ на пользу дела — навык будущего. Но работать над ним можно и нужно уже сегодня. Чрезвычайное разнообразие информации — и серьезная трудность, и серьезное преимущество.

Три ключевых параметра больших данных:

1) чрезвычайно большой объем;

2) чрезвычайно высокая скорость обработки;

3) чрезвычайное разнообразие.

Технология больших данных, которая сегодня выглядит столь современно и многообещающе, — не открытие последних лет, но результат полувекового развития принципов управления данными.

Как развивалась технология Big Data

Этап 1. Управляемые структуры. Технологии шагнули навстречу бизнесу в начале 1970-х, когда компания IBM занялась разработкой реляционных систем управления базами данных. Был разработан язык структурированных запросов (SQL) и специальные утилиты управления данными, позволившие кодировать информацию на высоком уровне абстракции (в таком виде работать с ней было гораздо проще). Однако хранение информации (а ее объем все увеличивался) и доступ к ней (по-прежнему медленный) оставались проблемой. Когда объем данных стало почти невозможно контролировать, программисты нашли выход, придумав хранилища данных. Их коммерческие версии появились в 1990-е годы и сразу стали востребованны: имея в хранилище данные за разные годы, компании лучше представляли свою работу, более гибко оперировали финансовой отчетностью, могли оценить перспективы. Следующим шагом стало создание объектно ориентированных[1] систем управления, обеспечивших единый подход к работе с разнородными данными.

Этап 2. Управляемая сеть. Интернет 1990-х в разы увеличил количество контента. Теперь требовались платформы, которые бы объединили инструменты работы с текстами, видео — и аудиоматериалами, изображениями. Распознавание информации и управление неструктурированными данными становилось все более насущной задачей. И такие платформы появились, а с ними пришла идея метаданных (обычным пользователям они известны как теги). Мир становился все виртуальнее. А выгоды, которые обещал этот новый мир, были вполне реальными.

Этап 3. Управление большими данными. Еще несколько лет назад компании вынуждены были довольствоваться выборками интересующей их информации — хранение и обработка данных были слишком дороги. Это сужало стратегические возможности бизнеса и казалось не таким уж выгодным делом. В 2000–2010 годы хранение и обработка информации удешевились в разы: компьютерная память становится все совершеннее, облачные сервисы все популярнее, виртуализация бизнес-среды все шире. При этом прежние идеи типа хранилищ данных не устарели — большие данные не сводятся лишь к одному инструменту, работать с ними — значит использовать достижения всех этапов развития этих технологий.

Типы данных

Данные могут быть структурированными и неструктурированными.

Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета — все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире — дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.

Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.

Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости) — это неструктурированные данные.

В среднем 80 % данных любого предприятия — неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.

А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.

Бизнес больше не может работать с изолированными хранилищами информации — самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента, — типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях, — тоже метаданные.

Специфика работы с данными

Специфика работы с данными определяется их типом. Данные могут быть:

♦ передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса — показания медицинских датчиков, приборы слежения;

♦ хранимыми (или данными в покое) — данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.

Цикл работы с данными включает три этапа:

• сбор данных;

• систематизация;

• обобщение.

На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:

• достоверность данных.

Большие данные — океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.

Оглавление

Из серии: Smart Reading. Ценные идеи из лучших книг. Саммари

* * *

Приведённый ознакомительный фрагмент книги Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Примечания

1

Объектно ориентированные системы управления базами данных — способ структурирования информации в базах данных в виде объектов, каждый из которых обладает определенными свойствами, состоянием и поведением. Объекты, обладающие одинаковыми свойствами, группируются в классы, а классы образуют иерархию наследования.

2

Реляционная база данных — совокупность связанной информации, представленной в виде двумерных таблиц. Строки таблицы никак не упорядочены, чтобы обеспечить максимальную гибкость работы с базой. Пользователи могут фильтровать и упорядочивать информацию по своему желанию. Столбцы при этом поименованы и пронумерованы.

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я