Частотный анализ числовых и текстовых данных. Учебное пособие

Валентин Юльевич Арьков

Данная работа посвящена применению современных методов и технологий больших данных в курсе бизнес-аналитике и статистики. Анализ частоты появления различных значений – один из способов первоначальной обработки данных. Чаще всего его относят к описательной статистике или аналитике. Подсчет частот имеет отношение распределению. Поэтому для успешного восприятия материала желательно освежить в памяти основы теории вероятностей и математической статистики.

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Частотный анализ числовых и текстовых данных. Учебное пособие предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

1. Начало работы

1.1. Результаты и защита

Здесь мы обсудим первые шаги и основные моменты, касающиеся выполнения работы. В данной работе мы проводим обучение в режиме мастер-класса, когда студенты повторяют действия специалиста — «мастера своего дела». В данном выражении слово «класс» означает «занятия на выбранную тему». Это выражение позаимствовано из английского. Фактически, это английское выражение master class, записанное русскими буквами, а вовсе не перевод.

Программа на Python уже готова, её можно просмотреть, скачать и запустить. Мы обсуждаем её по частям, которые называются ячейками. Студентам нужно с этой программой ознакомиться и «поиграться», меняя некоторые параметры. В конечном счёте нужно достичь некоторого понимания и способности использовать и модифицировать эту готовую программу.

Поэтому в тексте даются пояснения и несложные задания. Во время защиты студент демонстрирует понимание материала и способность осмысленно использовать готовые команды и конструкции языка.

За счет такого подхода можно быстро войти в курс дела и сделать первые шаги в аналитике данных на Питоне.

Задание. Просмотрите в Википедии статью Мастер-класс.

1.2. Работа и отчет

Будем выполнять работу в облачном блокноте Jupyter Notebook в среде Google Colab.

https://colab.research.google.com/

Для работы понадобится подключение к интернет и учетная запись Google. Наш блокнот одновременно является инструментом для анализа данных и отчетом, в котором мы «документируем» все наши действия — шаг за шагом.

Для работы на локальном компьютере можно использовать бесплатную среду Anaconda с аналогичными возможностями.

https://www.anaconda.com/

Еще один вариант — это запуск на локальном компьютере контейнера с Anaconda и работа с ним через браузер.

1.3. Создание блокнота

При открытии страницы Colab выбираем создание нового блокнота: New Notebook. Задаём ему информативное название.

Блокнот состоит из ячеек, которые могут содержать программный код — Code — или текст — Text. Для создания очередной ячейки нажимаем соответствующую кнопку, см. рис.

Рис. Создание ячейки

Отчёт по лабораторной работе традиционно начинается с титульного листа. В нашем примере это будет текстовая ячейка, содержащая основные данные о выполненной работе и исполнителе (студенте).

В начале каждого раздела создаём текстовую ячейку с соответствующим названием. Двойным щелчком левой кнопки мыши переходим к редактированию ячейки. Для заголовков первого верхнего уровня используем символ решетки. После ввода текста для «запуска» ячейки на выполнение нажимаем комбинацию клавиш [Shift + Enter]. При этом автоматически создаётся новая кодовая ячейка.

Чтобы раскрыть структуру документа, нажимаем кнопку содержание Table of contents, см рис.

Рис. Заголовок раздела

Для оформления текста можно использовать разметку Markdown и HTML. При этом в правой половине ячейки открывается предварительный просмотр отформатированного текста, см. рис.

Рис. Титульный лист

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Частотный анализ числовых и текстовых данных. Учебное пособие предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я