II Машинное обучение и ряд других областей

2.1 Ml и интеллектуальный анализ данных. Пересечение Ml и DM

Интеллектуальный анализ данных

Интеллектуальный анализ данных (Data Mining — DM) рассматривается в качестве процесса извлечения и обнаружения закономерностей из солидных массивов данных с использованием методов на стыке статистики, машинного обучения и систем баз данных. DM является междисциплинарной областью информатики и статистики, общая цель которой состоит в том, чтобы добиваться извлечения информации (с помощью интеллектуальных методов) из набора данных и преобразования информации в понятную для дальнейшего использования структуру.

DM — это этап анализа « обнаружения знаний в базах данных», процесс, или KDD (Knowledge Discovery Data).

Примечание:

Обнаружение знаний из данных (KDD) является последовательным по характеру процессом извлечения закономерностей либо знаний из огромного массива данных. Обычно люди интересуются данными, отличающимися потенциальной полезностью, нетривиальностью, неизвестностью.

KDD определяется как метод поиска, преобразования и уточнения значимых данных и шаблонов из необработанной базы данных для использования в разных приложениях либо областях.

Помимо анализа необработанных данных, в DM также включаются аспекты управления данными и базами данных, предварительной обработки данных, соображений моделей и выводов, метрик интересности, соображений сложности, постобработки обнаруженных структур, визуализации, онлайн-обновлений.

Пересечение Ml и DM

Машинным обучением и DM нередко применяются одни и те же методы и они в значительной мере пересекаются. В то же время Ml фокусируется на прогнозировании на основе известных свойств, полученных из обучающих данных, а DM — на обнаружении ранее неизвестных свойств в данных (это этап анализа обнаружения знаний в базах данных). В DM практикуется использование множества Ml — методов, но с иными целями; с другой стороны, Ml использует DM — методы как «обучение без учителя». либо в качестве этапа предварительной обработки для повышения уровня точности обучения.

Возникновение большей части путаницы между 2-мя исследовательскими сообществами (зачастую имеющими отдельные журнальные издания и конференции, ECML PKDD — серьезное исключение) происходит из-за основных предположений, с которыми они работают:

в Ml производительность обычно оценивается по способности воспроизводить известные знания, тогда как при обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. При оценке по известным знаниям неинформированному (неконтролируемому) методу легко превзойти контролируемые методы, в то время как в типичной KDD-задаче контролируемые методы не могут использоваться — из-за отсутствия обучающих данных.

2.2 Ml и физика. Ml и статистика. ML и оптимизация

Ml и физика

Полученные из глубинной физики неупорядоченных систем методы вычислительные и аналитические) могут быть распространены на крупномасштабные задачи, не исключая машинное обучение, к примеру, для анализа весового пространства глубоких нейронных сетей. Таким образом, статистическая физика находит применение в области медицинской диагностики.

Ml и статистика

Ml и статистика являются тесно связанными с точки зрения методов областями. Однако между ними имеется отличие по критерию своей основной цели: статистика делает выводы о численности населения на основе выборки, а Ml находит обобщаемые прогнозные закономерности.

У Ml-идей — от методологических принципов до теоретических инструментов — имеется длительная предыстория в статистике. Известен также применяемый для обозначения всей области термин «наука о данных».

Если говорить о традиционном статистическом анализе, ему требуется априорный выбор модели, которая наиболее подходит для набора данных исследования. Помимо этого, практикуется включение в анализ лишь значимых или теоретически значимых переменных, базирующихся на предшествующем опыте.

Построение Ml, наоборот, не происходит на предварительно структурированной модели; скорее, данные формируют модель, обнаруживая имеющиеся основные закономерности.

Чем больше входных данных (переменных) используется в целях обучения модели, тем большая точность будет у конечной модели. Лео Брейманом выделены 2 парадигмы статистического моделирования [1]:

модель данных и алгоритмическую модель, где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как Random Forest.

Некоторыми статистиками были взяты на вооружение методы машинного обучения, что привело к созданию объединенной области, которую они назвали «статистическим обучением».

ML и оптимизация

ML также имеет существенную связь с оптимизацией: формулирование многих задач обучения происходит как минимизация некоторой функции потерь на обучающем наборе примеров.

Функции потерь выражают расхождение между предсказаниями обучаемой модели и реальными примерами задачи (к примеру, при осуществлении классификации требуется присвоение метки примерам, и модели обучаются правильному предсказанию заранее присвоенных меток на солидном количестве примеров).

Различие между оптимизацией и ML машинным обучением связано с целью обобщения: если алгоритмы оптимизации позволяют минимизировать потери на обучающем множестве, то машинное обучение нацелено на минимизацию потерь на невидимых выборках. Характеристика обобщения различных алгоритмов обучения является активной темой современных исследований, особенно для алгоритмов глубокого обучения.

Обобщение является концепцией, согласно которой люди, животные и искусственно созданные нейросети прибегают к использованию прошлого опыта в настоящих ситуациях обучения, когда условия в данных ситуациях считаются схожими. Обучающимся ради более эффективной ориентации в мире используются обобщенные модели, принципы и иные сходства между опытом прошлым и опытом новым.

Примером может служить узнавание человека о том, что каждый раз, когда он ест инжир, его горло начинает чесаться и опухать. В итоге он может прийти к предположению, что у него имеется аллергия на все фрукты. Поэтому если вы предложите данному человеку съесть мандарин, он ответит вам отказом, думая, что у него на мандарины тоже аллергия, обобщая, что всеми фруктами вызывается одна и и та же проблема.

Базирующееся на опыте человека с одним фруктом обобщение об аллергии в некоторых случаях может являться правильным, но в других случаях — нет. В образовании были продемонстрированы как отрицательные, так и положительные эффекты обобщения, а также эффекты противоположного обобщению понятия, известного как дискриминационное обучение.

Источник: https://vk.com/wall-25712960_386

Машинное обучение: как его понимать. И как заработать на машинном обучении и искусственном интеллекте

Оглавление

Купить книгу