РоботВася. Хроники 31.10.12

31 октября, 2012

 

 

 

 

 

 

 

 

Торговля на постоянную сумму депозита в 100 тысяч рублей.

Без реинвестирования прибыли, без плеч, сделки на следующей свече, комиссия 0.035%

Data Mining — основа строительства роботов

27 октября, 2012

Data Mining — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).

Data Mining — мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др.

 

 

 

 

 

 

Сравнение статистики, машинного обучения и Data Mining:
• Статистика:
— Более, чем Data Mining, базируется на теории.
— Более сосредотачивается на проверке гипотез.
• Машинное обучение:
— Более эвристично.
— Концентрируется на улучшении работы агентов обучения.
• Data Mining:
— Интеграция теории и эвристик.
— Сконцентрирована на едином процессе анализа данных, включает очистку данных,
обучение, интеграцию и визуализацию результатов.

Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) — один из основателей этого направления:

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно сформулировать как поиск в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, кои могут быть выражены в форме, понятной человеку.

«Mining» по-английски означает «добыча полезных ископаемых«, а поиск закономерностей в огромном количестве данных действительно сродни этому процессу.

Цель поиска закономерностей — представление данных в виде, отражающем искомые процессы.

Построение моделей прогнозирования также является целью поиска закономерностей.

Результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от «чудесных возможностей» некоего алгоритма или набора алгоритмов.

Около 75% работы над Data Mining состоит в сборе данных, который совершается еще до того, как запускаются сами инструменты.

Неграмотно применив некоторые инструменты, можно бессмысленно растратить свой потенциал, а иногда и миллионы долларов».

Мнение Херба Эдельштайна (Herb Edelstein), известного в мире эксперта в области Data Mining, Хранилищ данных и CRM: «Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития.

Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается.

IT-команды увлеклись мифом о том, что средства Data Mining просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный Data Mining проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных«.

Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам Data Mining.

Построенные модели должны быть грамотно интегрированы в бизнес-процессы для возможности оценки и обновления моделей. В последнее время системы Data Mining поставляются как часть технологии хранилищ данных.

С помощью Data Mining можно отыскивать действительно очень ценную информацию, которая вскоре даст большие дивиденды в виде финансовой и конкурентной выгоды.

Однако Data Mining достаточно часто делает множество ложных и не имеющих смысла открытий.

Многие специалисты утверждают, что Data Mining-средства могут выдавать огромное количество статистически недостоверных результатов. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.

Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на «грубый» разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining — поиск неочевидных закономерностей.

Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.

Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями.