Author Archive
14 февраля 2011 года, система контентной аналитики Watson одержала победу над двумя сильнейшими игроками в интеллектуальной телевизионной игре Jeopardy! («Рискуй!») – прототип телевизионной игры «Своя игра».
Это наглядный пример возможного варианта робота для торговли на фондовых биржах.
Чтобы энтузиасты роботостроительства представили , что в идеале надо создать и сколько это будет стоить, предлагаю краткий обзор системы WATSON. {cut}
Система Watson — это годы работы сотен ученых плюс огромные вложенные средства, а в результате — вопрос-ответная система на архитектуре UIMA.
В отличие от поединка Deep Blue с Гарри Каспаровым, который за его бессмысленность назвали битвой человека с паровым катком, выигрыш компьютера Watson в телевизионной игре Jeopardy! имеет колоссальное значение как для будущего вообще, так и для развития класса аналитических систем в частности.
Ближайшим предком Watson можно считать систему AQUAINT (Advanced Question Answering for Intelligence), созданную под патронажем Национального института стандартов (NIST). В IBM продолжили ее развитие и адаптировали этот проект под свои технологии, в результате получился практический вариант AQUAINT под именем PIQUANT (Practical Intelligent Question Answering Technology). Наследником PIQUANT является проект OpenEphyra, осуществленный IBM совместно с Университетом Карнеги-Меллона. От Watson он отличается возможностью поиска ответа в Web.
Watson состоит из трех компонентов: суперкомпьютера, работающего под управлением операционной системы Linux, связующего ПО, реализующего архитектуру UIMA (Unstructured Information Management Architecture), и системы ответов на вопросы DeepQA. Центральной частью является UIMA.
Вопрос-ответные системы (Question Answering, QA) предназначены для поиска точных ответов на вопросы, поставленные на естественном языке (Natural Language Processing, NLP).
Технология управления неструктурированной информацией (Unstructured Information Management, UIM) и соответствующая архитектура UIMA разрабатывалась в IBM Research еще с 90-х годов группой, насчитывавшей порядка 200 сотрудников. Итогом стало создание связующего ПО, получившего название UIMA, которое может служить ядром для создания и внедрения распределенных аналитических машин (analysis engine), или UIM-приложений, позволяющих извлекать знания из неструктурированной информации, в том числе из текстов, аудио, видео и изображений.
В 2008 году был выпущен релиз Apache UIMA-AS (Asynchronous Scaleout), в котором к основной функциональности UIMA была добавлена возможность асинхронного масштабирования. Обе эти новации были использованы при создании системы ответов DeepQA, обеспечивающей Watson способность играть в Jeopardy!.
Систему DeepQA разрабатывали 20 человек в течение трех лет. Работа началась с фундаментального исследования самой игры и тактики игроков. Помимо таких очевидных задач, как генерация гипотез, сбор доказательств, анализ и численная оценка, авторам пришлось решать и специфичные задачи: улавливание иронии, обнаружение скрытого смысла и других человеческих особенностей.. Сегодня Watson уступает настоящим игрокам в том, что является системой класса NLP, то есть аудио- и видеоданные он пока не понимает.
В DeepQA используется более 100 различных методик анализа данных на естественном языке.
По существу Watson представляет собой программный комплекс, который работает на кластере из 10 стоек по 9 стандартных серверов IBM Power 750 на базе процессоров POWER7. Общее число ядер равно 2880, и они распоряжаются 15 Тбайт оперативной памяти. Процессор POWER7 работает на частоте 3,55 ГГц и имеет 8 ядер, каждое из которых, в свою очередь, аппаратно поддерживает одновременное выполнение четырех потоков команд. Такой процессор подходит для задач обработки огромных объемов информации в параллельном режиме. Кластер работает под управлением операционной системы SUSE Linux Enterprise Server 11. Комплекс программ, реализующий многочисленные алгоритмы искусственного интеллекта (обработка естественного языка, извлечение информации, представление знаний, автоматический логический вывод и машинное обучение), написан на языках Java, C++ и Prolog.
Важный момент в создании Watson, связанный с открытием кодов и их последующим использованием, — эволюция UIMA свидетельствует о рациональности подхода Open Source. Сначала была многолетняя исследовательская работа в стенах корпорации, потом стали доступны ее результаты. За время пребывания в открытом состоянии UIMA обогатилась асинхронным масштабированием Asynchronous Scaleout и поддержкой Hadoop, что существенно расширило функциональны возможности и сферу применения параллельных вычислений.
Разработчики машины говорят, что конфигурация Watson перспективна для врачей, финансистов, промышленных компаний и всех остальных, кому необходимо исследовать очень большие массивы данных в реальном времени и получать ответы на поставленные вопросы.
Но в ближайшем будущем Watson вряд ли сможет ставить диагноз, однако в будущем более отдаленном, когда компьютер пропустит через свои базы множество медицинских данных, справочников и отчетов, такую возможность нельзя исключать.
По мнению инженеров, примерно два года Watson будет «учиться», то есть пропускать через себя медицинские карты, штудировать медицинскую литературу и пытаться ставить диагноз пациентам на основе данных анализов.
И все же ничто не может сравниться с творением природы – человеческим мозгом.
Огромный монстр из 10 серверных стоек — суперкомпьютер Watson способен выполнять 80 трлн. операций в секунду — 80 терафлопс (1 терафлопс = 1 триллион операций в секунду, 1012), а человеческий мозг- 20 петафлопс или 20 000 триллионов операций в секунду (1 петафлопс = 1015 операций в секунду).
Всего, “в каких-то” 250 раз, человеческий мозг превосходит суперкомпьютер Watson по вычислительной мощности.
Tags: торговый робот, фордовый рынок