Большие данные - это не причуда и не маркетинговый ход. Объем цифровой информации растет с экспоненциальной скоростью. В 2005 году объем всех данных составлял примерно 150 эксабайт, 1200 эксабайт в 2010 год, а в настоящее время мы создаем 2,5 квинтиллиона байтов данных каждый день. Пользователи Twitter генерируют более 500 миллионов твитов каждый день, аналогичное количество изображений загружается в Facebook. В 2016 году граф связей пользователей Facebook содержал более миллиарда узлов и более сотни миллиардов ребер-связей между пользователями. Размер всемирной паутины (оцененный по размеру индекса Google) составляет более 45 миллиардов веб-страниц, и только Google выполняет несколько миллиардов поисковых запросов по всем страницам каждый день. Большие объемы данных во многих отраслях помогают перенести методы машинного обучения из исследовательских лабораторий в реальное производство. На данном этапе развития больших данных наиболее актуальные вопросы связаны не со сбором, хранением и передачей огромного количества данных, а с пониманием данных, то есть с превращением данных в знания, выводы и действия.
Вместе с достижениями в области ИИ и машинного обучения большие данные могут привести в новым открытиям в различных областях знаний. Например, высокопроизводительные геномные эксперименты могут использоваться для персонализированной медицины. Исторические и климатические данные могут использоваться для понимания глобального потепления и лучшего прогнозирования погоды. Анализ снимков со спутников при помощи алгоритмов машинного зрения открывает большие перспективы для многих отраслей от сельского хозяйства до нефтедобычи. Однако исследователи часто сталкиваются с плохой масштабируемостью алгоритмов машинного обучения. Алгоритмический параллелизм при помощи многоядерных процессоров, графических процессоров, параллельные и распределенные системы вычислений, наряду с разработкой новых алгоритмов обработки данных, является неотъемлемой частью процесса актуализации в действии больших данных при помощи алгоритмов машинного обучения. Только при помощи алгоритмов машинного обучения большие данные действительно открывают беспрецедентные возможности как для научных открытий, так и для коммерческой эксплуатации во многих областях знаний и отраслях экономики.
Бизнес
Развитие и распространение технологии больших данных вместе с новыми революционными идеями в области алгоритмов машинного обучения инициировало синергетический рост применения решений на основе ИИ в различных областях бизнеса. По данным опроса Big Data Executive Survey, опубликованного в январе 2018 года компанией NewVantage Partners, подавляющее число руководителей (97,2%) ведущих компаний и корпораций Fortune 1000 отметили, что их компании инвестируют в создание технологий больших данных и внедрение решений на основе ИИ. Среди опрошенных руководителей 76,5% отметили, что технологии больших данных расширяют возможности применения технологий ИИ для их компаний. Результаты опроса свидетельствую, что руководители видят тесную взаимосвязь между возможностями большими данных и технологиями ИИ.
Среди пионеров применения технологий больших данных и решений на основе алгоритмов машинного обучения стоит выделить финансовые компании. Из-за большого объема транзакционных и клиентских данных эти компании одними из первых начали использование технологий больших данных. Эти организации всегда были на переднем крае использования аналитики для управления рисками, оценки прибыльности и кредитоспособности клиентов и определения целевых сегментов рынка. Однако многие из этих компаний сталкиваются с угрозой со стороны более молодых конкурентов, также ориентированных в своем бизнесе на использование больших объемов данных, но которые в силу своей молодости не имеют устаревших бизнес-процессов, связанных с хранением и обработкой данных, которые создали культуру обработки данных, основанную на поточной обработке событий и алгоритмах машинного обучения. При этом самой трудной задачей при переходе к новой культуре управления данными 48,5% считают человеческий фактор, 32,4% - фактор бизнес-процессов и лишь 19,1% технологии. Подавляющее большинство (79,4%) руководителей отмечают, что они опасаются угрозы со стороны новых высокотехнологичных конкурентов. В ответ на угрозу со стороны конкурентов компании увеличивают свои инвестиции в большие данные и ИИ. 71,8% руководителей указали, что инвестиции в ИИ окажут наибольшее влияние на изменения в их отрасли.
Руководители отмечают, что инвестиции в большие данные и ИИ начинают давать значимые и измеримые с точки зрения бизнеса результаты. Так по данным опроса 73,2% руководителей сообщают, что их организации в настоящее время уже добились качественных результатов своих инвестиций в большие данные и ИИ. В частности, 69% руководителей отмечают значительных успех в инициативах по совершенствованию процессов принятия решений с помощью операционной аналитики, 60,9% сократили свои расходы. Однако, всего 8,7% руководителей сообщают об успехах в монетизации больших данных и всего 7,2% считают это целью номер один для своего бизнеса. Подавляющее число руководителей - 93% сообщают об инвестициях в ИИ и машинное обучение как в технологию с наибольшим ожидаемым воздействием на развитие их отрасли. Влияние больших данных выходит далеко за рамки простых отчетов и аналитики, так как уже порядка 50% опрошенных отметили, что их компании используют технологии больших данных совместно с ИИ для вывода новых продуктов на рынок и улучшение клиентского опыта. Таким образом, большие данные в сочетании с ИИ обеспечивают мощную основу для новой стремительной волны инноваций.
Алгоритмы
Доступность больших объемов разнородных данных, возможность оперативно объединять различные источники информации открыла новые возможности для применения алгоритмов машинного обучения и дальнейшего развития ИИ.
Хотя многие технологии машинного обучения существуют уже несколько десятилетий, только с реализацией технологий больших данных стали доступны наборы данных достаточно большого размера для получения статистически значимых результатов машинного обучения. Ранее специалисты по статистике и аналитике часто ограничивались работой с выборками или агрегированными данными. Сейчас вместо того, чтобы полагаться на репрезентативные выборки и изучать различные срезы событий, исследователи и аналитики могут экспериментировать с различными выборками и включать в модели машинного обучения более детализированные данные. В результате предприятия могут экспериментировать с различными моделями и алгоритмами. Большие данные позволяют организациям быстро работать, быстрее разрабатывать системы машинного обучения и внедрять их в реальные бизнес-процессы.
Однако то, что является преимуществом алгоритмов машинного обучения, является также и их слабостью, поскольку не все алгоритмы машинного обучения являются масштабируемыми с точки зрения их применения на больших объемах данных. Зачастую решение отдельных задач при помощи машинного обучения является достаточно затратным по времени и вычислительным мощностям для многих компаний. Другая проблема кроется в самих наборах данных. Наиболее успешное применение во многих отраслях нашли алгоритмы машинного обучения с учителем. Для успешной работы таким алгоритмам необходимо большое количество данных с известной целевой переменной, которую необходимо прогнозировать. На практике создание целевой переменной требует дополнительных затрат и является достаточно трудоемким процессов. Обработка “dark data”, то есть больших массивов данных, для которых не определена целевая переменная, таких как большие массивы изображений, текста, данных с датчиков и сенсоров, является отдельной проблемой для применения алгоритмов машинного обучения. В данной области востребованы дальнейшие исследования алгоритмов обучения без учителя и алгоритмов для поиска взаимосвязей внутри больших массивов данных. Разметкой, или определением целевой переменной для прогнозирования, подобных данных, как правило, занимаются люди. Достаточно часто возникает ситуация, когда размечен только небольшой массив данных, то есть информация о целевой переменной есть только для небольшого числа объектов или событий. Способом решения проблемы “недостаточной” разметки данных является обучение с частичным привлечением учителя (Semi-supervised learning). В том случае, когда целевая переменная естественным образом определена, зачастую необходимо уточнение целевой переменной с целью избавления от ошибок наблюдений, выбросов и т.п. Кроме того, выбор правильной целевой переменной требует достаточно хорошего знания предметной области, наличие экспертной оценки и понимание бизнес- и технологических-процессов, для которых необходимо прогнозирование данной целевой переменной. Таким образом, решение даже самых простых с точки зрения машинного обучения задач требует не только наличия больших данных и вычислительных мощностей для их обработки, но и достаточного уровня зрелости бизнес- и технологических процессов.
Непростой задачей для исследователей является конструирование “правильных” выборок для тренировки алгоритмов машинного обучения. Очень часто можно наблюдать ситуацию, когда реальные данные могут сильно отличаться от тех, на которых происходило обучение алгоритма. Так в задачах машинного зрения в реальности алгоритму могут быть переданы размытые изображения, которые могут быть следствием, например, плохих погодных условий, и алгоритм примет неверное решение относительно таких изображений. Но даже если добавить такие изображения в исходный набор данных, качество решения задач может только ухудшиться. Иногда достаточно внести несущественные изменения в исходное изображения, чтобы оно стало неверно классифицируемым алгоритмом, который был создан на основе исходного изображения. В ряде задач, поиск “правильной” выборки может быть заменен моделированием среды и обучению модели на отклике среды, как это реализовано в моделях обучения с подкреплением (Reinforcement learning). Таким образом, дальнейшее развитие и масштабирование алгоритмов обучения без учителя и применение их совместно с алгоритмами обучения с учителем является одной из стратегических задач машинного обучения.
С точки зрения машинного обучения и ИИ у любой задачи есть два пути решения:
- Можно накопить супер-объем данных и обучить на них достаточно универсальный алгоритм;
- Можно обучать алгоритм непрерывно на новой поступающей информации.
Первый из подходов достаточно широко распространен на практике и успешно применятся в решении целых классов задач, связанных с обработкой фото и видео, анализом текста и речи. В основе него лежит формирование достаточно больших по объему размеченных выборок и обучение алгоритмов, которые могут быть применены на достаточно широком классе задач, таких как, например, задачи компьютерного зрения и модели InceptionV3, VGG16 и т.п. Дальнейшее развитие и совершенствование моделей обучения, а также совершенствование вычислительных мощностей может сделать актуальным и второй подход, а также комбинирование этих подходов.
Алгоритмы машинного обучения помогают справляться с накоплением “избыточной” информации. Не обязательно сохранять в память, а затем обрабатывать все поступающие данные. Достаточно выделить значимые для процесса части этих данных или обучить модель машинного обучения сразу выдавать значимый с точки зрения бизнеса результат по мере поступления новых данных. Самым простым примером может служить анализ “спама” почтовых сообщений. Многие алгоритмы машинного обучения являются достаточно эффективными для обнаружения аномалий в данных, которые могут свидетельствовать, например, о некорректной работе оборудования.
Задача эффективного хранения и использования необходимой для решения задач информации является как никогда актуальной. Многие эксперты отмечают бесполезность активности по сбору данных без предварительной оценки алгоритмами необходимость хранения каждой переменной. Вопрос, какая информация является необходимой, зачастую возлагается на сами алгоритмы. Здесь можно выделить три способа решения задачи:
- Экспертная оценка
- Оценка значимости переменных в модели машинного обучения
- Выделение значимых для решения задачи частей объекта при помощи готовых алгоритмов машинного обучения.
Только интегрирование всех способов решает задачу эффективного хранения всей поступающей информации и преобразования данных в решение реальных задач бизнеса. Даже самые современные системы ИИ не могу рассуждать, планировать и осуществлять принятие стратегических решений. Поэтому все решения в области ИИ и больших данных необходимо рассматривать как задачу взаимодействия человеческого интеллекта и ИИ.
Разработка алгоритмов машинного обучения, которые максимально эффективно будут использовать большие данные, является наиболее перспективным направлением развития технологии, которую можно назвать Big AI. Агрегирование огромных массивов данных без применения алгоритмов машинного обучения превращает большие данные из капитала в бремя для бизнеса. Только те данные, которые дают возможность развития и применения новых бизнес-моделей, могут занимать место на серверах компаний. Хранение и накопление данных без определения взаимосвязей между ними при помощи современных алгоритмов машинного обучения является порочной практикой, не приносящей реальной выгоды от технологии больших данных компаниям, которые решили ступить на путь цифровой трансформации.