Татьяна Зобнина рассказала изданию Tproger, с чего начать изучать тему больших данных, какими навыками должен обладать специалист и какими инструментами владеть. В обсуждении участвовали сотрудники разных компаний.

Татьяна Зобнина Татьяна Зобнина,
ведущий разработчик
систем машинного обучения
NAUMEN

Отрасль Big Data не только очень популярна, но и является одной из самых быстро развивающихся областей знаний. Поэтому наиболее важным навыком, позволяющим не только занять в данной отрасли устойчивую позицию сейчас, но и продолжить развиваться в качестве специалиста по большим данным в будущем, является фундаментальное базовое образование в области компьютерных наук и математики. Для специалистов в данной отрасли важны не только навыки программирования и работы с базами данных, но и знание основ алгоритмирования, вычислительной математики, статистического анализа, комбинаторики и т. д. Фундаментальное образование играет ключевую роль в развитии специалиста по большим данным, закладывая основу эффективного самостоятельного развития в рамках данной отрасли. Поэтому одним из приоритетных направлений для компании Naumen является подготовка IT-специалистов на базе ведущих естественно-научных факультетов УрФУ, а также образовательные мероприятия для сотрудников компании.

Для начала стоит определить, о какого рода специалистах идет речь, поскольку данная область весьма обширна и включает в себя специалистов в области построения, хранения и обработки больших данных — Data Engineers, специалистов в области анализа данных и построения алгоритмов машинного обучения — Data Scientists, а также нового поколения бизнес-аналитиков, которые могут переносить потребности бизнеса на язык IT с учётом новых задач, которые ставит перед бизнесом внедрение технологий больших данных. Основные инструменты для Data Engineer на данный момент — это технологический стек Hadoop, как наиболее распространённое решение в области хранения и обработки больших данных, а также понимание и навыки работы с различным NoSQL базами данных. Специалисты Data Science в свою очередь должны уметь работать с такими фреймворками как Spark и h2o. Знание и понимания алгоритмов нейронных сетей, как наиболее универсального инструмента построения алгоритмов машинного обучения, является неотъемлемым для любого специалиста в области Data Science. Важным качеством специалистов в области больших данных является гибкость и умение работать в рамках разных технологических стеков, то есть понимание того, что машинное обучение не является синонимом Python или R, а большие данные — не синоним Hadoop или HP Vertica. И для Data Engineer, и для Data Scientist будет полезным интерес в области квантовых вычислений. Сегодня область квантовых вычислений – это, по большей части, ещё наука, но возможно, что для нового поколения IT-специалистов квантовые компьютеры станут реальностью. Для бизнес-аналитиков важно не только понимание, как описать бизнес-процессы заказчика, но и умение выстраивать данные процессы в рамках задачи внедрить технологию больших данных на уровне сложных структурных взаимодействий между дочерними предприятиями и подразделениями крупных и средних компаний, а также умение быть арбитром во внутрикорпоративных спорах, возникающих в условиях необходимости единого хранения, обработки и обмена корпоративными данными.

Технологии и алгоритмы, которые ещё вчера были передовыми, сменяются новыми разработками, но это не значит, что стоит переписывать все задачи на новых фреймворках с применением новых алгоритмов. Стоит сохранять пристальное внимание и понимание происходящих вокруг изменений, но брать на вооружение только те методики и технологии, которые могут принести реальную и максимальную пользу бизнесу в рамках неизбежной ограниченности как вычислительных, так и финансовых ресурсов. Для компании Naumen это означает внимание ко всем аспектам внедрения технологий больших данных, изучение и тестирование наиболее актуальных open source-решений с акцентом на реальное состояние IT- и бизнес-структуры клиентов компании.

Источник: Tproger