Вы успешно подписались на Блог Naumen
Great! Next, complete checkout for full access to Блог Naumen
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
Как выучить Big Data

Как выучить Big Data

2 минут чтения

Татьяна Зобнина рассказала изданию Tproger, с чего начать изучать тему больших данных, какими навыками должен обладать специалист и какими инструментами владеть. В обсуждении участвовали сотрудники разных компаний.

Татьяна Зобнина Татьяна Зобнина,
ведущий разработчик
систем машинного обучения
NAUMEN

Отрасль Big Data не только очень популярна, но и является одной из самых быстро развивающихся областей знаний. Поэтому наиболее важным навыком, позволяющим не только занять в данной отрасли устойчивую позицию сейчас, но и продолжить развиваться в качестве специалиста по большим данным в будущем, является фундаментальное базовое образование в области компьютерных наук и математики. Для специалистов в данной отрасли важны не только навыки программирования и работы с базами данных, но и знание основ алгоритмирования, вычислительной математики, статистического анализа, комбинаторики и т. д. Фундаментальное образование играет ключевую роль в развитии специалиста по большим данным, закладывая основу эффективного самостоятельного развития в рамках данной отрасли. Поэтому одним из приоритетных направлений для компании Naumen является подготовка IT-специалистов на базе ведущих естественно-научных факультетов УрФУ, а также образовательные мероприятия для сотрудников компании.

Для начала стоит определить, о какого рода специалистах идет речь, поскольку данная область весьма обширна и включает в себя специалистов в области построения, хранения и обработки больших данных — Data Engineers, специалистов в области анализа данных и построения алгоритмов машинного обучения — Data Scientists, а также нового поколения бизнес-аналитиков, которые могут переносить потребности бизнеса на язык IT с учётом новых задач, которые ставит перед бизнесом внедрение технологий больших данных. Основные инструменты для Data Engineer на данный момент — это технологический стек Hadoop, как наиболее распространённое решение в области хранения и обработки больших данных, а также понимание и навыки работы с различным NoSQL базами данных. Специалисты Data Science в свою очередь должны уметь работать с такими фреймворками как Spark и h2o. Знание и понимания алгоритмов нейронных сетей, как наиболее универсального инструмента построения алгоритмов машинного обучения, является неотъемлемым для любого специалиста в области Data Science. Важным качеством специалистов в области больших данных является гибкость и умение работать в рамках разных технологических стеков, то есть понимание того, что машинное обучение не является синонимом Python или R, а большие данные — не синоним Hadoop или HP Vertica. И для Data Engineer, и для Data Scientist будет полезным интерес в области квантовых вычислений. Сегодня область квантовых вычислений – это, по большей части, ещё наука, но возможно, что для нового поколения IT-специалистов квантовые компьютеры станут реальностью. Для бизнес-аналитиков важно не только понимание, как описать бизнес-процессы заказчика, но и умение выстраивать данные процессы в рамках задачи внедрить технологию больших данных на уровне сложных структурных взаимодействий между дочерними предприятиями и подразделениями крупных и средних компаний, а также умение быть арбитром во внутрикорпоративных спорах, возникающих в условиях необходимости единого хранения, обработки и обмена корпоративными данными.

Технологии и алгоритмы, которые ещё вчера были передовыми, сменяются новыми разработками, но это не значит, что стоит переписывать все задачи на новых фреймворках с применением новых алгоритмов. Стоит сохранять пристальное внимание и понимание происходящих вокруг изменений, но брать на вооружение только те методики и технологии, которые могут принести реальную и максимальную пользу бизнесу в рамках неизбежной ограниченности как вычислительных, так и финансовых ресурсов. Для компании Naumen это означает внимание ко всем аспектам внедрения технологий больших данных, изучение и тестирование наиболее актуальных open source-решений с акцентом на реальное состояние IT- и бизнес-структуры клиентов компании.

Источник: Tproger