Big Data — всё по этой теме для программистов


Оглавление (нажмите, чтобы открыть):

Большие данные в IT

Совместный проект ПостНауки и Университета Иннополис о проблеме Big Data

Как большие данные стали одной из самых интересных задач

Станислав Протасов

кандидат физико-математических наук, МФТИ, программист компании Parallels

Большие данные — это совокупность технологий, которые призваны совершать три операции. , обрабатывать большие по сравнению со «стандартными» сценариями объемы данных. , уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, но их постоянно становится все больше и больше. , они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах. Большие данные предполагают, что на вход алгоритмы получают поток не всегда структурированной информации и что из него можно извлечь больше, чем одну идею.

Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок, например Большого адронного коллайдера, который производит огромное количество данных, и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью ученые решают параллельно множество задач.

Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе — числе жителей планете. 7 миллиардов, которые собираются в социальных сетях и других проектах, которые агрегируют людей. YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, — огромно. Поток данных в этом случае — это пользовательские действия. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Управление большими массивами данных

Как работает Data Mining?

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Наука о данных занимается извлечением знаний и значимой информации из крупных и сложных массивов данных. Извлечение информации выводит скрытые закономерности, спрятанные в данных, и позволяет лучше понимать данные. В этом значимость науки о данных. Она соединяет знания с реальностью. Она преобразует онлайновые знания в офлайновые. Она меняет нашу жизнь, стратегии бизнеса, подход к выбору и помогает другим наукам, технологии и социологическим исследованиям.

Твиттер — отличный пример массивной динамической диаграммы. У Твиттера ежемесячно более 284 миллионов активных пользователей. Они размещают более 500 миллионов твитов в день. Отношения и общение между пользователями создают массивные динамические диаграммы, которые сложно не только понять, но даже визуализировать.

Одно из решений этой проблемы — обобщить данные. Это позволяет понять, как информация распространяется в системе и какие пользователи самые интересные и важные в процессе общения. Если определить важных пользователей, можно, например, остановить вирус, если таковой распространяется по системе, можно рекламировать товары в системах Твиттера, можно разобраться, как люди воспринимают информацию в онлайновые часы и чем это непохоже на офлайновые часы. Одна из важнейших задач в этой области — понять миры онлайна и офлайна. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Изображение: Eric Fischer — Moscow locations of Twitter tweets

Репутация в социальных сетях

Как вычислить степень нашего доверия к «друзьям»?

Анализ социальных сетей — одна из самых популярных тем для исследований в наши дни. Если взять охват аудитории всех сайтов с социальными сетями, то мы увидим, что они привлекли самое большое число пользователей за всю историю интернета. Это означает, что у нас в руках огромное количество информации об активности людей в социальных сетях, равно как и об их структуре. Поэтому мы, люди, занимающиеся исследованиями, ищем пути такого использования этого большого количества данных, который дал бы нам возможность разобраться в них.

Нам всем знакомы понятия «доверие» и «репутация». Доверие — это то, что необходимо для принятия того или иного решения. Без доверия вы не отдадите деньги банку. В социальных сетях пользователи делятся очень многим. Очевидно, что им не хотелось бы делиться личными вещами, такими как фото, с людьми, которым они не доверяют. Исследователи пытаются найти способ вычисления репутации друзей и прочих людей, с которыми мы связаны в социальных сетях, чтобы иметь возможность делиться личными данными и информацией лишь с теми, кому мы доверяем. Именно для этого ученые работают над вычислением репутации.

Безопасность в социальных сетях

В конце было ощущение, что интернет станет источником достоверной информации. Однако пользователи делятся всем чем угодно, начиная с несуществующих цитат, заканчивая ничем не подкрепленными новостями. Поэтому возникла идея создания инструмента для измерения доверия. Исследователи создают платформы, в которых идет автоматический анализ того, насколько пользователи доверяют друг другу. Они изучают все пути, по которым пользователи взаимодействуют друг с другом. Становится очевидно, что пользователи отдают предпочтение небольшому числу других пользователей, доверяют им, читают и комментируют чаще. Платформа умеет сама анализировать поток информации и на ее основе подсчитывать так называемый «индекс доверия». Он измеряется в процентах, от нуля до ста, и претерпевает постоянные изменения: может как вырасти, так и упасть. Благодаря ему возможно судить, насколько пользователи доверяют друг другу.

Читать далее Изображение © Eric Fischer

Сергей Зыков

о возникновении программной инженерии, сложности корпоративных систем и развитии технологий

Работа будущего: как стать специалистом по Big Data?

Рассказываем о тех, кто работает с большими данными, и знаниях, которые для этого необходимы.

Существует стереотип, что с большими данными работают исключительно IT-департаменты, программисты и математики. На деле эта молодая индустрия включает в себя довольно много профессий: от инженера до специалиста по data storytelling. В рамках спецпроекта Masters of Future совместно с IE Business School T&P поговорили с Джозепом Курто, аналитиком, бизнес-консультантом и предпринимателем, о мультифункциональности, возможности влиять на глобальные процессы и больших данных в сельском хозяйстве.

Джозеп Курто

управляющий независимой консалтинговой компанией Delfos Research, ассоциированный профессор IE School of Social, Behavioral & Data Sciences

— Специалист по Big Data — кто это?

— Есть мнение, что специалист по Big Data — это суперпрофессионал, сверхчеловек с огромным количеством разных навыков. В степени это правда, ведь, помимо всего прочего, он должен неплохо разбираться в бизнесе. Безусловно, одному человеку сложно знать вообще все, так что мы чаще всего работаем в командах — это гораздо продуктивнее. Например, одна моя коллега — специалист только по визуализации данных и data storytelling. Она создает потрясающую инфографику, с помощью которой может рассказать любую историю в цифрах. Главное — иметь 360-градусный угол зрения, который появляется с опытом. Мне самому потребовалось на это почти 15 лет.

— Какой бэкграунд лучше иметь, если вы хотите работать с большими данными?

— В Big Data существует очень много разных ролей: например, вы можете быть Big Data Engineer (то есть инженером) или аналитиком, и это совсем разные функции. Базовые вещи — это знание математики, статистики и информатики.

— Опишите основные этапы работы специалиста по Big Data?

— Мы работаем с самыми разными направлениями: финансы, ретейл, правовые отрасли. Одна из важнейших ролей — это стратег: на первом этапе большинство компаний просто не знают, как начать работать с большими данными. Более того, иногда очень сложно понять, какая именно проблема в компании связана с этими данными и как ее решить.

Для начала самое главное — определить проблему, с которой столкнулась компания. Мы проводим воркшопы, на которых рассказываем о возможностях Big Data. В процессе работы мы должны трансформировать работу в компании, но наша первоочередная задача — решить проблему. Мы беседуем с клиентом, задаем множество вопросов о всех сферах деятельности. В процессе этих бесед появляются огромные списки пунктов и задач, которые мы будем учитывать и над которыми будем работать. Основная цель, которую мы преследуем, работая с Big Data, — возможность лучше понимать потребителя, продукт, сотрудников, поставщиков. Big Data охватывает все сферы деятельности компании.

После сбора информации мы обсуждаем все проблемные моменты и понимаем, связаны ли они с большими данными. Некоторые проблемы могут быть связаны с другим — например, с недостаточной мотивацией сотрудников. Так что мы должны сократить весь список и оставить в нем только проблемы, которые касаются нашей компетенции. Если вы хотите узнать больше о ваших продажах, это значит, что вы должны иметь возможность вести их учет. Иногда это довольно трудно. К примеру, в магазинах вы должны иметь возможность учитывать каждую покупку. Но это не проблема Big Data. Это значит, что вы должны просто приобрести систему для учета покупок. Иногда в компании должен произойти ряд существенных изменений для того, чтобы специалист по Big Data мог начать работу.

Следующий шаг — составление списка рекомендаций. После этого мы обсуждаем дальнейшую стратегию компании, какой ее хотят видеть управляющие. Внедрение Big Data — это не просто привлечение одного специалиста, это изменение мышления всех сотрудников. Очень важно, чтобы все понимали, что делает тот парень, который называет себя специалистом по Big Data. Очень важно развеять миф о том, что Big Data — это просто какая-то часть IT-департамента. После определения стратегии мы предлагаем пути ее внедрения.

— Какими основными навыками должен обладать специалист по Big Data?

— Главное — это умение работать с большим объемом информации и знание технологий: их уже сотни, и каждый месяц появляются новые. В то же время он должен обладать научным мышлением, быть очень любознательным. Очень важно уметь мыслить в терминах бизнеса. Напомню, что можно быть узким специалистом в и быть полезным членом команды, отвечая за свою часть процесса.

— Где чаще всего работают такие специалисты?

— Нас очень часто привлекают в качестве экспертов; очень многие мои коллеги совмещают научную работу с преподавательской деятельностью.

— Какие отрасли больше всего нуждаются в Big Data?

— Я считаю, что абсолютно все. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data — это возможность посмотреть на имеющиеся данные с разных углов зрения. Иногда со студентами мы рассматриваем очень простые наборы данных — например, таблицы, состоящие всего из трех столбцов (дата, номер покупателя и сумма покупки). Несмотря на то что это может показаться примитивным, я показываю студентам, как много новой информации они могут из этого получить. Даже если у вас не так много данных, вы можете делать прогнозы и выводы.

— Как должно измениться образование для подготовки специалистов по Big Data?

— Главное — это подготовка мультифункциональных специалистов. Важно уделять достаточно внимания математике и информатике, изучать новые технологии, подходы (например, NoSQL). Самое важное — аналитическое мышление. Это первое, чему я учу своих студентов. Специалист по Big Data знает математику, технологии и критически мыслит. Важно помнить — вы никогда не сможете знать все, это невозможно, но вы должны уметь искать и анализировать информацию.

— В какой самой необычной области вам приходилось работать?

— Без сомнения, это сельское хозяйство. В этой отрасли множество самых разнообразных процессов, при этом они совершенно не готовы к новым технологиям. Нужно научиться говорить на их языке и понять, какие задачи стоят перед компаниями. Например, очень часто встречается задача снизить потребление воды, которая используется в сельском хозяйстве каждый день в огромных количествах. Иметь возможность помочь в решении таких задач — это потрясающе. Сельскохозяйственные организации вынуждены быть прагматичными, в этом им помогает Big Data.

— Что бы вы порекомендовали молодым специалистам?

— Специалисты по Big Data — это новый тип профессионалов. Вы должны понимать, что самое потрясающее в этой работе — это возможность очень сильно влиять на глобальные процессы. Это что-то вроде работы детектива. Вы определяете, что произошло, где и почему. Вы можете помочь компаниям понять, почему они теряют деньги и клиентов, как в дальнейшем этого избежать и увеличить прибыль.

Юрий Котиков

консультант по стратегии в Ericsson, выпускник программы Master in Management IE Business School

Не могу не согласиться с коллегой. Действительно, Big Data в организациях начинается прежде всего не с закупки дорогостоящего оборудования, программных решений или анализа массивов данных, а с определения целей, которых можно достигнуть средствами аналитики, а также с правильного подхода к процессам их реализации.

Например, практически все ведущие мировые мобильные операторы создают под Big Data выделенные подразделения, имеющие свободный доступ к данным внутри компании, а также поддержку топ-менеджмента и акционеров. Это является одним из ключевых факторов успеха в Big Data проектах, которые затрагивают множество функций и влекут значительные изменения в процессах компаний.

Методологически важным фактором является так называемый Lean Startup Approach — гибкий подход к решению задач бизнеса с помощью Big Data. Вместо длительного процесса разработки конечной сложной модели или продукта, основанного на больших данных, необходимо двигаться маленькими итерациями и быстрыми победами, получая регулярную обратную связь от ключевых заказчиков решения. Например, компания Telefonica, разрабатывая свое решение Smart Steps с использованием агрегированных данных о местоположении абонентов, изначально ориентировалась на компании розничной торговли. Оператор планировал предоставлять клиентам данные о перемещении людей на определенных улицах города. Благодаря регулярной обратной связи Telefonica смогла принять решение о необходимом стратегическом вираже, изменив фокус продукта на анализ пассажиропотоков для транспортного сектора.

Если говорить про специалистов в области Big Data, то, на наш взгляд, ключевым качеством как для технических, так и для управленческих специалистов является кроссфункциональность. Обладать полным спектром навыков в области анализа данных практически невозможно. Однако технические специалисты должны иметь общее представление о функционировании бизнеса, а менеджеры — понимание базовых принципов аналитики. Поэтому образовательные программы в области больших данных, совмещающие как техническую часть, так и и погружение в определенные индустрии, имеют хорошие шансы подготовить востребованные рынком кадры.

Мастер Йода рекомендует:  Адаптивные медийные объявления от Google Ads

Рекомендованная учебная программа: Master in Business Analytics and Big Data

Магистратура Business Analytics and Big Data — современная программа, направленная на погружение в четыре области знаний, связанных со сферами бизнес-аналитики и больших данных: Big Data Technologies, Data Science, Business Transformation, Professional Skills. Программа состоит из трех триместров, каждый из которых заканчивается практическим проектом, среди которых — Big Data стартап и консалтинговый проект.

Компании ищут динамичных профессионалов с разным бэкграундом — опытом работы в бизнесе, IT, знающих экономику, математику и смежные науки и способных работать с информацией: собирать, анализировать и интерпретировать данные.

Немного о big data и нейросетях в бк.

Давайте сразу скажу, что пост о ставках. Если на дух не переносите — не читайте пожалуйста. Я прекрасно понимаю, что это не искрометное чтиво для выходного дня. Так что, бережем нервы, листаем листаем дальше).

Я пишу редко, и буду писать в основном на эту тему. Содержание моих размышлений с прошествием лет — меняется, я считаю это нормальным по причинам развития как самой индустрии, так и своих внутренних взглядов на этот счёт.

В сфере бк я где-то уже порядком давно. Около 10 лет для такого вида заработка или увлечения — не мало. Повидал много разного, как в спорте, так и в людях, которые вращаются/варятся в этом котле. Разумеется для основной массы населения букмекерские конторы — зло в чистом виде. Я не оспариваю это мнение и не считаю бк как плохим, так и хорошим явлением. Уже абстрагируюсь от всего этого и свое мнение держу при себе. Просто конторы существуют, делают свое дело и на этом все. Принял как данность. Грабить букмекеров я никогда не собирался, а вот анализировать разнообразные спортивные события любил всегда. Самоцелью выжать для себя баблишко, да побольше никогда не было, ибо надо реально оценивать свои силы. Перед тем как вступать в борьбу с мощной математически выверенной системой стоить задать себе вопрос, сколько бы вы поставили на себя в первую очередь, как на однозначного победителя в соревновании с бк. Лично я, обладая достаточно немалыми познаниями в спорте, поведенческих, ситуативных, независимых факторах — не поставил бы на себя и рубля, слепая уверенность до добра не доводит. С другой стороны я объективно слабее конторы. Даже если бы я собрал десяток хороших аналитиков и мы карпели бы над определенными матчами, исследуя каждую деталь — не думаю, что это было бы финансово целесообразно. Результативность таких мозговых штурмов — под ещё большим вопросом, чем предыдущее предположение.

Почему все так плохо? Почему столько разбитых надежд, судеб, браков, отношений с родственниками в результате соприкосновения с бк? Не вдаваясь в детали 1) желание без напряга стать тем, кем ты не являешься (деньги выступают как некоторое мерило внутренних возможностей), ну и 2) тотальное нежелание помнить об отрицательном мат. ожидании.
Добавляют неадекватности ко всему этому и психологические аспекты:
+ Безответственность к ресурсам
+ Отсутствие общей и стабильной логики
+ Отсутствие перманентной и неизменной дисциплины
+ Не трезвое состояние
+ Нервозность из-за внешних проблем (в том числе и внутренних, после ряда неудач).

К сожалению человек, не смотря ни на какой железный характер остаётся податливым на бессознательные порывы. Представление интуиции как выплеска некоего внутреннего багажа и опыта, простите, это все хуйня собачья. Не работает и работать не будет.

Чуть ближе к сути. Давайте примем за данность, что на сегодняшний день большинство букмекерских контор обладает, мягко сказать, невероятными вычислительными ресурсами, сбором огромных массивов данных, аналитическими выкладками на любое спортивное или иное событие на планете. И считать себя гением, бороться с хорошо рассчитанной маржей, искусно выставленными котировками всего лишь силами своих внутренних убеждений и предположений — надо быть весьма ебанутым человеком, экскьюземуа за мой французский.

«А чё делать, давай, спиздани истину!»


Не могу сказать за все конторы, которые собирают данные самостоятельно или аутсорсят сведения для котировок в линии или лайве у data-поставщиков. Но в большинстве уже активно применяются нейросети (можно сказать предок разумного ИИ), а также сбор big data во всех мелочах, за всю историю, все возможно анализируемые событийные или фундаментальные сведения о течении спортивных матчей. Ну и самое главное взаимосвязи между ними. Так же идёт тотальная слежка и изучение предпочтений непосредственно ставочника. Уже не секрет про режущиеся лимиты или коэффициенты для конкретных персон. Никто не решает порезать именно вас, вы сами формируете свой приговор, ИИ анализирует ваши потенциальные возможности в будущем на основе проделанных ставок и в итоге портит вам жизнь.

Не спорю, последнее активно применяется в основном в быдлоконторах СНГ, но не только, данные о вас стараются собрать все и везде.

По этой причине я и написал этот пост, пусть немного хаотичный и не везде содержательный, но это только начало цикла.

Что же делать, если пришло понимание, что на сегодняшний день ставить в конторе на спорт стало бессмысленной затеей со всех сторон? Принимать правила игры и соответствовать. Я пришел к решению, что нужно аутсорсить задачи программному обеспечению, так же собирать какое-то подобие big data, также настроить маркеры на определенные закономерности, и оставлять отслеживание на долгий срок с автоматическим выставлением ставок. Без моего дальнейшего участия. Вся эта история в последующем будет кардинально отличаться от такого понятия как торговый бот, так как на уровне бк система должна обладать свойствами нейросети и оперировать большими данными, которые в настоящее время парсятся и собираются воедино. Серьезная работа, мать ее.

Забегая вперёд, хочу сказать, что нейросеть будет учиться у топовых бк на основании сравнения баз данных и выставляемых котировок, далее сравнивать с низкобюджетными конторами и находить взаимосвязи разниц. Своего рода прилипала, который учится делать как старший брат и не допускать ошибок младшего, в режиме нон стоп 24/7. Грубо говоря это не создание и даже не попытка создания превосходящей системы, главное, чтобы работала не хуже топовых букмекеров и брала как раз их «производственные» мощности, а в последствии выборочно применяла, опираясь на маркеры сравнительного анализа. А уже далее встанет вопрос обучаемости и автономности.

Скажу сразу, вручную вся эта эта вышеупомянутая бодяга работает. Периодами криво, косо, со спадами, но работает. Проделывал я это 5 месяцев и динамика положительная и весьма неплохая. На хлебушек с маслом хватает, не жалуюсь. Это сейчас не для понтов ради, я веду речь о том, что считаю сам процесс трудозатратым и более в своей жизни никогда не хочу прибегать к самостоятельному и выборочному анализу конкретных событий. Пора окончательно от всего этого уходить. Если считаете, что тут история о том как нажал на кнопку, пришел к успеху, все пиздато и уехал в закат — это не так. Куча работы, куча неизвестных в уравнении и вообще хз, что в итоге получится. Но двигаться и пробовать надо.

Отдельно хочу сказать, что по призванию я не программист. Однако нужда заставляет. Я видел много проектов, где программисты ради интереса лезут в мир спорт.анализа и получают крепких пиздюлей от конторы в виде жёсткой дисперсии от мат. ожидания на длительной дистанции. Поваритесь с моё в этой сфере и многие проблемы покажутся ерундовыми. Так же и я полез в программирование, почти нихрена в нем не соображая. Благо здесь всегда можно найти решение под свою задачу или посоветоваться. Даже будучи дауном, при должном упорстве и наличии идеи — все получается. Вся реализация на сыром этапе, построена на Python с библиотеками Pandas и PyBrain. Работа с Big Data на порядок сложнее, но в свою очередь я не стремлюсь к невероятным результатам, в то же время четко знаю, какие взаимосвязи в каких конкретно данных мне нужны для получения результата. Думаю для узконаправленных решений моих познаний хватит. Посмотрим. Главное желание и стремление). Проект не закладывается как коммерческий, скорее исключительно для личного пользования.

Также хочу сказать, что буду рад любым конструктивным рекомендациям в комментариях. Может подскажете с каких ресурсов можно и нужно парсить «исторические» данные во всем разнообразии внутренних событий матчей. С кем-то можно обменяться опытом, или просто пообщаться с адекватными людьми без оскорблений и унижений. Письками мериться тут никто не собирается.

Для отдельных личностей и гуру ставок я скажу лишь вот что: я не ставлю под сомнение ваши невероятные таланты и бесконечные победы как на просторах бк, так и в комментариях здесь, удачи вам, всех благ, продолжайте в том же духе. Мне не повезло и я не из этой категории. Никто вам не навязывает свое мнение, здесь идет речь о личных размышлениях и попытках реализации.

В общем, если будет интересно, продолжу эту тему в последующих постах. Спасибо, что дочитали.

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих.

Профессиональные направления в мире Big Data

Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления:

  • аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к моделированию, разработка алгоритмов машинного обучения (Machine Learning) и интерпретация их результатов. Здесь задействованы аналитики и ученые по данным или исследователи данных (Data Analyst и Data Scientist), а также специалисты по машинному обучению. Помимо задач, связанных непосредственно с датасетами (Data Science, Data Mining), иногда аналитики также выполняют обязанности по анализу предметной области и бизнес-процессов (Business Intelligence). Все это необходимо для точного понимания потребностей заказчика, чтобы определиться с независимыми переменными, которые нужны для построения аналитических или предиктивных моделей. Подробнее про работу аналитика Big Data, набор его профессиональных компетенций и зарплату читайте здесь. А чем Data Analyst отличается от Data Scientist’а, мы рассказываем в этой статье.
  • инженерия – создание, настройка и поддержка программно-аппаратной инфраструктуры для систем сбора, обработки, аналитики и хранения информационных потоков и массивов, включая конфигурирование локальных и облачных кластеров. За эти процессы отвечают администратор и инженерBig Data. Чем отличается работа администратора больших данных от деятельности сисадмина, мы писали в этом материале. Какие именно навыки, знания и умения нужны специалистам по инженерии больших данных, а также сколько они за это получают, мы описываем в отдельных материалах.

На стыке вышеуказанных 2-х направлений находятся программист Big Data и DevOps-инженер, а также специалист по сопровождению жизненного цикла корпоративных данных (DataOps) и директор по данным (CDO, Chief Data Officer), который курирует на предприятии все вопросы, связанные с информацией. О роли каждого профессионала в Agile-команде мы немного рассказывали здесь.

Профессиональные направления и специальности Big Data

Большие данные: с чего начать

Зная, как в общем делится работа между специалистами больших данных, ответить на главный вопрос новичка в мире Big Data «с чего начать», становится гораздо проще. Прежде, чем погружаться в изучение множества мануалов по Apache Hadoop и алгоритмам Machine Learning, необходимо понять, что вас больше привлекает:

  • прикладное программирование;
  • администрирование;
  • проектирование архитектуры информационных потоков и сопровождение;
  • анализ данных;
  • создание математических моделей и алгоритмов обработки информации.

Кроме того, отметим, что, помимо линейных специалистов (программистов, администраторов, инженеров, архитекторов), знания в области больших данных также необходимы руководителям, чтобы видеть возможности цифровизации своего бизнеса и потенциальную выгоду от его цифровой трансформации. При этом менеджеру совсем не обязательно знать во всех деталях, как, например, работает Apache Kafka. Однако, чтобы не быть «чайником», руководителю крайне полезно ориентироваться в отраслевых сценариях применения средств Big Data (use-cases), понимать способы монетизации больших данных и специфику корпоративной цифровизации, чтобы эффективно расходовать временные, трудовые и материальные ресурсы, а также не ждать от технологий больше, чем они могут дать. Обо всем этом и не только мы рассказываем на обучающем курсе «Аналитика Big Data для менеджеров».

В качестве дополнительной мотивации изучения Big Data, отметим, что профессионалы в этой области больше всех зарабатывают среди ИТ-специалистов. Например, в 2020 году, согласно ежегодному исследованию Stack OverFlow, годовая зарплата аналитиков, инженеров и исследователей данных в США равнялась 60-70 тысяч долларов, т.е. около 350 тысяч рублей в месяц. При этом, поскольку цифровизация стремительно проникает во все сферы деятельности, от промышленности до образования, спрос на специалистов по данным все время растет по всему миру, в т.ч. и в России. Таким образом, большие данные – это очень перспективная и финансово выгодная область ИТ.

Зарплаты ИТ-специалистов в 2020 году по данным Stack OverFlow

Что необходимо знать и уметь аналитику, исследователю, инженеру и администратору больших данных, мы рассмотрим в следующих статьях. А практику работы с прикладными инструментами Big Data, Machine Learning и Internet of Things, вы узнаете на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.

Big Data: с чего начать

Каждый обмен с социальными медиа, каждый цифровой процесс, каждое подключённое устройство генерирует большие данные, которые будут использоваться различными компаниями.

Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science.

Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной задачей для тех, кто начинает изучать большие данные и связанные с ними технологии. Технологии данных многочисленны это может быть огромным препятствием для начинающих. Давайте попробуем разложить все по полочкам.

1. Как начать

В сфере Big Data существует много направлений. Но в широком смысле можно разделить на две категории:

  1. Big Data engineering.
  2. Big Data Analytics (Scientist).

Эти поля взаимозависимы, но отличаются друг от друга.

Big Data engineering занимается разработкой каркаса, сбора и хранения данных, а также делают соответствующие данные доступными для различных потребительских и внутренних приложений.

У вас хорошие навыки программирования и вы понимаете, как компьютеры взаимодействуют через интернет, но у вас нет интереса к математике и статистике. В этом случае вам больше подойдёт Big data engineering.

В то время как Big Data Analytics — среда использования больших объемов данных из готовых систем, разработанных Big data engineering. Анализ больших данных включает в себя анализ тенденций, закономерностей и разработку различных систем классификации и прогнозирования. После магических действий и танцев с бубном Data Analytics (Scientist) интерпретирует результаты.

Если вы хорошо разбираетесь в программировании, за чашкой кофе решаете сложные задачи по высшей математике, понимаете, что такое теория вероятностей, математический анализ, комбинаторики, тогда вам подойдёт Big Data Analytics.

Таким образом, Big data Analytics включает в себя расширенные вычисления по данным. В то время как Big data engineering включает проектирование и развертывание систем, над которыми должны выполняться вычисления.

Как стать специалистом по большим данным

С направлением определились, теперь давайте разберём, что должен знать Data science, чтобы его рассматривали в качестве будущего кандидата.

Терминология данных

Проект с большими данными имеет два основных понятия — требования к данным и требования их обработке.

Требования к данным

Структурированные данные: хранятся в таблицах или в файлах. Если данные хранятся в предопределённой модели данных (то есть в схемах), это называется структурированными данными.

Неструктурированные: если данные хранятся в файлах и не имеют предопределённой модели, это называется неструктурированными данными.

Мастер Йода рекомендует:  Альтернатива MIMEParser и EmailSimple

Источники данных: внутренние (CRM, ERP или любые источники, которые находятся внутри системы) и внешние (соцсети, интернет).

Размер: с размером мы оцениваем количество данных. Типы: S, M, L, XL, XXL, передача потоков.

Пропускная способность: определяет, с какой скоростью данные могут быть приняты в систему. Типы: H, M, L.

Пропускная способность источника: определяет, с какой скоростью данные могут быть обновлены и преобразованы в систему. Типы: H, M, L.

Требования к обработке данных

Время запроса: время, за которое система выполняет запрос. Типы: Long, Medium, Short.

Время обработки: время обработки данных. Типы: длинный, средний, короткий.

Точность: точность обработки данных. Типы: точные или приблизительные, Exact или Approximate.

Учимся проектировать решения

Задача — разработать Data lake для эффективного анализа продаж банка.

Данные берём из разных источников.

  • ERP (персональная информация о клиенте, данные о кредитной истории, данные о потенциальных клиентах);
  • CRM (данные от колл-центра, данные о продажах,) данные о продуктах, транзакции проведенные через банковскую систему, CRM системы.
  • социальные сети (BDSMM);
  • интернет;
  • веб-аналитика.


Важно понимать, что первым делом нужно рассчитывать, что система должна быть интегрирована со всеми вышеперечисленными источниками и бесперебойно принимать данные.

Определяем конечные цели:

  1. Создаем Data lake для объединения данных из нескольких источников.
  2. Автоматическое обновление данных через определённые промежутки времени.
  3. Доступность данных для анализа (круглосуточно, возможно ежедневно).
  4. Архитектура для лёгкого доступа к панели инструментов аналитики.

Теперь, когда мы знаем, каковы наши конечные цели, попробуем сформулировать наши требования более формальными терминами.

Требования к данным

Структура: большая часть данных структурирована и имеет определённую модель. Но источники данных, такие как веб-журналы, взаимодействия с клиентами или данные колл-центра, изображения из каталога продаж, данные рекламы продукта —доступность и требования к изображениям и мультимедийной рекламной информации могут зависеть от компании.

Тип данных: структурированные и неструктурированные данные.

Специалист по большим данным: где учиться и куда пойти работать

Александр Петров, CTO E-Contenta, рассказывает, почему профессионалы в области обработки данных востребованы на рынке и где лучше работать специалистам по Big Data.

Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь.

Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:

  • история транзакций в банках;
  • данные о местоположении и маршрутах всех машин в таксопарке;
  • данные о наблюдении за звездами и планетами в обсерватории;
  • данные с камер, установленных на улицах города для наблюдения за автомобилями
  • и многое, многое другое.

Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.

Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.

В своей колонке я попытаюсь дать обзор направления обработки данных для тех, кто только начинает (или планирует начать) свой карьерный путь в этой области.

Какие есть специализации

Лично я выделил бы 3 основных направления, по которым можно развиваться в области обработки данных:

  • Data Engineer
  • Data Scientist
  • Data Manager

Рассмотрим каждое из них подробнее.

Data Engineer

Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.

Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).

Data Scientist

Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.

Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:

  • «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
  • Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?».
  • Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.

Data Manager

Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.

Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).

Где можно работать в области обработки данных

Разберем различные типы компаний и особенности работы в них.

Крупные интернет-компании. В России это – «Яндекс», Mail.ru (и его подразделения «ВКонтакте» и «Одноклассники»), Rambler. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.

Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.

Но самый главный минус работы в крупных компаниях – это их размер: работа, которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.

Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.

В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».

Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.

Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.

Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.

К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.

Где получить знания в области обработки данных

Вузы

К сожалению, пока что в вузах очень мало обучают анализу данных. Есть несколько исключений:

Конечно, и в других учебных программах также освещаются те или иные аспекты работы с данными. Но вузовские программы, которые готовят специалистов комплексно, на этом фактически исчерпываются. Неудивительно: отрасль совершенно новая, специалистов и преподавателей нет. Вузы, где все-таки вводятся программы по обработке данных, обычно делают это в сотрудничестве с крупными компаниями (например, «Яндексом»).

Некоммерческие курсы дополнительного образования

Так как на рынке наблюдается острый дефицит кадров – некоторые компании создают собственные учебные центры. Здесь может учиться любой желающий – нужно только сдать экзамены.

В этой категории можно смотреть на следующие курсы:

  • Школа Анализа Данных «Яндекса» – самый старый и самый известный центр подготовки кадров в области анализа данных. Занятия ведут сотрудники «Яндекса», а также преподаватели лучших вузов страны. Программа рассчитана на 2 года.
  • Техносфера Mail.Ru и факультета ВМиК МГУ – во многом аналогичная программа от второго интернет-гиганта, Mail.Ru. Также рассчитаная на 2 года.
  • Технопарк Mail.Ru и МГТУ им. Баумана – в отличие от «Техносферы», эти курсы больше рассчитаны на подготовку системных инженеров, однако курсу по анализу данных там тоже нашлось место. Срок обучения – 2 года.
  • Центр компьютерных наук – совместный проект Школы Анализа Данных «Яндекса», компании Jet Brains и школы №239 в Санкт-Петербурге. Срок обучения – также 2 года.
  • Петербургская школа данных – цикл лекций, посвященный большим данным, в Петербурге. Проект компании E-Contenta.

Коммерческие курсы

Есть несколько коммерческих программ, позволяющих расширить свой кругозор в области анализа данных. Их отличительные черты – короткий срок обучения и большая направленность на прикладное применение технологий.

Тут можно вспомнить следующие проекты:

  • Курс «Специалист по большим данным» от «Лаборатории Новых Профессий». Длится 3 месяца, состоит из 2 модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй –рекомендательным системам. Стоимость курса – 180 тысяч рублей, предусмотрены различные скидки и рассрочки.
  • «Школа данных Билайна» – курс, в первую очередь, посвящен Machine Learning Продолжительность обучения – 9 недель, стоимость – 100 тысяч рублей.

Онлайн-образование

В последнее время отрасль онлайн-образования переживает настоящий бум, и на ресурсах вроде Coursera, Edx, Stepic и Udacity можно найти огромное число курсов по обработке данных. Большинство – англоязычные (кстати, знание английского языка очень полезно в нашей области), но есть и несколько русскоязычных:

Заключение

В этой колонке я собрал актуальную на текущий момент информацию на рынке труда в области больших данных.

Смотря в будущее – нет никаких оснований полагать, что спрос на специалистов упадет в ближайшие несколько лет. Что это значит? Если вас интересует область анализа данных, то, получив образование и опыт в данном направлении, вы будете ценным специалистом на рынке труда и точно не останетесь без работы.

Надеюсь, статья помогла вам определиться со своими интересами и понять, с чего начать обучение.

Материалы по теме:


На платёжных картах «Старбакс» больше денег, чем на счетах американских банков

Большие данные должны приносить практическую пользу бизнесу – или умереть

Специалисты по big data могут зарабатывать космические суммы

Курсы и полезные ссылки по теме data science

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Аналитик Big Data

Результаты опроса работодателей свидетельствуют о том, что специалисты по обработке больших данных (Big Data) работают в 6% компаний. Основной спрос на аналитиков Big Data формируют IT и телеком-компании, банки и крупные розничные сети.

Вопрос: «Работают ли в вашей компании специалисты по анализу больших массивов данных (Big Data, Data Scientist)?»

Вариант ответа Все сферы деятельности ИТ / Телеком Банки Ритейл
Да 6% 21% 17% 13%
Нет 75% 60% 50% 45%
Затрудняюсь ответить 19% 19% 33% 42%

В своих комментариях представители крупных компаний отмечали, что аналитика больших данных является важным направлением бизнеса.

«Big Data аналитики входят в подразделение Digital. Это стратегическое для нас направление, оно подчиняется напрямую генеральному директору. Создано подразделение в таком формате меньше года назад. Наш бизнес связан с получением огромного количество данных, поэтому аналитика для нас очень важна. У нас очень сильная команда и очень амбициозные задачи», — говорит представитель оператора связи.

«У нас около 15 направлений/проектов по банку, где такие специалисты востребованы. Каждому проекту нужны свои специалисты, и они могут разные данные анализировать», — комментирует рекрутер крупного коммерческого банка.

Специалисты по подбору персонала отмечали ряд сложностей в подборе аналитиков больших данных, вызванных дефицитом квалифицированных кадров и отсутствием критериев по оценке компетенций: «Сложно оценивать уровень квалификации и экспертизы. У нас очень высокие требования. Мы проводим многоступенчатый отбор, с несколькими этапами интервьюирования, с тестами, проверяющими аналитические способности. Очень большое количество кандидатов отсеивается».

«Все мы хотим уже состоявшихся специалистов, реализовавших успешные кейсы, но их мало на рынке. Сложно определить уровень человека, потому как задачи разные, не совсем понятно, будет ли адекватен его опыт для нас», — добавляет представитель крупного коммерческого банка.

Проблемы с поиском кадров увеличиваются из-за отсутствия общепринятого названия должности специалистов, занимающихся анализом больших данных, и пула стандартных должностных обязанностей.

Вакансии, подразумевающие работу с большими данными, могут носить совершенно различные названия, например: аналитик big data; математик/математик-программист; менеджер по анализу систем; архитектор big data; бизнес-аналитик; BI-аналитик; информационный аналитик; специалист Data Mining; инженер по машинному обучению.

Специалистов по работе с Big Data можно разделить на 2 направления:
• инженеры Big Data — в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
• аналитики Big Data — отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

В должностные обязанности аналитика Big Data входит:

• построение процесса сбора данных для возможности их последующей оперативной обработки;
• анализ и прогнозирование потребительского поведения, сегментация клиентской базы (кластеризация, классификация, моделирование, прогнозирование);
• персонализация продуктовых предложений;
• анализ эффективности внутренних процессов и операционной деятельности;
• выработка решений по оптимизации текущих процессов на основании результатов анализа;
• анализ рисков, подозрительных операций, выявление мошенничества;
• обеспечение полноты и взаимосвязанности данных из разных источников (многоканальные продажи, маркетинг, интернет);
• формирование периодических отчетов для оценки результатов, визуализация и презентация данных.

Заработные платы аналитиков Big Data и требования к их профессиональным навыкам

Кем статьЯ хочу стать специалистом по обработке больших данных — что дальше?

Профессионалы о том, как приобрести необходимые навыки

Текст

Большие данные (или Big Data) — это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Где учиться

Куда ходить

Лекции Knowledge Stream, посвящённые теме больших данных, — совместная инициатива IBS и Digital October

Международная ежегодная конференция IBM Information on Demand

Международный
профессиональный форум
по бизнес-аналитике SAS

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Алексей Рывкин

архитектор корпоративных решений дивизиона данных компании IBS

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, — это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Мастер Йода рекомендует:  Как создать кликабельное изображение

Моя специализация — ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии — это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership — общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept — предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell, кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа — не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров — мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок — рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, — это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS, Hadoop, язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data — например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University. Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, — это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты — это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge. Во время участия в них я научился видеть и решать сложные задачи — от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Data Scientist — универсальный специалист по данным Big Data

На данный момент специалистов такого уровня катастрофически не хватает. Спрос на Data Scientist удовлетворен всего на 30%. А государственные образовательные учреждения и частные вузы не справляются с этой задачей.

Профессия Data Scientist — специалист по обработке, анализу и хранению больших массивов данных Big Data— в современном мире считается одной из самых перспективных, актуальных и высокооплачиваемых.

Востребованность этих специалистов растет из года в год большими темпами. При существующей тенденции роста Big Data во всех отраслях возрастает необходимость обучения менеджеров основным навыкам работы с массивами больших данных. Поэтому так стремительно и широко финансируются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.

Профессия Data Scientist была официально зарегистрирована как межотраслевая дисциплина в начале 2010 г. Необходимость возникновения такой профессии обусловлена тем, что ультрабольшие массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт (10 15 байт = 1024 терабайт) информации. Например, архивные данные в хранилище, созданном на основе Apache Hadoop и Hive, такой крупной компании как Airbnb, составляют несколько петабайт данных. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Особенности профессии Data Scientist:

  • умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных;
  • статистически анализировать их для принятия грамотных бизнес-решений.

Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

На данный момент специалистов такого уровня катастрофически не хватает. Спрос на Data Scientist удовлетворен всего на 30%. А государственные образовательные учреждения и частные вузы не справляются с этой задачей. Несколько технических вузов имеют в своём арсенале магистерскую программу подготовки «специалистов по науке о данных и менеджменту».

Но одного обучения недостаточно: чтобы стать специалистом высокого класса обязателен опыт работы, где придётся столкнуться с реальными задачами по Big Data. Это уникальная сфера деятельности для человека с нестандартным мышлением. Data Scientist — это учёный, постоянно генерирующий новые идеи, большинство из которых может и не сработать. Но это не должно его останавливать. Как настоящий учёный он должен искать и находить способы, которые решат проблему. Учёный не имеет права сказать: «НЕТ!» проблеме. Простые специалисты, как правило, не получив решения проблемы с помощью стандартных инструментов анализа и статистики, перестают заниматься ею и переключаются на другие вопросы.

При приёме на работу Data Scientist в первую очередь оценивают его умение погружаться в проблему и стремиться решить её любым способом. Для этого кандидату на должность предлагают тест, вырванный из контекста. Настоящий ученый без лишних уточняющих вопросов полностью погрузится в задание, рассматривая его с разных сторон, под разными углами, создавая различные вероятностные модели со случайными величинами, пытаясь выявить закономерность. В этом и проявляются нестандартность мышления и настойчивость в поисках способа и инструментов решения проблемы.

Получить профессию Data Scientist можно в следующих учебных заведениях:

  • в МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики;
  • по специальной образовательной программе Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска;
  • в МФТИ, Кафедра анализа данных;
  • на Факультете бизнес-информатики в НИУ ВШЭ, где готовят системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами;
  • в Школе анализа данных Яндекс также есть свои программы подготовки;
  • в Университетах Иннополиса, Данди, Южной Калифорнии, Окленда, Вашингтона по программам обучения «Магистратуры по направлению Big Data»;
  • в Бизнес-школе Имперского колледжа Лондона: «Магистратура по науке о данных и менеджменту».

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Приобрести реальный опыт работы позволяет онлайн-ресурс «Kaggle», созданный в апреле 2010 г. Это система для сбора данных, их обработки и интеллектуального моделирования, с помощью которой можно осуществлять прогнозирование ситуаций и решение задач в разных сферах — банковских и финансовых структурах, маркетинге, страховании, научных исследованиях. Система «Kaggle» структурирует бизнес-задачи в упорядоченный набор данных, с которым проще составить прогноз. В рамках этого ресурса возможно применение различных инструментов статистической обработки и математического анализа информации.

На виртуальной площадке «Kaggle» встречаются заказчики со своей информацией и специалисты, владеющие принципами построения сложных алгоритмов и научного моделирования — 46 тысяч человек со всего мира.

Ресурс «Kaggle» работает следующим образом:

  • заказчиком открывается новая компания с вводными данными;
  • ресурс предлагает конкретных консультантов;
  • проводятся поиски лучшего варианта модели;
  • производится оценка точности прогноза;
  • по результатам оценки прогноза определяется победитель;
  • заказчик оплачивает гонорар победителю.

Проекты «Kaggle» бывают двух видов: публичные и закрытые. В публичных исходный код открыт и в них могут свободно участвовать любые консультанты. В закрытых проектах принимают участие только специалисты, определённые заказчиком.

Ресурс «Kaggle» имеет бесплатные и платные сервисы, в зависимости от сложности задач. Для заказчиков сервис платный, для учёных — бесплатный. Кроме того, бесплатно могут им пользоваться университеты и колледжи на контрактной основе. Как правило, команда специалистов — ученых и аналитиков — собирается из людей-единомышленников, которые до этого сотрудничали друг с другом.

Стать профессионалом Data Scientist — это высокое карьерное достижение. Такой специалист в любой компании становится ключевой фигурой.

Аналитик Big Data

Современный мир – это огромное количество данных, генерируемых каждым из нас. Каждый клик, каждое просмотренное в интернете видео, прослушанный на стриминговом сервисе трек и лайкнутый в социальной сети пост, каждая оплаченная банковской картой покупка – все это может многое рассказать о нас, наших предпочтениях и желаниях. И это весьма ценная информация, не только для бизнеса, пытающегося лучше понять своего потенциального покупателя, но и для государственных структур, анализирующих поведение тех или иных групп населения и делающих на основе полученных данных соответствующие прогнозы.

Однако если получить подобные данные относительно несложно (мы сами охотно оставляем за собой цифровой след, пользуясь различными гаджетами и сервисами), то интерпретировать их – задача уже совсем иного уровня сложности. Как минимум потому, что массив анализируемой информации не только огромен, но и постоянно увеличивается. Уметь работать с непрекращающимся потоком данных, уметь находить в нем закономерности и делать достоверные прогнозы – задача аналитика Big Data.

Чем занимается аналитик Big Data

Если говорить максимально простыми словами, то задача аналитика Big Data – объяснить понятным языком, что именно значат полученные данные, и дать на их основании определенные прогнозы.

Пример: в распоряжении аналитика есть большое количество данных о транзакциях, совершаемых с помощью банковских карт определенного банка. Характер этих данных самый различный – количество транзакций, их сумма, время проведения, географическое распределение, характер трат и т. д. В первую очередь аналитик должен суметь правильно отсортировать полученные данные, очистить их от «мусора». Затем ему нужно придумать, каким образом полученные характеристики можно связать в единую картину – разработать теорию поведения клиентов банка на основе полученных данных. Отталкиваясь от теории, полученной на основе данных, аналитик не только выясняет, как именно клиенты банка пользуются его услугами, но и делает предположения о том, что им нравится или не нравится в предлагаемом сервисе. Сложные схемы, теории и вычисления аналитик должен обобщить в относительно простые заключения, которые смогут понять люди, далекие от анализа данных, в данном случае – владельцы и сотрудники банка.

Какие качества необходимы аналитику Big Data

Индустрия Big Data еще весьма молода, и люди приходят туда из самых разных сфер. Однако все сходятся в том, что успешный аналитик должен иметь навыки из самых разных областей.

В первую очередь, он должен обладать развитыми аналитическими способностями, поскольку его главная цель – понять, что именно означают те или иные данные, уметь их правильно интерпретировать. Здесь ему не обойтись без глубоких знаний по математике (как правило, аналитики Big Data приходят в профессию именно из неё), статистике и отчасти социологии.

Также обязательны навыки в области программирования и разработки ПО. Да, аналитики не занимаются созданием программ для обработки данных напрямую, это задача data engineer. Но после того, как аналитическая модель создана, её практически всегда приходится дополнительно настраивать и корректировать. В целях оперативности аналитикам нередко приходится делать это самим. Ну и, само собой, им необходимо понимать, как работают те или иные аналитические инструменты, каковы их программные ограничения, каким образом получаются и обрабатываются данные – без этого построить релевантную модель будет невозможно.

Аналитик также должен держать руку на пульсе новых технологий – более совершенные методы обработки и анализа данных появляются каждый месяц. У каждого из них своя специфика, свои области применения. Аналитик должен уметь понимать, как то или иное новое программное обеспечение можно адаптировать к конкретной задаче, над которой он в данный момент работает.

Не менее важным для аналитика является умение видеть свою работу с точки зрения бизнеса. При разработке модели аналитик должен максимально четко понять, какую именно информацию хочет получить заказчик, какие инструменты для этого нужно задействовать. Нередко владельцы бизнеса не вполне понимают, каким образом они могут использовать получаемые ими данные. Задача аналитика – разъяснить им это, зачастую, предвидеть своеобразные «точки интереса» заказчика.

Как уже было сказано выше, аналитик должен не только интерпретировать данные, но и описать свои умозаключения языком, понятным для далекого от статистического анализа человека. Почти всегда он прибегает для этого к помощи инфографики. Придумать информативную и при этом не перегруженную лишними деталями визуализацию – еще одна из его задач.

Где учиться на аналитика Big Data

Если вы приняли решение связать свою судьбу с анализом больших данных еще в школе, то лучше всего приналечь на математику и информатику. Хорошее знание английского языка также критически важно, поскольку вся актуальная периодика по теме и 95% технической документации на русском недоступны.

Правда, поступить на программу, связанную с анализом Big Data, сразу после школы будет весьма проблематично. Образование – очень консервативная сфера, новые специальности проникают в учебные планы университетов крайне медленно. На данный момент большинство российских вузов могут предложить бакалаврам лишь краткий курс, связанный с анализом Big Data (либо не предлагают по данной теме вообще ничего). Исключение составляет НИУ «Высшая школа экономики», реализующая англоязычную программу бакалавриата «Прикладной анализ данных» совместно с Лондонским университетом.

Наиболее разумной стратегией видится получение бакалаврского диплома в одной из IT-сфер или же в области математической статистики, а затем – продолжение обучения в магистратуре по уже более узкой специальности. Программы магистратуры в области анализа Big Data уже сейчас предлагают многие крупные российские технические университеты – Московский физико-технический институт, Университет ИТМО, Московский государственный университет им. М.В. Ломоносова, Санкт-Петербургский государственный университет и другие.

Где работают аналитики Big Data

На сегодняшний день главные работодатели специалистов в области Big Data – это крупные интернет-компании, такие как «Яндекс», Mail.ru («ВКонтакте»), Rambler и несколько фирм поменьше. Они занимаются сбором самых различных данных через свои сервисы и заинтересованы в том, чтобы понимать привычки и предпочтения своих пользователей как можно лучше.

В этом же заинтересованы и многие другие, менее технологичные отрасли – ретейлеры, банки (хотя вопрос об их технологической отсталости достаточно спорный), службы доставки и т. д. Они пока только начинают активно пользоваться технологиями Big Data, но эксперты прогнозируют, что с каждым годом оперативный и качественный анализ данных будет играть все большую роль буквально в любом бизнесе.

Добавить комментарий