6 советов, которые спасут специалиста Data Science


Оглавление (нажмите, чтобы открыть):

Как стать экспертом в Data Science: пошаговый план обучения

Мало кто может предсказывать события до ста процентов верно. Но дата-сайнтисты научились. А мы нашли последние тренды Data Science и составили план для тех, кто хочет глубоко изучить эту область.

Выбор языка

Сейчас в науке о данных используются два основных языка: Python и R. Язык R применяется для сложных финансовых анализов и научных исследований, потому его глубокое изучение можно отложить на потом.

На начальном этапе можно остановиться на изучении основ:

  • нюансы работы RStudio;
  • библиотеки Rcmdr, rattle и Deducer;
  • типы данных контейнеров, векторы и первичные типы данных;
  • factors, структуры и матрицы.

Быстро разобраться в теории языка R поможет сайт Quick-R.

Python популярен больше: на нём проще научиться писать код и для него написано множество пакетов визуализации данных, машинного обучения, обработки естественного языка и сложного анализа данных.

Что важно освоить в Python:

  • функции, классы, объекты;
  • структуры данных;
  • базовые алгоритмы и библиотеки;
  • качественную отладку и тестирование кода;
  • Jupyter Notebook;
  • Git.

Чтобы освоить базовые понятия Python, у вас уйдёт примерно 4-6 недель при условии, что вы будете тратить на изучение 2-3 часа в день.

Где можно освоить: в Skillfactory.

Библиотеки для Python

NumPy

NumPy — библиотека научных вычислений. От неё зависит почти каждый пакет Python для Data Science или Machine Learning: SciPy (Scientific Python), Matplotlib, Scikit-learn.

NumPy помогает выполнять математические и логические операции: например, в ней содержатся полезные функции для n-массивов и матриц. А ещё библиотека поддерживает многомерные массивы и высокоуровневые математические функции для работы с ними.

Зачем нужно знать математику? Почему компьютер не может сам всё посчитать?

Часто методы машинного обучения используют матрицы для хранения и обработки входных данных. Матрицы, векторные пространства и линейные уравнения — всё это линейная алгебра.

Чтобы понимать, как работают методы машинного обучения, нужно хорошо знать математику. Поэтому будет лучше пройти весь курс алгебры целиком: самостоятельно или с наставниками.

Кроме того, математика и математический анализ важны для оптимизации процессов. Зная их, проще улучшать быстроту и точность работы моделей машинного обучения.

Что важно освоить:

  • основу линейной алгебры: линейные комбинации, зависимость и независимость, векторные точки и векторное произведение, матричные преобразования, матричное умножение,
  • обратные функции;
  • массивы;
  • обработку математических выражений и статических данных;
    визуализации через Matplotlib, Seaborn или Plotly.

Где можно подтянуть знания по NumPy: официальная документация.

Где можно подтянуть знания по алгебре: Calculus (глава 11), курс по математике для Data Science.

Pandas

Pandas — библиотека с открытым исходным кодом, построенная на NumPy. Она позволяет выполнять быстрый анализ, очистку и подготовку данных. Такой своеобразный Excel для Python.
Библиотека хорошо умеет работать с данными из разных источников: листов Excel, файлов CSV, SQL, веб-страниц.

Что важно освоить:

  • чтение и запись множества различных форматов данных;
  • выбор подмножеств данных;
  • поиск и заполнение недостающих данных;
  • применение операций к независимым группам в данных;
  • преобразование данных в разные формы;
  • объединение нескольких наборов данных вместе;
  • расширенную функциональность временных рядов.

Где можно подтянуть знания по Pandas: Pydata.

Базы данных и сбор информации

Если вы уже знакомы с Python, Pandas и NumPy, можете приступать к изучению работы с базами данных и парсингу информации.

Несмотря на то, что NoSQL и Hadoop уже пустили корни в науку о данных, важно уметь писать и выполнять сложные запросы на SQL.


Часто необработанные данные — от электронных медицинских карт до истории транзакций клиентов — находятся в организованных коллекциях таблиц, которые называются реляционными базами данных. Чтобы быть хорошим специалистом по данным, нужно знать, как обрабатывать и извлекать данные из этих баз данных.

  • добавлять, удалять и извлекать данные из баз данных;
  • выполнять аналитические функции и преобразовывать структуры баз данных;
  • PostgreSQL;
  • MySQL;
  • SQL Server.

Хорошо структурированный курс по работе с SQL можно пройти здесь: SkillFactory.

Парсинг информации

  • уметь использовать методы find и find_all в парсинге страниц с помощью Beautiful Soup;
  • понять, как работает перебор элементов и сохранение переменных в Python;
  • работать с get-запросами и взаимодействовать с API.

Алгоритмы

Быть программистом без знания алгоритмов страшно, а Data Scientist’ом — опасно. Так что если вы уже освоили Python, Pandas, NumPy, SQL и API, пора учиться применять эти технологии для исследований.

Скорость работы хорошего специалиста часто зависит от трёх факторов: от поставленного вопроса, объёма данных и выбранного алгоритма.

Потому на этом этапе важно понять алгоритмы и структуры данных Беллмана-Форда, Дейкстры, двоичного поиска (и двоичные деревья как инструмент), поиска в глубину и ширину.

Машинное обучение и нейронные сети

Пора применять полученные навыки к решению реальных задач. До этого этапа важно знать математику: поиск, очистку и подготовку данных, построение моделей с точки зрения математики и статистики, их оптимизацию средствами матанализа — вот это всё.

Реальные задачи чаще всего решаются с помощью серьёзных библиотек вроде TensorFlow и Keras.

  • предобработку данных,
  • линейную и логистическую регрессию,
  • кластеризацию и обучение без учителей,
  • анализ временных рядов,
  • деревья принятия решений,
  • рекомендательные системы.

Дополнительно закрепить знания о машинном обучении можно здесь: Машинное обучение от Эндрю Ына.

Заключение

Стать экспертом в Data Science непросто: приходится изучать множество инструментов и быть гибким, чтобы вовремя узнавать о трендах.

Хорошая стратегия — получить базу по Data Science на фундаментальном курсе, а новые инструменты и технологии изучать, решая практические задачи на работе.

Как Data science помогает вести бизнес и определять редкие заболевания — в докладах экспертов на Women in Data Science

Перенять опыт успешных женщин, предложить необходимые связи в индустрии и сплотить сообществос такими целями на протяжение уже нескольких лет проходит международная конференция Women in Data Science (WiDS). Идея зародилась в Стэнфордском университете, а сейчас мероприятие проходит в более чем 150 местах по всему миру. Девятого марта конференция прошла и в Петербурге: в Высшей школе экономики выступили эксперты индустрии из Яндекса, Biocad и других компаний. Мы записали главное.

Конференция Women in Data Science

Как Data Science помогает бизнесу принимать правильные решения

Елена Чернышева, Яндекс

Как устроена работа аналитика в Яндексе? Однозначный ответ дать невозможно: деятельность специалистов очень различается в зависимости от масштаба подразделения и спецификации конечного продукта. Сам Яндекс состоит из различных маленьких компаний, среди которых Яндекс.Еда, Яндекс.Такси, Яндекс.Недвижимость. Все они — отдельные бизнес-юниты со своими правилами игры. Многие ожидают, что в Яндексе налажена общая инфраструктура, но на самом деле ее почти не замечаешь. За пять лет я проработала в нескольких подразделениях, и они сильно отличаются друг от друга.

К примеру, начинала я в Яндекс.Справочнике. Это специальный сервис, который собирает данные об организациях. Главное условие работы для составителей — хоть как-то узнать о существовании организации (допустим, по адресу), а остальное мы соберем и аккумулируем из различных источников. Допустим, Яндекс узнал, что по такому адресу есть Высшая школа экономики. Колл-центр сюда звонит и узнает, чем она занимается более подробно. Отдельный алгоритм идет в сеть и узнает сайт этой организации. Отдельно мы направляем сотрудника, который фотографирует здание организации с улицы. В итоге у нас складывается карточка организации благодаря данным из различных источников.

Чем у нас занималась отдельная команда аналитиков? В первую очередь разрабатывала метрики для различных алгоритмов. К примеру, в течение полугода наши специалисты искали правильную метрику для удобной кластеризации, чтобы организации не дублировали друг друга.

Абсолютно по-другому построена работа с аналитикой в подразделении Яндекса, отвечающего за поисковую систему: там работают около 2000 человек, все они программисты и аналитики. Последние часто выступают в роли менеджеров, которые рассчитывают новые метрики и думают, как улучшить существующие.

С чем может столкнуться молодой специалист, если пойдет искать работу в подобной большой компании? Возможно, в компании уже будет работать подобный отдел с проверенными механизмами и построенной схемой работы, а возможно, и нет. Руководители таких организаций часто не понимают ценность аналитики данных. Они считают, что готовый алгоритм должен давать готовое решение, и ожидают чудо.

Мой совет — начинайте работу в компаниях с уже сформировавшейся культурой, чтобы посмотреть, как это устроено и за какие деньги можно получить первый результат от работы. Так вы сразу увидите, каким эффектом обладает исследование данных. Возьмем к примеру компанию Amazon. Сейчас у них 2,6 миллиардов визитов в месяц, а конверсия в покупку — 9 %. Если у сайта вырастет конверсия, он заработает дополнительные 52 миллиона долларов. Следовательно, Amazon’у сейчас очень выгодно взять специалистов по data science.

Работая аналитиком данных в большой компании, вы будете заниматься узкой задачей, которая приведет к небольшой прибыли и наладит отдельную работу сервиса. Например, специалисты в Яндекс.Такси недавно вывели алгоритм, который помогает водителям быстрее добраться с работы домой. За час до конца работы они оповещают систему, и она подбирает им маршруты, близкие к дому.

С одной стороны, вы погрузитесь глубоко в технологии и сможете делать исследование узкой сферы, с другой – будете далеки от бизнеса и продукта.

Абсолютно другая ситуация при работе в маленькой компании. Ваш спектр задач невероятно расширится: модель для бизнеса, метрики, исследование пользователей, больше задач на моделирование и на прогнозирование. Будете максимально приближены к продукту и сможете влиять на все важные решения, которые принимаются в компании.

Вообще, организации часто не понимают, как принимать решения на основе данных. Ценная характеристика data science – это не отчеты с дашбордами и мониторингом, а инструменты прогнозирования и моделирования. Они как раз помогают бизнесу рассчитать, как быстрее добиться цели.


На новом рабочем месте не позволяйте людям говорить, что вам делать, так как их представления могут быть устаревшими. Это вы должны объяснять людям, как ваши инструменты им помогут.

Как анализ данных компанию захватывал

Екатерина Гудкова, Biocad

Biocad — это международная инновационная биотехнологическая компания полного цикла. То есть мы проводим исследования, разрабатываем лекарственные препараты, самостоятельно выводим их на рынок и занимаемся логистикой перевозок в аптеки. Полный цикл накладывает определенную специфику на то, кто и как работает в компании. В первую очередь, людей очень много — более 2000, и больше половины занимается либо моделированием лекарственных средств, либо поиском белковых соединений и путей их взаимодействия, либо прогнозированием работы препаратов в теле животного и человека. Естественно, в компании много современных лабораторий и нового оборудования, которое генерирует свежие данные каждую секунду.

Как представлен IT-отдел? Мы скорее помогаем остальной компании в вопросах доставки препарата конечному потребителю и занимаемся непосредственно тремя задачами. Во-первых, вычислительной биологией. С помощью компьютеров мы можем смоделировать взаимодействие молекул с телом человеком и обойтись без тестов.

С самого начала отдел продаж и маркетинга говорит, на каком рынке препаратов мы хотим выпустить продукт. Дальше подключаются исследователи, которые смотрят, что за болезнь, какие можно найти решения. Онкологические препараты тяжело моделируются: они часто отторгаются организмом, и это не всегда просто предвидеть. Когда есть решение, нужно подобрать молекулу, которая обезвредит заболевание и полностью уничтожит. В самом начале мы не знаем точно, что это будет за молекула, но в мире существует ограниченное количество веществ. Дальше моделируем и смотрим, как будут взаимодействовать белковые соединения между собой.

Следующей задачей мы поставили прогнозирование синтетической реакции. Мы принялись за обучение некоего цифрового химика, который определяет, как пойдет реакция, сколько она будет стоить, каким будет результат. Уже на протяжении нескольких лет он помогает компании экономить деньги.

И тут мы поняли: ведь можно пользоваться подобной системой и для помощи другим отделам. Те же HR-специалисты, которые и занимаются поиском новых сотрудников, и следят, чтобы работники не уходили и пользовались базой знаний для последовательного развития. Анализ данных можно использовать в любом направлении работы компании.

Просто так взять и начать делать машинное обучение крайне глупо. Поэтому первым шагом был чистый анализ данных с мониторингом. К примеру, как работает производство? Как часто выходит из строя определенное оборудование? Как быстро коробки с сырьем переправляется из одного отделения компании в другое?

Интересные метрики нужны специалистам HR, чтобы ответить на важный вопрос: как определить, что человек выгорел и пора с ним поговорить? По этой причине почти все компании, начавшие анализ данных, начинают крутить метрики, связанные с общекорпоративными показателями: как работает человек, на кого он похож, когда уходит с рабочего места.

Тут важно оговорить один момент: нет смысла просто так за чем-то следить. Всегда должно быть определенная отметка, когда стоит начать что-то делать. В остальное время можно в принципе и не смотреть на показатели.

С появлением всех многочисленных дашбордов встает момент работы со спамом. У меня огромное количество показателей, и я не могу тратить на них весь день. Тут два момента работы с анализом данных: это либо некий ситуационный центр (я реагирую только тогда, когда показатели выше определенной точки — остальное время меня не интересует), либо я накапливаю аналитику, чтобы потом посмотреть, как было, и выдвинуть некие гипотезы постфактум.

Сейчас в Biocad мы реализуем идею электронного персонального помощника. Дело в том, что с нашими темпами роста и набором новых сотрудников сервисное подразделение не может себе позволить такой же рост, это невыгодно для компании. Соответственно, для того, чтобы поддерживать новичков необходимой юридической или финансовой информацией, нужно создавать ботов, которые будут отвечать на типичные вопросы.

Сюда же закладывается не только сервисная поддержка, но и понимание о том, что мы должны обеспечивать сотрудника только необходимым контентом. Потому что информации много, и ее нужно подстраивать под каждого отдельного сотрудника.

Мастер Йода рекомендует:  В чем разница между CPU и GPU

Перспективы применения машинного обучения в здравоохранении будущего

Варвара Цурко, старший научный сотрудник ИПУ РАН и старший data scientist в компании IQVIA

Сейчас машинное обучение проникает во все области нашей жизни. И распознавание речи, и машинный перевод, и распознавание изображений. А медицина — это наука, которая сама по себе очень зависит от данных: в зависимости от принятой информации специалист ставит человеку определенный диагноз и прописывает определенное лечение. Врачей можно сравнить алгоритмами — они обучаются на историях болезни пациента. Чем больше пациентов у врача, чем лучше память и чем лучше он умеет обобщать и искать в данных скрытые закономерности, тем больше мы ему доверяем.

Но в чем-то машина выиграет — в отличие от человека, она сможет работать с большими данными. К примеру, проанализирует все истории болезни с определенным заболеванием и выделит признаки.

Поэтому сейчас мы говорим о новом цифровом здравоохранении. Я условно могу поделить его на четыре главных направления. Во-первых, это здоровый образ жизни — различные приложения и девайсы мониторят наши действия и предлагают обратную связь. К примеру, они рекомендуют время ухода ко сну, отслеживают количество потребленных калорий, а в будущем смогут определять уровень стресса по пульсу, движениям или голосу.

Второе направление работы машинного обучения в здравоохранении — это мониторинг симптомов, когда человек заботится о своем самочувствии и не хочет пропустить условный «сигнал тревоги». Современные тенденции направлены на то, чтобы встраивать биосенсоры в смартфоны и умные часы, которые могут снимать электрокардиограмму и сообщать владельцу о случаях отклонения от нормы. Кроме того, встроенные в часы акселерометр и гироскоп определяют падение человека. Если он после падения не двигается более 60 секунд, то устройство вызывает помощь. Классификация электрокардиограммы, определение аномалий и факта падения — все это задачи анализа данных.

Кроме того, благодаря функциям распознавания изображений появились мобильные приложения, которые сохраняют историю изображений сфотографированных родинок и сообщают о случаях отклонения от нормы.

Мониторинг симптомов может перейти и к диагностике. Это третье направление работы машинного обучения — сбор и обработка полезной информации для врача. К примеру, существует операция шунтирования сосуда при атеросклерозе артерий. Она известна очень большим процентом рецидивов: спустя полгода атеросклероз у больного возникает снова. Анализ данных о пациенте уже сейчас помогает предсказать отдаленный исход операции до или сразу после проведенной операции для проведения нового лечения. Если прогноз отрицательный, операцию откладывают или проводят более продолжительную реабилитацию.

Машинное обучение также может помочь диагностировать редкое заболевание. Алгоритм, обученный на всей доступной выборке больных редким болезнью, сможет поставить диагноз лучше врача. Проблема только с несбалансированной выборкой: людей с отрицательным диагнозом во много раз больше, чем с положительным. Ее можно решить либо предварительной обработкой данных (удаление из выборки случайных объектов большого класса или искусственная генерация объектов меньшего класса в окрестности реальных объектов) или алгоритмическим подходом (назначение равных штрафов за ошибки классификации объектов меньшего класса).

Четвертое направление — это проведение медицинских исследований. Раньше, чтобы набрать 10 000 пациентов, нужно было около года и 50 медицинских центров. Сейчас достаточно установить приложение, которое само соберет необходимые данные, запишет в систему и проанализирует результаты. С 2015 года через приложение mPower удалось собрать самую большую за всю историю выборку 10 000 пациентов для исследования болезни Паркинсона. 93 % из них никогда не принимали участия в подобных акциях.

После всего этого естественным образом встает вопрос: а почему нас все еще лечат люди, а не машины? Ответов несколько:

  • пока машину не научили применять интуицию. Исследований много, а на дополнительное обследование надо отправлять очень точечно;
  • проблема сбора данных: большое количество различных заболеваний, для классификации которых нужны различные признаки;
  • этические проблемы: во всех ли случаях человек должен знать о наличии у него заболевания и о тяжести формы? Можно ли доверить принятие важных решений машине?
  • проблема определения областей использования: с диагностикой каких заболеваний лучше справится машина, а с какими — живой врач?

Как эффективно начать карьеру в Data Science?

Итак, у меня есть огромное желание связать свою деятельность с Data Science в области финансов, и я хотел бы получить совет от опытных людей, как можно сделать это наиболее эффективно.

Про бэкграунд коротко:

  • высшее инженерное, но так получилось, не буду вдаваться в детали, что уже достаточно долго и, надо сказать, достаточно успешно я занимаюсь UI/UX дизайном
  • есть небольшой опыт в написании web-приложений (Backbone + MarionetteJS, RequireJS)
  • есть опыт написания расширений для Chrome на Angular
  • в универе познакомился с Asm, C/C++, C#, Java, JS, PHP, Lisp (нет, это не опечатка), а также с разработкой под Android и iOS
  • знаю английский

Относительно недавно я всё-таки решился сменить карьеру и составил для себя список необходимых минимальных навыков, чтобы получить первую работу:

  1. Python (+ SciPy, NumPy, Pandas);
  2. Проштудировать матан, линейку, тервер и статистику;
  3. Сделать пару небольших проектов, чтобы ходить на собесы не с голым задом, извиняюсь.

Уже недели три как я максимально погрузился в чтение Лутца, и в штудирование математики.

Был бы рад, если бы кто-то из этой сферы помог мне скорректировать план, если необходимо, и, возможно, дал бы совет, как двигаться наиболее эффективно. Хочется приступить к реальной работе в максимально короткие сроки.

Важное примечание: первая цель — устроиться на такую работу, с которой я смог бы оплачивать минимальную жизнь в столице. А поскольку я прекрасно знаю, сколько там стоит жизнь регионала, поэтому отталкиваюсь от суммы 60к/мес. Хочу понять, что мне для этого необходимо сделать и какими знаниями обладать.

Благодарю всех, кто дочитал, и надеюсь услышать что-то конструктивное.


Подготовка к собеседованию в сфере Data Science

Каждый день в Интернете появляется огромное количество разнообразной информации. Точную цифру даже невозможно представить! И чтобы извлечь из этого выгоду, такой объём различной информации должен быть структурирован и упорядочен. Именно в этом и помогает Data science или Наука о данных – она предоставляет способ привнести порядок и смысл в эту информацию. Это очень полезная наука, поэтому спрос на специалистов Data scientist также очень высок. Если быть более точным, то он продолжает увеличиваться с каждым годом. Поэтому, если вы решили, что профессия дата сайентист вам подходит, то вам необходимо подготовиться к собеседованию по этой позиции. В этом руководстве мы поможет вам это сделать.

Данное руководство разбито на две части – с базовыми и более продвинутыми темами. Мы поговорим про большие данные, узнаем отличие Data scientist от Data analyst и многое другое. В самом конце руководства вы узнаете несколько советов и мы вместе подведём итог для рассмотренного материала.

Введение

Давайте начнём с самого начала и поговорим об определениях.

Большая часть ваших вопросов про Data science будут включать в себя определения и сравнения. Именно поэтому нам необходимо начать с определений, чтобы вы могли более плавно перейти к более сложным темам.

Вопрос 1: Что Такое Data Science?

Data science или наука о данных — это форма методологии, которая используется для извлечения и организации различных данных и информации из источников данных (как структурированных, так и нет).

Для своей работы данная наука использует различные алгоритмы и применяет математику для извлечения полезных знаний и информации, а также их организации таким образом, чтобы они имели смысл и имели применение.

Вопрос 2: В Чём Различие Между Data Science и Big Data?

Несомненно один из самых неприятных вопросов, так как многие люди не могут определить чёткие границы между ними. В основном причиной этого является нехватка информации по этой теме.

Хотя на самом деле ответ очень прост – так как термин Big data или большие данные подразумевает под собой огромные объёмы информации и данных, то ему необходимы особые методы для анализа. Поэтому можно сказать, что Big data это то, что анализирует Data science.

Вопрос 3: В Чём Различие Между Data Scientist и Data Analyst?

Несмотря на то, что эти термины в сфере Data science являются базовыми, многие люди часто их путают.

Data scientists добывает, обрабатывает и анализирует данные. Сфера их работы нацелена на предоставление прогнозов для бизнеса о том, какие проблемы он может встретить.

Data analysts решает неизбежные проблемы с бизнесом, вместо их прогнозирования. Они идентифицируют проблемы, проводят анализ статистической информации и документируют эти данные.

Вопрос 4: Каковы Основные Функции, Которые Представляют Big Data?

С определениями мы закончили, теперь давайте перейдём к более специфичным вопросам по Data science. Обратите внимание, что вопросы про Data scientist, analyst и Big data будут встречаться на собеседованиях почти всегда. Просто это различные подкатегории, которые тесно друг с другом переплетаются.

Большие данные представляют 5 категорий и они называются “5 V”:

  • Value (значение);
  • Variety (разнообразие);
  • Velocity (скорость);
  • Veracity (точность);
  • Volume (объём).

Все эти термины в той или иной степени связаны с большими данными.

Вопрос 5: Что Такое Рекомендательная Система?

Это тип системы, которая используется для предсказания того, насколько высоко оценивают пользователи определённый объект (кино, музыку, товар и т.д.). Не стоит даже сильно разбираться в этих системам, чтобы осознать всю их сложность и наличие сложных формул.

Вопрос 6: Назовите Причину, Почему в Data Science Лучше Всего Использовать Именно Python.

Чтобы справиться с вопросами Data science, вы обязаны знать и уметь применять Python. В Python есть огромное количество библиотек Data science, а также он невероятно быстр, прост для изучения и чтения. Python включает в себя множество специализированных библиотек по глубинному обучению и машинному обучению, включая такие популярные инструменты как sci-kit-learn, Keras и TensorFlow, которые позволяют специалистам дата сайентист разрабатывать сложные модели данных, подключаемых непосредственно к производственной системе.

Чтобы раскопать нечто полезное из данных, вам нужно будет использовать Pandas, библиотеку для анализа данных на Python. Она может хранить огромное количество информации без различных неудобств, которые есть у Excel или подобных ему инструментов. Вы можете сделать численный анализ моделирования с Numpy. Провести научное вычисление и подсчёт с помощью SciPy. Или даже получить доступ к более мощным алгоритмам машинного обучения с помощью библиотеки sci-kit learn. В дополнение ко всему вышеперечисленному, с помощью Python API и IPython Notebook, который идёт вместе с Anaconda, вы получите возможность дать визуальное представление вашим данным.

Вопрос 7: Что Такое A/B Тестирование?

A/B тестирование может применяться во многих сферах, но в области Data science ему отводится особое предназначение. Почему так происходит?

A/B тестирование — это форма тестов проводимых для определения того, какая версия одной и той же вещи лучше подходит для достижения желаемых результатов.

Например, вы хотите продать яблоки. Однако вы не уверены какой сорт яблок – красные или зелёные – предпочтут ваши покупатели. Поэтому вы пробуете продавать оба – для начала вы продаёте красные яблоки, затем зелёные. После этого вы просто высчитываете какие из них были более прибыльными и готово – это была самая простая форма A/B тестирования!

Вопрос 8: Что Такое Hadoop и Почему Он Важен?

Чтобы ответить на этот вопрос правильно, вы должны понимать, что Apache Hadoop является набором программных утилит с открытым исходным кодом, которые облегчают использование сети из множества компьютеров для решения проблем, связанных с огромными объемами данных и вычислений. Он предоставляет фреймворк программного обеспечения для распределённого хранения и обработки данных с помощью модели программирования MapReduce.

Hadoop делит файлы на большие блоки и распределяет их по нодам кластера. После этого он перемещает упакованный код в ноды для параллельной обработки данных. Это позволяет набору данных обрабатываться быстрее и более эффективно, чем это было бы с более традиционной архитектурой суперкомпьютера.

Вопрос 9: Что Такое Систематическая Ошибка Отбора?


Систематическая ошибка отбора — это систематическое отклонение, вызванное отбором отдельных лиц, групп или данных для анализа таким образом, что надлежащая рандомизация не достигается, тем самым гарантируя, что полученная выборка не является репрезентативной для популяции, предназначенной для анализа.

Если систематическая ошибка отбора не берётся в расчёт, то некоторые выводы исследования могут быть неточными.

Вопрос 10: Что Такое Анализ Мощности?

Тип анализа, который используется для определения того, какой тип эффекта будет иметь единица в зависимости от её размера.

Анализ мощности напрямую связан с тестами гипотез. Главная цель, лежащая в основе анализа мощности, состоит в том, чтобы помочь исследователю определить наименьший размер выборки, который подходит для обнаружения эффекта данного теста на желаемом уровне значимости.

Продвинутые Вопросы Data Science

Итак, мы рассмотрели базовые и вводные вопросы, которые нам может предложить наука о данных. Давайте перейдём к более сложным темам.

Представленный далее материал является выборкой из тем для Data scientists, Big data и Data analyst. Это темы, которые чаще всего затрагиваются в процессе проведения собеседования.

Вопрос 1: Дайте Определение Коллаборативной Фильтрации.

Коллаборативная фильтрация, как понятно из названия, является процессом фильтрации, который используют многие рекомендательные системы. Этот тип фильтрации используется для поиска и категоризации определённых паттернов.

Коллаборативная фильтрация — это способ создания автоматических прогнозов (фильтрации) об интересах пользователя с помощью сбора информации о предпочтениях и вкусе многих пользователей.

Вопрос 2: Что Такое fsck?

Дата сайентист должен знать, что fsck является аббревиатурой для “File System Check” или “Проверки Файловой Системы”. Это тип команды, который ищет возможные ошибки внутри файла и при их нахождении сообщает об этом в распределённую файловую систему Hadoop.

Вопрос 3: Что Такое Перекрёстная Проверка?

В сфере Data science перекрёстная проверка или кросс валидация, может быть довольно сложной темой для объяснения, особенно, если пытаться сделать это в простой и понятной для каждого манере.

Перекрёстная проверка используется для анализа того, поведёт ли себя объект так как от него ожидают при помещении на работающие сервера. Другими словами, она проверяет как определённые результаты статистического анализа будут измеряться, когда они помещаются в независимый набор данных.

Вопрос 4: Что Лучше – Хорошие Данные Или Хорошие Модели?

Это можно назвать одним из самых популярных вопросов по Big data, несмотря на то, что он также подпадает под категорию вопросов по Data science.

Ответ на этот вопрос на самом деле субъективен и зависит от ситуации. Крупные компании могут предпочесть хорошие данные, так как они являются основой для любого успешного бизнеса. С другой стороны, хорошие модели не могут быть созданы без хороших данных.

Вы должны ответить на этот вопрос в соответствии с вашими предпочтениями – здесь нет неправильного или правильного ответа (если конечно компания сама не пытается его найти).

Вопрос 5: В Чём Различие Между Обучением с Учителем и Без Учителя?

Это не самый распространённый вопрос и больше относиться к машинному обучению, чем к чему-то ещё, но дата сайентист должен это знать.

В процессе “Supervised learning” или “Обучения с учителем”, вы будете выводить функцию из помеченной части данных, предназначенных для обучения. Машина будет учиться с объективных и конкретных примеров, которые вы предоставите.

Unsupervised learning” или “Обучение без учителя” относится к машинному методу обучения, который не использует помеченные ответы – машина учиться на описании входных данных.

Вопрос 6: В Чём Различие Между Математическим Ожиданием и Средним Значением?

Наука о данных может быть тесно связана с математическими значениями. Поэтому вы должны знать, что между ними нет никакой разницы. Однако используются они в разных ситуациях.

Математическое ожидание обычно отражает случайные переменные, тогда как среднее значение отражает выборку образцов.

Вопрос 7: В Чём Различие Между Двумерным, Многомерным и Одномерным Анализом?

Двумерный (bivariate) анализ касается двух переменных одновременно, тогда как многомерный (multivariate) анализ имеет дело с несколькими переменными. Одномерный (univariate) анализ является самой простой формой анализа данных. “Uni” означает “один“, другими словами, ваши данные имеют только одну переменную. Он не имеет отношения к причинам или отношениям (в отличие от регрессии), и его главная цель – описать; он берёт данные, суммирует эти данные и находит шаблоны в данных.

Мастер Йода рекомендует:  Всё ли в программировании сводится к знанию языков — Эксперты дают советы новичкам

Вопрос 8: Что, Если Два Пользователя Попробуют Получить Доступ к Одному и Тому Же Файлу HDFS Одновременно?

Этот вопрос по Data science также очень часто появляется в различных источниках – и на самом деле здесь есть небольшой подвох. Сам по себе ответ не так сложен, но очень легко перепутать как реагируют на это различные программы.

Если два пользователя попытаются получить доступ к файлу HDFS, то первый человек получит доступ, а второму пользователю в доступе будет отказано.

Вопрос 9: Как Много Стандартных Форматов Ввода Hadoop Существует? Какие Они?

Один из вопросов для аналитика данных, который также может быть задан. Он довольно сложный, так как вам не только нужно знать число, но и сам формат.

Всего существует три распространённых формата ввода Hadoop. Это: формат key-value, sequence file и text.

Вопрос 10: Что Такое Кластерная Выборка?


Кластерная выборка относится к типу метода выборки. С кластерной выборкой, исследователь делит популяцию на несколько отдельных групп под названием кластеры. Затем, из популяции выбирается простой случайный образец кластеров. Исследователь проводит свой анализ данных на основе выбранных кластеров.

Советы

Итак, мы успешно рассмотрели как базовые, так и более продвинутые вопросы по Data science. Давайте вспомним, что мы узнали и подведём итоги.

Самой важной вещью для начала вашего собеседования являются определения. Если вы их знаете и можете объяснить их значение в простой и понятной манере, то вы гарантированно произведёте хорошее впечатление на потенциального работодателя.

После этого, убедитесь, что повторите все сложные темы. Вам не обязательно изучать каждый из тысяч вопросов собеседования досконально. Тем не менее, изучить самые основные темы и запомнить хотя бы их концепт будет вовсе не лишним.

Вашей основной целью во время собеседования должен стать показ ваших знаний. Будь-то вопросы собеседования по Data science или какие-либо другие – если ваш работодатель увидит, что вы подкованы в данной теме, то он будет считать вас подходящим кандидатом.

Однако вам стоит помнить – знания это лишь один из критериев оценки. Работодатели также смотрят на вашу ответственность, надёжность и многие другие качества. Вы также должны уметь продемонстрировать их и другие ваши положительные качества. Не бойтесь говорить о себе, но знайте меру – есть серьёзное отличие между уверенностью и излишней самоуверенностью.

Заключение

С таким огромным количеством информации каждый день, для бизнеса становится всё сложнее и сложнее управлять своими данными и принимать взвешенные решения на основе их. Именно поэтому для этого должны применяться мощные машины, способные организовать информацию и представить её в правильном формате. Однако эти машины не работают сами по себе и требуют участия специалистов Data scientist для достижения лучших результатов.

В этом руководстве мы рассказали о самых основных вопросах по Data science, которые должен знать каждый специалист в этой сфере. Даже если вы пока не разбираетесь в этой теме, вы уже должны были понять, на какие темы вам стоит обратить более пристальное внимание при изучении. Приложите усилия и уделите этому время, и вы почувствуете, что становитесь более уверенны в своих знаниях!

Надеемся, что вы успешно получите должность специалиста по данным. Удачи!

Почему каждый Data Scientist должен быть DevOps-инженером в Big Data

С точки зрения бизнеса DevOps (DEVelopment OPerations, девопс) можно рассматривать как углубление культуры Agile для управления процессами разработки и поставки программного обеспечения с помощью методов продуктивного командного взаимодействия и современных средств автоматизации. Сегодня мы поговорим о том, как эта методология используется в Big Data проектах, почему любой Data Scientist становится немного DevOps-инженером в больших данных и насколько это выгодно бизнесу.

Как связаны DevOps и Agile

В общем случае DevOps, как и Agile, — это набор практик для сокращения сроков выпуска конкурентоспособного программного обеспечения за счет взаимной интеграции процессов его разработки и эксплуатации путем эффективного взаимодействия профильных специалистов (аналитиков, программистов, тестировщиков, администраторов и т.д.) [1]. Этот термин стал популярным с начала 2010-х годов, в рамках развития микросервисной архитектуры, когда программный продукт строится как совокупность небольших взаимодействующих друг с другом слабосвязанных модулей. Это существенно ускоряет разработку решения, поскольку каждый модуль может автономно создаваться отдельным специалистом и интегрироваться с другими с помощью открытых API, например, REST [2]. При этом в зоне ответственности разработчика (DevOps-инженера) находятся не только процессы написания и отладки программного кода, но и вопросы его тестирования, интеграционной сборки, выпуска, развертывания, использования и эксплуатационного мониторинга [3]. Такой комплексный подход устраняет организационные барьеры между этапами создания и эксплуатации продукта, позволяя релиз за релизом быстро увеличивать его функциональность, что соответствует итерациям в методологии Agile.

Процессы DevOps: Development Operation

Чем занимается девопс-инженер в проектах Big Data и не только

Можно сказать, что DevOps-инженер синхронизирует все этапы создания программного продукта: от разработки кода до эксплуатации, автоматизируя задачи непрерывного тестирования, развертывания и администрирования приложения с помощью технологий контейнеризации (Kubernetes, Docker, Rocket), виртуализации (Vagrant), интеграции (Jenkins) управления инфраструктурой как кодом (Puppet) и постоянного мониторинга производительности продукта [3].

Прикладные сферы девопс-инженера

При этом навыки администрирования локальных и облачных серверов становятся особенно важными в Big Data проектах, поскольку информация хранится и обрабатывается в Hadoop-кластерах. Такой широкий круг задач предполагает высокий уровень компетентности девопс-инженера: наличие специальных знаний и профессионального опыта в процессах разработки (включая тестирование) и эксплуатации. Это соответствует Т-образной модели компетенций, которая реализуется в Agile-командах, где каждый участник обладает обширным кругозором и набором умений, являясь экспертом в одной прикладной области [4]. Таким образом, если Data Scientist обладает навыками развертывания решения в промышленную эксплуатацию (production) и администрирования экосистемы Hadoop, это не отменяет необходимость присутствия DevOps-инженера в проектной команде. Однако, существенно облегчает эффективное взаимодействие в Big Data проекте специалистов разных профилей, которых мы рассмотрим в отдельной статье.

Девопс — это человек-оркестр с большим набором ИТ-компетенций

Место DevOps-процессов в жизненном цикле Data Science

Рассматривая CRISP-DM как основной стандарт работы Data Scientist’а, можно поставить в соответствие его фазам процессы DevOps. При этом под объектами фаз оценки и мониторинга следует понимать не только разработанные модели машинного обучения (Machine Learning), а программный продукт в целом. Такое комплексное видение позволит Data Scientist’у избежать деградации разработанного решения, связанных с увеличением характера или объема обрабатываемых данных, а также изменения инфраструктуры. В результате концепция DevOps помогает Data Scientist’у фокусироваться не только на данных, а учитывать также сложность/стоимость развертывания и эксплуатации создаваемого решения. Последнее с позиции бизнеса не менее важно, чем функциональные возможности системы анализа больших данных и точность алгоритмов Machine Learning.

Процессы DEVelopment OPeration в жизненном цикле работы с Big Data по стандарту CRISP-DM

Распространение технологий Big Data, микросервисных архитектур, облачных платформ, а также цифровая трансформация общества провоцируют развитие принципов Agile вообще и DevOps в частности. Например, для повышения эффективности процессов использования данных и облачных сервисов/платформ появились концепции DataOps [5] и FinOps [6].

Узнайте, как внедрить лучшие практики DevOps и Agile в свои проекты цифровизации на курсах BDAM: Большие данные для руководителей в специализированном учебном центре обучения пользователей, инженеров, администраторов и аналитиков Big Data в Москве.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ


Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

6 советов, которые спасут специалиста Data Science

16 модулей, 2 месяца

  • Введение в программирование на Python
  • Анализ данных в Pandas и NumPy
  • Визуализация, очистка данных и feature engineering
  • Работа c файлами, html-страницами и API

8 модулей, 2 месяца

  • Линейная алгебра
  • Матанализ и методы оптимизации
  • Основы статистики и теории вероятности
  • Анализ временных рядов и другие математические методы

9 модулей, 2 месяца

  • Введение в машинное обучение
  • Предобработка данных
  • Основные модели машинного обучения
  • Оценка качества алгоритмов

11 модулей, 3 месяца

  • Фреймворк TensorFlow, библиотека Keras и другие
  • Сверточные нейронные сети и компьютерное зрение
  • Рекуррентные нейронные сети
  • Анализ естественного языка и другие задачи DL

8 модулей, 2 месяца

  • Hadoop
  • Spark
  • ETL и BI
  • Облачные технологии AWS и Azure


4 модуля, 1 месяц

  • Data Science в production
  • Оценка эффективности моделей в реальных бизнес-задачах
  • Управление data science проектом и командой
  • Общение с заказчиками

Стоимость обучения
Если курс не подойдет, мы вернем вам деньги

currentPrice
basePrice
priceComment

Можно в рассрочку на 24 месяца
installmentPrice в месяц
Подробнее

С помощью обучающих алгоритмов машинного обучения можно научить программы делать что угодно:

1. Предлагать дополнительные товары, которые пользователь купит с наибольшей вероятностью, на основе его поведения на сайте и покупок. Таким образом увеличивать продажи и прибыль бизнеса.

2. Предсказывать события в клиентской базе. Таким образом можно заранее предпринять меры, которые сократят расходы или увеличат прибыль. Возьмем к примеру страховую компанию, которая предоставляет услуги ДМС. Если она научит программу предсказывать, кто из клиентов в ближайшее время обратится за дорогостоящей медицинской услугой, то сможет предпринять меры, чтобы сократить расходы по ДМС. Например, позвонить клиенту и предложить ему проконсультироваться с хорошим врачом, чтобы не допустить развитие болезни.

3. Формировать заказы на поставку для магазинов сети с учетом динамики продаж, сезона, прогноза погоды и других параметров. Таким образом не допускать, чтобы в торговых точках было затоваривание или нехватка товара.

4. Сегментировать клиентов, чтобы делать им подходящие предложения. Возьмем к примеру банк, который создал новый вид кредита. С помощью машинного обучения он может выявить в базе клиентов тех, кто вероятнее всего воспользуется таким кредитом.

5. По факту, области применения машинного обучения и Python практически безграничны: от контроля качества товаров до диагностики оборудования на производстве, от продаж до аналитики, от повышения персонализации до аудита. Вы сможете использовать возможности алгоритмов практически в любой сфере.

По версии кадрового агентства Glassdoor, профессия Data Scientist, напрямую связанная с машинным обучением, занимает первую строчку в рейтинге самых лучших профессий Америки.

Ценятся такие специалисты высоко. Журнал IncRussia пишет, что зарплата специалиста по машинному обучению составляет 130-300 тысяч рублей. Причина в том, что на рынке мало специалистов в области Data Science. Полученная квалификация в этой области поможет вам совершить рывок в текущей работе или запуске собственного проекта.

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

(С.Мальцева, В.Корнилов НИУ «ВШЭ»)

Профессия новая, актуальная и чрезвычайно перспективная. Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт ( 10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Мастер Йода рекомендует:  Wordze - новый пакет для исследования ключевых слов

Массивы данных подразделяют на 3 вида:

структурированные (например, данные кассовых аппаратов в торговле);

полуструктурированные (сообщения E-mail);

неструктурированные (видеофайлы, изображения, фотографии).

Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

Особенности профессии

В работе с данными Data Scientist использует различные способы:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • приложения искусственного интеллекта для работы с данными;
  • методы проектирования и разработки баз данных.

Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

  • сбор данных из разных источников для последующей оперативной обработки;
  • анализ поведения потребителей;
  • моделирование клиентской базы и персонализация продуктов;
  • анализ эффективности внутренних процессов базы;
  • анализ различных рисков;
  • выявление возможного мошенничества по изучению сомнительных операций;
  • составление периодических отчетов с прогнозами и презентацией данных.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным — это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.


Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Место работы

Data Scientist занимают ключевые позиции в:

  • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
  • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицине (автоматическая диагностика болезней);
  • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
  • телекомпаниях;
  • крупных торговых сетях;
  • избирательных кампаниях.

Важные качества

  • аналитический склад ума;
  • трудолюбие;
  • настойчивость;
  • скрупулёзность, точность, внимательность;
  • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • коммуникабельность;
  • умение объяснить сложные вещи простыми словами;
  • бизнес-интуиция.

Профессиональные знания и навыки:

  • знание математики, матанализа, математической статистики, теории вероятностей;
  • знание английского языка;
  • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
  • главный базовый навык специалиста по data scientist — организация и администрация кластерных систем хранения больших массивов данных;
  • знание законов развития бизнеса;
  • экономические знания.

Обучение на Data Scientist-а (Образование)

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Курсы

  • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
  • МФТИ, Кафедра анализа данных.
  • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
  • Школа анализа данных Яндекс.
  • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
  • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Оплата труда

Зарплата на 06.11.2020

Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. — $140 тыс. в год.

По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Интересные факты о профессии

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ «BIG DATA» в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2020 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2020 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Специалист по анализу данных (data scientist)

обрабатывает и анализирует большие массивы структурированных или неструктурированных данных с помощью методов статистического анализа и построения математических моделей; находит скрытые закономерности и делает прогнозы для повышения эффективности бизнес-решений, социальных взаимодействий, научных исследований

В связи с цифровизацией социальной жизни профессия data scientist востребована практически во всех отраслях экономики.

Выпускники могут заниматься аналитикой в частных компаниях и государственных органах, осуществлять методологическую и технологическую поддержку деятельности команд, которые работают с большими данными. Data scientist зачастую является членом междисциплинарной команды, включающей в себе архитектора данных, инженеров данных, аналитиков предметной области и других специалистов. Специалист по анализу данных может найти применение своим умениям и навыкам в научно-исследовательской деятельности.

Потребность в специалистах по анализу данных очень велика и в ближайшее время будет только расти. По оценкам экспертов, мировой рынок анализа данных вырастет со 130 млрд долл. в 2020 году до 203 млрд долл. в 2020 году. В России рынок развивается с некоторым отставанием, однако темпы его роста даже быстрее, чем в других странах.

Оценки рынка

11,8%
составит среднегодовой темп роста мирового рынка услуг по анализу данных для бизнеса в период 2020–2020 годов. По оценкам IBM, к 2020 году количество рабочих мест для специалистов по анализу данных вырастет на 28%.

Источник: The quant crunch how the demand for data science skills is disrupting the job market, IBM. 2020

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Добавить комментарий