Мнения топовых людей из индустрии Data Science о развитии отрасли


Оглавление (нажмите, чтобы открыть):

Вот что мы узнали о Data Science в России

В декабре 2020 года мы провели опрос среди различных групп пользователей, так или иначе имеющих отношение к анализу данных. Мы распространяли ссылку на опрос в сообществах Slack OpenData Science, рассылали напрямую в компании, в которых есть подразделения data analysis, а также участникам конференции SmartData. Нам очень хотелось узнать, какими языками программирования, технологиями и инструментами пользуются специалисты в этой области.

Здесь мы делимся результатами этого исследования. При всем желании мы бы не смогли отразить все интересные наблюдения, которые можно сделать из полученных данных. Поэтому если вы хотите поработать с исходными данными, можете скачать их здесь. В целях конфиденциальности все ответы на открытые вопросы удалены.

57% респондентов относятся к возрастной категории от 21 до 29 лет, возраст 35% опрошенных — от 30 до 39. Это вполне соответствует ситуации в мире, где такое соотношение составляет 48% и 29%, согласно нашему исследованию Data Science Survey Worldwide . Что интересно, доля тех, кому за 40, превосходит долю тех, кому меньше 20 лет.

Сколько вам лет

80% специалистов трудоустроены
и имеют полную занятость

Каким образом вы
в основном трудоустроены?

Укажите уровень вашей
квалификации

Распределение респондентов по уровню образования сильно отличается от данных по миру.

Среди опрошенных в России, 59% имеют степень бакалавра, и только 20% степень магистра, в то время как в мире, согласно данным нашего опроса, степень бакалавра имеют 45%, а степень магистра — 36%.

Таким образом среди респондентов уровень образования ниже, чем в мире, при том что возрастная группа в целом совпадает.

Укажите полученное вами образование

Как можно увидеть, около половины респондентов (46%) работают в области анализа данных от 1 до 3 лет. И лишь 18% имеют опыт 3-6 лет.

Необычно, что для абсолютного большинства респондентов (тех, у кого опыт от 0 до 6 лет, а таких >90%) средний возраст никак не связан с опытом.

То же самое относится и к занимаемой позиции: только возраст старших специалистов (seniors) несколько превышает возраст всех остальных.

Как долго вы работаете
в сфере анализа данных

Сфера информационных технологий является основной областью применения анализа данных.

23% респондентов, не занятых в сфере IT,
занимаются научной деятельностью

В какой области вы в основном
применяете анализ данных?

Анализ данных —
это вообще профессия?

Многие люди решают задачи анализа данных наряду с программированием и другими должностными обязанностями. В России 50% респондентов указали анализ данных как основную профессиональную деятельность, для 33% опрошенных — это дополнительная работа.

Доля Scala/Java-разработчиков среди тех, для кого анализ данных — это основная деятельность, почти в три раза меньше, чем среди тех, для кого она дополнительная (18% против 46%). Это свидетельствует о том, что многие разработчики по долгу службы вынуждены решать задачи, связанные с обработкой данных.

Анализ данных в основном
является для вас.

Анализ данных —
это вообще профессия?

86% опрошенных занимаются
обработкой данных

В круг обязанностей
или интересов входит

Python — доминирующий язык анализа данных в России

Python — основной язык программирования у 74% респондентов. R в качестве основного языка указали только 10%. Можно ожидать, что в ближайшие годы доля Python будет расти, т.к. он является основным языком программирования для большинства опрошенных нами студентов (90% против 5% у R).

Основной язык программирования

Python — доминирующий язык анализа данных в России

Python — доминирующий язык анализа данных в России. В мире доли использования Python и R в области анализа данных составляют 73% и 40% соответственно, в России Python значительно популярнее R — 84% против 25%.

В этой таблице мы разбили всех респондентов на категории по тому, как они ответили на вопрос об использовании инструментов для Big Data. Всех, кто использует подобные инструменты, мы отнесли к Big Data, а остальных — к Не BigData. Студенты выделены в самостоятельную группу.

Самая большая доля JVM-языков — именно среди занимающихся «большими данными».

Регулярно используемые языки

Больше половины тех, для кого R — основной язык программирования, также используют Python.

Респонденты-джависты используют мало дополнительных языков, в отличие от любителей Scala, которые активно пользуются и Java, и Python, и R. При этом нужно учесть, что тех, для кого Scala является основным языком, набралось мало.

Пересечение для основных
и регулярно используемых языков

Глубокое обучение —
это тренд

Более 60% респондентов так или иначе используют инструменты для глубокого обучения.

TensorFlowTM является наиболее популярным фреймворком — 49%, Keras на втором месте c 39%.

Глубокое обучение особенно популярно среди студентов — 83% опрошенных в этой группе используют фреймворки для глубокого обучения.

Какие инструменты для глубокого машинного обучения (deep learning) вы используете?

69% опрошенных используют Linux
для анализа данных

Какую операционную систему (системы) Вы используете в качестве рабочего окружения, когда занимаетесь анализом данных?

87% респондентов производят
вычисления на локальном
компьютере

Где вы производите вычисления?

Apache Spark — главный инструмент анализа «больших данных»

Apache Spark используют 40% респондентов, в том числе 92% тех, кто программирует на Scala. Все, для кого Scala является основным языком, используют Apache Spark.


Доля тех, кто программирует только на Python и использует Spark, составляет порядка 14% (если не учитывать возможность использовать Spark из Lua и Julia, то эта доля увеличится до 20%).

Hadoop и Hive несколько менее популярны среди респондентов — 30% и 20%, соответственно.

Почти все респонденты хотя бы иногда пользуются Python, поэтому распределение ответов Python-программистов почти не отличается от общего распределения. Scala же используется в основном только теми, кто занимается Big Data.

Какие инструменты для работы
с BigData вы используете?

Мы не делали никаких предположений о том, что именно подразумевают респонденты под термином “большие данные”, а всего лишь выделили набор технологий, которые наиболее распространены в этой области.

Как и следовало ожидать, знание технологий больших данных — ключ к высокой заработной плате. Средняя зарплата специалиста вне стека технологий больших данных составляет 127 тыс. рублей.

В зависимости от технологий зарплата специалистов в России сильно варьируется, однако в среднем в области анализа больших данных она значительно выше.

При этом, несмотря на популярность Apache Spark, респонденты со знанием этой технологии уступают по зарплате специалистам, владеющим Apache Pig и Apache Hive — 157 тыс. рублей против 177 и 166 тыс. соответственно. Знание Apache Hadoop/MapReduce дает в среднем 150 тыс. рублей.

Средняя сумма заработной платы

Средняя сумма заработной платы

В вопросе зависимости зарплат от языка программирования мы не отличаемся от всего мира: специалисты в Scala зарабатывают больше остальных — 173 тыс. в среднем. За ними идут респонденты со знанием Java — 158 тыс., и Python — 143 тыс.

При этом зарплата специалистов, использующих Python, примерно на 4-5% выше, чем специалистов, использующих R (136 тыс.), что вполне соответствует ситуации в мире.

Средняя сумма заработной платы

Зарплата также существенно варьируется в зависимости от квалификации и опыта работы.

Что интересно, средняя зарплата стажера составляет 76 тыс. рублей. Младшие специалисты (Junior) получают в среднем 108 тыс., в то время как специалисты (Middle) незначительно больше 129 тыс. Однако разрыв между старшими специалистами (Senior) и остальными очень существенный, на этом уровне средняя зарплата приближается к 186 тыс.

в среднем зарабатывает
старший специалист

Средняя сумма заработной платы

Ситуация с опытом не такая очевидная, как в случае квалификации. Работники с опытом более 10 лет имеют среднюю зарплату в 120 тыс., что значительно уступает другим категориям, кроме совсем начинающих (с опытом менее 1 года). Дело в том, что респондентов с таким опытом набралось очень мало — всего 8 человек, и 6 из них используют R.

Этому есть вполне понятная причина, ведь язык Python стал популярен среди специалистов по анализу данных менее 10 лет назад, тогда как R занимал абсолютно доминирующую позицию в этой области долгие годы, уступив Python сравнительно недавно.

В остальном с большим отрывом лидируют специалисты со стажем от 6 до 10 лет, зарабатывая 221 тыс. рублей. Респонденты со стажем от 3 до 6 лет получают в среднем 158 тыс. Начинающие могут рассчитывать на 107 тыс., а специалист с опытом от 1 до 3 лет может рассчитывать уже на 145 тыс.

Средняя сумма заработной платы

Спасибо, что уделили нам время!
Мы надеемся, что эта инфографика оказалась для вас полезна.

Результаты исследования показались вам интересными? Поделитесь этим отчетом с друзьями и коллегами

Если у вас есть вопросы по данному исследованию или предложения на будущее, пишите нам на почту survey@jetbrains.com.

Мы будем рады получить ваши отзывы и комментарии, чтобы в следующий раз сделать свою работу еще лучше.

Что востребовано в Data Science в 2020 году

В опросе смешалось всё: языки, приложения, пакеты, библиотеки. Но несмотря на хаос, распределение красноречиво говорит о том, за что надо взять на вооружение в наступившем году, если вы хотите достигнуть высот в Data Science. Давайте остановимся на каждом пункте чуть подробнее.

Python

Использует: 52,6 % всех опрошенных.

Динамика роста: +15 % за последний год.

Самодостаточность (процент опрошенных, кто пользуется только этим инструментом): 0,2 %.

Python показывает хорошую динамику: если в прошлом году он уступал первое место R, то в этом – перегнал своего главного конкурента. Востребованным язык делает его простота и большое количество библиотек, лидером – универсальность. Это можно проследить на примере других представителей рейтинга, среди которых «профильные» Tensorflow, scikit-learn, Anaconda.

Динамика роста: +6,4 %.

До прошлого года R возглавлял рейтинг наиболее используемых в Data Science языков. Причина схожа с Python – благодаря простому синтаксису, по сути системе команд, с R очень легко работать даже далёкому от программирования человеку.

SQL Language

Динамика роста: -1,8 %.

Некогда главный инструмент для взаимодействия с базами данных постепенно утрачивает авторитет. Главная причина – конкуренты, которые постоянно обрастают новыми функциями и библиотеками. SQL же всё такой же простой инструмент для взаимодействия с БД, с которым приходится прощаться, когда речь заходит о действительно больших данных.

RapidMiner

Динамика роста: +0,7 %.

Самый высокий рейтинг самодостаточности в рейтинге понятен каждому, кто представляет, что такое RapidMiner. Это электронный конструктор, позволяющий любому учёному или математику, не зная программирования, при помощи блоков рассчитать любые данные, построить модели, составить таблицы, импортировать и экспортировать данные. Огромная популярность обусловлена тем, что это, пожалуй, самый совершенный Open Source проект в Data Science, в то время как закрытые аналоги (LabView, Simulink) требуют огромных затрат.

Excel

Динамика роста: -16 %.

Главное отличие начинающего специалиста Data Science от рядового юзера – представление о том, какие данные можно называть большими. Excel в этой области лишь один из вспомогательных инструментов, далеко не самый удобный. И кажется, что с каждым годом его функциональность лишь падает. Тем не менее, более четверти опрошенных используют его для простых операций – фильтрации, сортировки, просмотра таблиц, создания простых макросов.

Spark

Динамика роста: +5,3 %.

Фреймворк, работающий на Java Virtual Machine, поддерживает языки Java, Python, Scala и R. Вы можете прикрутить надстройки для машинного обучения, создания графов или обработки потоковых данных. Больше подойдёт уже готовым программистам, с хорошим знанием одного из профильных языков, которым требуется обрабатывать большие выборки.

Anaconda

Динамика роста: +37 %.


Отличный дистрибутив, содержащий все базовые библиотеки Python, в том числе предназначенные для обработки и визуализации данных. При этом Anaconda – продукт общего пользования, а не инструмент Data Science, поэтому рассчитывать на какие-то бонусы в работе не стоит.

Tensorflow

Динамика роста: +195 %.

Запущенная в 2015 году программная платформа от Google является одним из самых стремительно развивающихся продуктов в области. Предназначен для работы с нейронными сетями глубинного обучения, но, в отличие от конкурентов, прост и понятен в использовании. Позволяет создавать отдельные кодовые блоки на Python, Haskell, Java, Go или C++, графически объединять их в системы, управлять входными и выходными данными.

Scikit-learn

Динамика роста: +13 %.

Python-библиотека, направленная на машинное обучения. Расширяет возможности двух других библиотек – NumPy и SciPy, поэтому предварительно придётся освоить их. Scikit содержит специализированные функций для перебора, фильтрации, классификации, позволяющих реализовать сложные алгоритмы всего в нескольких строках кода.

Tableau

Динамика роста: +5 %.

Tableau – бизнес-инструмент для создания аналитических отчётов, графиков и гистограмм. В своей сфере – одно из самых производительных решений, позволяющее оперативно выкладывать данные на сервер или сайт, управлять ботами, организовывать рассылки и многое другое. И всё это внутри продукта.

KNIME

Динамика роста: + 6,3 %.

Аналог RapidMiner, позволяющий любому человеку, не знающему программирование, да и вообще не очень опытному пользователю компьютера, при помощи блоков и стрелочек выполнять сложные математические операции. Имеет значительные ограничения в настройках готовых блоков, но позволяет создавать свои скрипты в R или Python. Поэтому следующим шагом в развитии станет изучение этих языков.

Помимо участников этого рейтинга стоит обратить внимание на другой – с самыми прогрессирующими в плане популярности инструментами Data Science. Выглядит он так:

Топ-9 примеров использования Data Science в банковской сфере

Использование Data Science в банковской сфере — это больше, чем тенденция, поэтому стало необходимостью идти в ногу с конкурентами. Банки должны понимать, что технологии big data могут помочь им эффективно распределить свои ресурсы, принять более разумные решения и повысить производительность.

Ниже представлен список примеров использования data science в области банковской деятельности, которые мы объединили, чтобы дать вам представление о том, как вы можете работать с большими объемами информации и как эффективно использовать их.

Обнаружение мошенничества

Machine learning имеет решающее значение для эффективного обнаружения и предотвращения мошенничества в использовании кредитных карт, в бухгалтерском учете, в страховании и т. д. Заблаговременное обнаружение мошенничества в банковской сфере имеет важное значение для обеспечения безопасности клиентов и сотрудников. Чем раньше банк обнаруживает мошенничество, тем быстрее он может ограничить доступ к банковскому счету, чтобы минимизировать потери. Внедряя ряд схем обнаружения мошенничества, банки могут обеспечить необходимую защиту и избежать значительных потерь.

Мастер Йода рекомендует:  Что произошло в сфере IT-безопасности в 2020 году — утечки, атаки, майнинг и мемный хакинг

К ключевым моментам обнаружения мошенничества относятся:

  • Получение выборок данных для оценки модели и предварительного тестирования;
  • Оценка модели;
  • Стадия тестирования;

Поскольку наборы данных всегда разные, каждый требует индивидуальной подготовки и корректировки Data scientist’ами. Преобразование глубоких теоретических знаний в практическое применение требует опыта в методах интеллектуального анализа данных, таких как объединение, кластеризация, прогнозирование и классификация.

Наглядным примером обнаружения мошенничества с помощью использования Data Science является случай, когда осуществляются большие транзакции, и система предотвращения мошенничества банка настроена на то, чтобы приостановить их, пока владелец счета не подтвердит сделку. Для новых учетных записей данная система может исследовать нетипично дорогие покупки популярных товаров или несколько учетных записей, открытых за короткий период с аналогичными данными.

Управление данными клиента

Банки вынуждены собирать, анализировать и хранить огромные объемы данных. Но вместо того, чтобы рассматривать это как обязательное условие для выполнения банковских операций, средства машинного обучения и сбора данных могут превратить это в возможность узнать больше о своих клиентах, чтобы стимулировать новые возможности получения дохода.

В настоящее время банковское обслуживание в электронной форме становится все более популярным и широко используемым. Это создает терабайты данных о клиентах, поэтому первым шагом Data scientist’ов является выделение необходимых данных. После этого, имея информацию о поведении пользователя и его предпочтениях, Data scientist’ы с помощью точных моделей машинного обучения могут открыть новые возможности получения доходов для банков, изолируя и обрабатывая конкретно эту информацию для принятия бизнес-решений.

Моделирование рисков для инвестиционных банков

Моделирование рисков является приоритетом для инвестиционных банков, поскольку оно помогает регулировать финансовую деятельность и играет самую важную роль при определении тарифов финансовых инструментов. Инвестиционно-банковская деятельность оценивает стоимость компаний для создания капитала корпоративного финансирования, содействия слияниям и поглощениям, проведения корпоративной реструктуризации или реорганизации, а также в инвестиционных целях.

Вот почему моделирование рисков представляется чрезвычайно важным аспектом для банков и лучше всего осуществляется при наличии большего объема информации и информационных инструментов. Теперь, благодаря способностям Big Data, новаторы в банковской деятельности используют новые технологии для эффективного моделирования рисков и, следовательно, принимают более взвешенные решения.

Персонализированный маркетинг

Ключом к успеху в маркетинге является создание индивидуального предложения, которое соответствует потребностям и предпочтениям конкретного клиента. Аналитика данных позволяет создавать персонализированный маркетинг, который предлагает нужный продукт нужному человеку в нужное время на нужном устройстве. Работа с данными широко используется для целевого отбора с намерением определить потенциальных клиентов для нового продукта.

Data scientist’ы используют поведенческие, демографические и исторические данные о приобретении товара с целью создания модели, которая прогнозирует ту или иную реакцию клиента на продвижение или предложение. Таким образом, банки могут совершить эффективную персонализированную работу с информацией о клиентах и, тем самым, улучшить свои отношения с ними.

Прогноз продолжительности жизни

Величина жизненного цикла клиентов (CLV) является прогнозом показателя прибыли, которую получит бизнес в результате взаимодействия с пользователями на протяжении жизни. Важность данной величины быстро растет, так как она помогает создавать и поддерживать выгодные отношения с отдельными клиентами, что повышает прибыльность и рост бизнеса.

Привлечение и удержание прибыльных клиентов является все более острой проблемой для банков. По мере усиления конкуренции, банки теперь нуждаются во всестороннем представлении каждого клиента, чтобы эффективно концентрировать свои ресурсы. Вот где вступает в действие data science. Поскольку необходимо учитывать, что требуется проанализировать большой объем данных, таких как: обзор новых и ушедших клиентах, использование разнообразных банковских продуктов и услуг, их объем и окупаемость, а также другие характеристики, включая географические, демографические и рыночные показатели.

Кроме того, требуются постоянное обновление, сортировка и прочие манипуляции с этими данными, чтобы они сохраняли свою значимость и актуальность. В арсенале data scientist’ов есть много инструментов и подходов для разработки модели CLV, такой как обобщенные линейные модели (GLM), поэтапная регрессия, классификация и деревья регрессии (CART). Создание прогностической модели для определения будущих маркетинговых стратегий на основе CLV — бесценный процесс, в результате которого банкам удается добиться поддержания прочных отношений с клиентами в течение всего жизненного цикла, что приводит, опять же, к повышению прибыльности и росту банка.

Аналитика в режиме реального времени и прогноза

Растущее значение аналитики в банковской сфере нельзя недооценивать. Алгоритмы машинного обучения и приемы data science могут значительно улучшить стратегию развития банка, поскольку каждая банковская операция тесно связана с аналитикой данных. Так как доступность и разнообразие информации быстро растут, аналитика становится более сложной и скрупулезной.

Потенциальная ценность имеющейся информации поразительна: количество значимых данных, отражающих конкретные факты, существенно выросло за последние несколько лет, в то время как затраты на их переработку снижаются. Отличие действительно релевантных данных от прочей информации способствует эффективному решению проблем и принятию более разумных стратегических решений. Аналитика в реальном времени помогает понять проблему, которая удерживает бизнес, в то время как интеллектуальная аналитика помогает в выборе правильной техники для ее решения. Значительно лучшие результаты могут быть достигнуты путем интеграции аналитики в рабочий процесс банка, чтобы заранее избежать потенциальных проблем.

Сегментация клиентов

Сегментация означает выделение групп клиентов на основе их поведения (для поведенческой сегментации) или конкретных характеристик (например, региона, возраста, дохода для демографической сегментации). В арсенале data scientist’ов есть множество методов, таких как кластеризация, деревья решений, логистическая регрессия и т.д., которые помогают изучать CLV каждого сегмента клиентов и выявлять наиболее и наименее ценные из них.

Нет необходимости доказывать, что такая сегментация пользователей позволяет эффективно распределять маркетинговые ресурсы и подбирать индивидуальный подход к каждой группе клиентов. Стоит помнить, что сегментация клиентов призвана улучшить их обслуживание и помочь в формировании лояльности и удержании, что так необходимо для банковского сектора.

Cистемы рекомендаций

Инструменты data science и machine learning могут создавать простые алгоритмы, которые анализируют и фильтруют деятельность пользователя, чтобы сделать наиболее актуальное для него предложение. Такие механизмы с рекомендациями демонстрируют элементы, которые могут заинтересовать пользователя, даже до того, как он сам его искал. Чтобы создать механизм рекомендаций, data scientist’ы анализируют и обрабатывают много информации, идентифицируют профили клиентов и охватывают данные, показывающие их взаимодействия, чтобы избежать повторения предложений.

Тип рекомендуемых систем зависит от метода фильтрации алгоритма. Совместные методы фильтрации могут быть основаны либо на пользователе, либо на элементах, и работать с поведением клиента для анализа предпочтений других пользователей, а затем давать рекомендации новому клиенту. Основная трудность применения метода совместной фильтрации заключается в использовании огромного количества данных, что создает проблему сложности вычислений и увеличения затрат.

Фильтрация на основе контента работает с более простыми алгоритмами, которые рекомендуют аналогичные элементы тем, с которыми пользователь взаимодействовал в предыдущей деятельности. Эти методы могут терпеть неудачу в случае сложного поведения или неясных связей. Существует также гибридный тип систем, сочетающий совместную и контентную фильтрацию.

Никакой метод не является универсальным, у каждого из них есть свои плюсы и минусы, и правильный выбор зависит от целей и обстоятельств.


Служба поддержки

Выдающаяся служба поддержки — это ключ к сохранению продуктивных долгосрочных отношений с клиентами. В рамках обслуживания пользователей, поддержка является важной, но общей концепцией в банковской сфере. Фактически, все банки являются сервисными предприятиями, поэтому большая часть их деятельности включает в себя элементы обслуживания, что представляет собой подробные и своевременные ответы на вопросы и жалобы клиентов, а также взаимодействие с ними.

Data science делает этот процесс более автоматизированным, точным, продуктивным и менее затратным в отношении рабочего времени сотрудников.

Вывод

Этот список вариантов использования Data science в банковской сфере может расширяться каждый день благодаря динамично развивающейся области научных исследований и возможности применять модели машинного обучения к реальным данным, получая все более точные результаты.

Чтобы получить конкурентное преимущество, банки должны признать решающее значение Data Science, интегрировать ее в процесс принятия решений и разработать стратегии, основанные на анализе информации, полученной от своих клиентов. Начните с небольших шагов, чтобы включить аналитику Big Data в свои рабочие модели и быть впереди конкурентов!

Найти себя: топ-10 профессий для эксперта по data science

Исследователь данных

Разумеется, это первый пункт в списке. «Классический» data scientist работает с предиктивными моделями, формируя прогнозы и гипотезы о развитии явлений. Специалисты по машинному обучению разрабатывают продвинутые аналитические системы, которые могут сами накапливать опыт. Такие люди двигают бизнес вперед, помогая компаниям лучше понимать собственные процессы и ближе узнавать клиентов. Что немаловажно, они умеют представлять свои открытия в наглядном и понятном виде, поэтому успешные дата-сайентисты считают самыми важными навыки коммуникации.

Архитекторы данных

В этой сфере лучше всего себя чувствуют профессионалы, пришедшие в data science из бизнес-аналитики. Вместе с разработчиками и программными дизайнерами архитекторы создают системы для управления, интеграции и поддержки множества источников неструктурированных данных. Они увязывают между собой разные форматы и придумывают сложные структуры, на которых потом вырастают целые бизнес-направления. Такая профессия требует стратегического подхода к решению задач и способности планировать развитие продукта на годы вперед.

Эксперт по машинному обучению

Умные системы распознавания, онлайн-помощники, рекомендательные сервисы — это будущее, которое наступает на наших глазах. Одни специалисты по машинному обучению создают алгоритмы, которые позволяют таким сервисам работать с огромными массивами данных и предлагать человеку варианты необходимых решений. Другая когорта ML-экспертов отвечает за внедрение продвинутых ботов у заказчиков, интеграцию данных и поддержку ПО.

Бизнес-аналитик

Этот человек может взглянуть на технологические задачи с точки зрения бизнеса — и наоборот. Нередко такой специалист и связывает заказчиков системы с разработчиками, делая так, чтобы они понимали друг друга и вместе двигали проект. Сильная черта бизнес-аналитиков — их способность проследить в данных развитие тех или иных тенденций и соотнести их с целями всей компании. Для этого они используют статистические модели и гибкие системы визуализации данных.

Аналитик данных

В отличие от своих бизнес-ориентированных коллег, data analyst глубже погружен в технические вопросы проекта. Он пишет код на С и Python, создавая для своей команды всевозможные инструменты для преобразования данных в нужный формат и вид. В его ведении также находятся вопросы бесперебойной работы хранилищ и интеграции информации в бизнес-процессы.

Статистик

Если математика — это царица наук, то статистика — повелительница data science. Задолго до появления высокопроизводительных аналитических систем люди погружались в информацию, чтобы понять происходящие явления. Сегодня статистики решают те же задачи с применением огромных вычислительных мощностей. Экспертиза в data science, владение высокоуровневыми языками программирования и профильным софтом позволяют этим экспертам формировать ценные прогнозы, которые компании используют для поиска новых источников прибыли.

Инженер данных

Эти специалисты создают масштабные приложения и информационные системы для внутренних и внешних пользователей. Они отвечают за прикладную часть решений big data, сопровождая свой продукт на всем пути развития. Эти задачи требуют от специалиста не только математических познаний, но и навыков программной разработки, желательно — в области интернет-технологий.

Администратор баз данных

В наше время от того, как работают хранилища данных, зависит множество важных процессов. Динамическое обновление онлайн-витрин, оперативная выгрузка отчетов, поддержка проектных команд из разных городов — все это возможно только при правильной организации информационных потоков. Эксперт по управлению данными лучше всех справляется с такой задачей, предотвращая конфликты между разными сервисами и обеспечивая пользователей нужным набором функций.

Эколог данных

Закономерное развитие всей области управления данными — необходимость поддерживать порядок в базах и архивах, бороться с излишней, дублированной и поврежденной информацией. Дата-экологи помогают компании меньше тратить на системы хранения и быстро предоставлять нужные данные для всех корпоративных подразделений.

Специалист по визуализации данных

Лучших дата-сайентистов отличает способность «рассказать историю» через данные — показать проблему под нужным углом и представить пути решения с учетом аудитории. Способность объяснить квантовую физику первокласснику и владение системами визуализации могут в некоторой степени компенсировать пробелы в навыках программирования. Особенно если эксперт хорошо чувствует себя при работе со статистикой.

Мнения топовых людей из индустрии Data Science о развитии отрасли

Выполнение задачи по продлению жизни человека и улучшению ее качества потребует специалистов самого широкого профиля: от врачей, лечащих больных на расстоянии, и персональных менеджеров здоровья до профессионалов в области генетики и трансплантологии.

2. Оператор удаленной хирургии

3. Эксперт по индивидуальной фармакологии

4. Персональный менеджер по микробиому человека

5. Разработчик киберпротезов и имплантов

6. Специалист по имплантам мозга

7. Создатель частей тела и органов

9. Специалист по биохакингу и программируемому здоровью

10. Оператор медицинских роботов

Отрасль, стоящая на стыке живой и неживой природы, обещает, по мнению экспертов, безграничные возможности по созданию совершенно новых микроорганизмов, которые позволят совершить значимые прорывы в медицине и энергетике, в производстве сырья и материалов, приведут к кардинальным переменам в сельском хозяйстве и появлению автономных экосистем на месте задыхающихся от мусора мегаполисов. И да, биотехнологам будущего наверняка будут поступать заказы возродить обитателей Земли из далекого прошлого, хоть из того же Юрского периода.

11. Архитектор живых систем

12. Инженер в области синтетической биологии

13. Проектировщик киберорганизмов

14. Создатель микроорганизмов с заданными функциями

15. Специалист по возрождению вымерших видов

Одно из древнейших занятий человечества ждут большие перемены: современные технологии — генетика, 3D-печать, искусственный интеллект и роботы — освободят миллионы людей, занятых в сельском хозяйстве, от тяжелого физического труда, перенесут выращивание овощей и фруктов с полей в мини-фермы на крышах городских многоэтажек и навсегда снимут проблему массового забоя скота — мясо, выращенное в пробирке из одной клетки животного или распечатанное на 3D-принтере, повторит все вкусовые качества оригинала.

17. Инженер по 3D-печати продуктов питания

18. Оператор автоматизированной сельхозтехники

20. Специалист по искусственному выращиванию мяса

Специалисты, занятые охраной окружающей среды, в скором будущем будут влиять на локальную погоду и глобальный климат, станут с умом и выгодой бороться с загрязнением планеты и даже научатся давать точные краткосрочные прогнозы по землетрясениям и другим стихийным бедствиям.


21. Оператор «умной» переработки мусора

22. Инженер по управлению погодой

23. Специалист по изменению климата

24. Эксперт по точному предсказанию землетрясений

Энергетика и ресурсы

Чем быстрее истощаются полезные ископаемые, тем энергичнее человечество будет искать им замену и вместе с этим специалистов, которые смогут управлять роботами-шахтерами, научат одежду и обувь производить тепло и электричество, переведут электростанции с мазута и газа на ветер и солнечный свет и наконец-то укротят термоядерный синтез. Впрочем, эксперты в ближайшие годы наверняка пополнят список альтернативных видов энергии новыми источниками, и, может быть, светлое будущее Земли кроется в темной энергии?

25. Консультант по альтернативным видам энергии

26. Оператор подземных дронов-проходчиков

27. Разработчик систем микрогенерации энергии

28. Дизайнер носимых энергоустройств

29. Специалист по управляемому термоядерному синтезу

Новые чистые материалы, робототехника и искусственный интеллект превратят планирование и строительство домов и целых городов в увлекательное занятие для профессионалов, не наигравшихся в LEGO: здания будут собирать из готовых «кубиков» или распечатывать за считаные часы на 3D-принтере хоть на дне морском, а заказ «умной» начинки для дома станет для новоселов такой же обыденностью, как подбор обоев и штор.

30. Архитектор «зеленых» городов

31. Проектировщик инфраструктуры «умного» дома

32. Строитель подводных городов

33. Архитектор энергоавтономных зданий

34. Проектировщик 3D-печати в строительстве

Безопасность, экологичность и ИИ-логистика — вот основные движители перемен в транспортной сфере будущего: беспилотные морские и воздушные лайнеры будут удаленно управляться наземными службами, а водители городского транспорта будут заправлять свои авто новыми видами топлива, находить кратчайший путь по подсказке «умных» дорог и буквально облетать по воздуху редкие пробки.

35. Проектировщик новых видов транспорта

36. Автозаправщик альтернативными видами топлива

37. Разработчик «умных» дорог

38. Профессиональный пилот дрона

39. Оператор автономных морских судов

40. Инструктор летающих автомобилей

41. Регулировщик движения беспилотного автотранспорта

42. Юрист в сфере беспилотного транспорта

Уже сегодня можно представить, какое значение во всех сферах жизни и деятельности человека будут иметь разработки нанотехнологов: от появления в быту и на производстве новых материалов с заданными свойствами и программируемым поведением до создания невидимых глазу роботов и революционных технологий по обнаружению микроскопичных следов на месте преступления.

44. Разработчик «умных» и композитных материалов

45. Проектировщик нанороботов

Модная индустрия будущего будет напрямую зависеть от достижений в смежных высокотехнологичных областях: так, специалисты легкой промышленности научат обувь и одежду подзаряжать многочисленные гаджеты и датчики, встроенные в повседневный гардероб, заставят джинсы и кроссовки «стираться» на ходу и дадут возможность печатать себе одежду точно по собственной фигуре.

47. Дизайнер «умной» одежды и обуви

49. Персональный портной для 3D-печати одежды

С каждым годом человек все активнее будет перекладывать на плечи роботов всю тяжелую, опасную, монотонную и сверхточную работу на производстве, в медицине и в быту. Однако успех глобальной роботизации будет напрямую связан с успехами в работе робототехников — тех людей, которые будут придумывать и давать «профессию» «умным» помощникам, сопровождающим человека от рождения и до глубокой старости.

50. Инженер домашних роботов

51. Проектировщик роботов для детей

52. Разработчик медицинских роботов

53. Создатель боевых роботов

54. Юрист в сфере робототехники

Отрасль экономики, развивающаяся наиболее быстрыми темпами, сфера информационных техно-логий гарантирует рабочие места специалистам самого широкого профиля — от проектировщиков интернета вещей и чистильщиков облачных хранилищ от цифрового мусора до мастеров по пере-носу информации из мозга человека на внешние носители и психологов, которые помогут нам со-хранить идентичность в эпоху господства цифровых клонов.

Мастер Йода рекомендует:  Тестирование и отладка Node-приложений в Docker-контейнерах

55. Разработчик интернета вещей

56. Специалист в сфере квантовых вычислений

57. Квантовый криптолог

58. Проектировщик нейроинтерфейсов

59. Инженер по оцифровке и хранению памяти

60. Консультант по снятию цифровой зависимости

61. Создатель цифровых двойников

62. Специалист по ИТ- и ИИ-этике

63. Утилизатор цифрового мусора в сфере Big Data


По мере расцвета информационных технологий проблема обеспечения безопасности потребует появления специалистов нового типа — тех, кто будет помогать сохранять в неприкосновенности личные данные отдельных людей и корпоративные секреты целых компаний, кто сможет скорректировать цифровое прошлое человека и обезопасить будущее от фейковых новостей.

64. Проектировщик личной безопасности

65. Специалист по кибербезопасности

66. Стиратель цифровых следов

67. Контролер достоверности новостного контента (медиаполицейский)

Бизнес и финансы

Малопонятные большинству современников понятия «блокчейн» и «криптовалюта» станут вскоре обыденным явлением в финансах и бизнесе, оперировать которыми будут профессионалы цифровых обменников и банков. Впрочем, помимо виртуальных денег особую ценность приобретут в будущем такие активы и валюты, как время, интеллектуальная собственность и даже секреты по мотивации сотрудников на работу в новых конкурентных условиях.

68. Активатор корпоративной конкурентной среды

69. Консультант по цифровой трансформации компаний

70. Операционист криптовалютного банка

71. Оценщик интеллектуальной собственности

73. Эксперт по блокчейн-развитию бизнеса

В деле овладения знаниями и профессиональными навыками общеобразовательная система обучения неизбежно будет уступать место персональному подходу к каждому ученику и студенту, чьи таланты и способности будут распознавать и развивать еще с раннего возраста педагоги и наставники будущего.

74. Автор образовательных курсов на базе ИИ

75. Интегратор междисциплинарных знаний

76. Эксперт по «образу будущего» ребенка

77. Персональный гид по образованию и карьерному росту

78. Программист бот-учителей

79. Тренер по майнд-фитнесу

80. Эксперт по поиску и развитию талантов

Культура и масс-медиа

В работе специалистов по развлечению и информированию людей все более интересную роль будет играть не столько контент, сколько форма его подачи на стыке реальных и выдуманных миров, а также совместное творчество деятелей культуры и искусственного интеллекта.

81. Дизайнер виртуальной реальности

82. Инженер дополненной реальности

86. Оператор голографического вещания

87. Продюсер телепрограмм смешанной реальности

88. Агрегатор персональных новостей (narrowcaster)

Далеко не каждый человек сможет уверенно поспевать за переменами, которые ждет мир на пороге новой реальности. На помощь им должны прийти специалисты, которые позволят найти общий язык с продвинутыми современниками и «умными» машинами, а также отметить столетний юбилей в полном здравии и с деятельными планами на долгие годы вперед.

89. Психолог по адаптации к новой реальности

90. Сетевой юрист

91. Цифровой лингвист-переводчик

92. Эксперт по взаимодействию людей и машин

93. Менеджер по отсроченной старости

То, о чем так долго мечтали фантасты, может свершиться уже в ближайшие десятилетия — человечество приступит к завоеванию далекого космоса.

94. Пилот коммерческих космических кораблей

95. Гид в сфере космического туризма

96. Разработчик полезных ископаемых в космосе

97. Уборщик космического мусора

99. Проектировщик внеземных поселений

100. Специалист по терраформированию планет

Тенденция: большие данные в науке

Научная карьера и стабильная зарплата — можно ли их совместить?

Кредиты под залог интеллектуальной собственности — для МСП и не только

Премии Horizon Prizes: €1-10 млн от ЕС за прорывные инновационные технологии

В эпоху больших данных каждая научная дисциплина должна найти способ решения проблем, связанных с хранением, обработкой и интерпретацией больших объемов информации. Результаты научных наблюдений накапливаются в цифровом виде, поэтому управление и обмен данными становятся все более важными составляющими работы ученых.

13 сентября на 5-ой конференции по анализу больших данных Big Data Conference 2020 участники научного трека будут рассказывать о своих исследованиях, основанных на больших данных, в различных научных сферах. Параллельно на технологическом и бизнес-треке будут обсуждать использование анализа данных для развития организаций.

Есть ли наука, в которой еще не назрела необходимость использовать большие данные?

Большие данные в субъядерной физике


В физике большие данные, например, широко используются для изучения элементарных частиц. В ЦЕРНе (CERN, Европейский центр ядерных исследований, Женева) с помощью технологий машинного обучения обрабатывают информацию, полученную с адронного коллайдера. Коллайдер сравнивают со 100-мегапиксельной цифровой камерой, которая за одну секунду делает 40 миллионов электронных «снимков» сталкивающихся протонных сгустков. Чтобы сохранить объем данных в разумных пределах, изображения, которые не содержат значимых сведений, немедленно выбрасываются. Перед исследователями стоит сложная задача сохранить только интересные картинки для дальнейшего анализа и фильтрации, и нужно быть очень осторожными при отсеивании. Например, бозон Хиггса может появиться только на одном снимке из 100 миллиардов, и как только он исчезнет, он исчезнет навсегда.

На следующем этапе необработанная информация преобразуется в данные, пригодные для физического анализа, и сохраняется на дисках и лентах для следующих поколений. Все эти данные помещаются во всемирную вычислительную сеть Большого адронного коллайдера (Worldwide LHC Computing Grid, WLCG), состоящую из 167 вычислительных сайтов, расположенных в 42 странах и содержащих более 200 петабайт (200 000 терабайт) в 1 миллиарде файлов.

Большие данные в материаловедении

Новые технологии работы с данными меняют и материаловедение. Всего лишь в 1998 году Вальтер Кон и Джон Поупл получили Нобелевскую премию за разработку алгоритма, моделирующего молекулы на основании законов квантовой механики и позволяющего повысить точность расчета их молекулярной структуры и химической реактивности. Эта методика позволяет предсказывать структуру и электрические свойства металлов и их оксидов, но точность резко падает в случае сложных соединений, а время расчета сложных соединений на суперкомпьютерах исчисляется месяцами и годами. А теперь те же самые задачи решаются на облачных данных и использованием технологий обработки больших объемов информации для выявления паттернов и закономерностей. Для желающих делать эксперименты «в цифре» уже доступны большие открытые массивы данных (например, в рамках американского Materials project и европейского проекта Novel Materials Discovery Laboratory).

Большие данные в астрофизике

Астрофизики тоже возлагают большие надежды на системы распознавания и анализа изображений. Ключевая проблема текущего состояния науки заключается в том, что в космос огромен, а возможности человека по обработке результатов наблюдений — ничтожно малы в сравнении с объемом данных. Для примера, строящийся в Чили телескоп будет производить порядка 15 терабайт информации за одну ночь наблюдений. Никакая команда ученых не сможет работать с таким количеством данных.

Одна из задач наблюдения за небом — поиск гравитационных линз. Хотя до недавних пор большинство линз обнаруживались по счастливой случайности, астроном Карло Энрико Петрилло с коллегами натренировали искусственный интеллект для поиска тех самых гравитационных линз, и результаты команды поражают. Очень внимательный и эффективный исследователь может просматривать порядка тысячи снимков в час, а нужный объект обнаруживается с частотой примерно один раз на 30 000 галактик. То есть человек, работающий неделю без сна и отдыха, смог бы найти порядка 5-6 линз за свою жизнь. Нейронная сеть команды Петрилло всего за 20 минут анализирует 21 789 снимков всего лишь на мощностях одного старенького компьютера. Конечно, пока точность компьютерного интеллекта не абсолютная. Но из отобранных компьютером 761 потенциальных гравитационных линз, люди выбрали 56 наиболее вероятных, после чего их уже проверяют посредством наблюдений. Предполагают, что до трети из них могут оказаться гравитационными линзами, то есть при работе в режиме нон-стоп нейронная сеть позволит находить одну линзу в минуту, при том, что за последние 40 лет ученые обнаружили всего чуть больше ста таких объектов.

Большие данные в генетике

В генетике работа дата-сайентистов (от англ. data science) становится определяющей в дальнейшем развитии проектов, от расшифровки человеческих генов для прогнозирования заболеваний или наклонностей к спорту до создания виртуальных (а после и реальных) моделей растений. Из последних достижений этой отрасли знаний можно отметить завершение расшифровки генома хлебной пшеницы. Этот злак оказался намного сложнее для расшифровки, чем, например, рис, соя или кукуруза, геном которых уже расшифрован. Работа над этой задачей продолжалась 13 лет. Не удивительно, ведь геном пшеницы состоит из 16 млрд. пар оснований, тогда как человеческий — всего из 3 млрд. Есть уже и первые практические наработки, использующие данные о геноме. Например, в одном из исследований ученые смогли определить гены, активные во время стрессовых ситуаций. Усиливая эти гены при селекции, возможно вывести сорта, дающие лучший урожай в плохих условиях — например, при засухе.

Большие данные в гуманитарных науках

Важную роль большие данные играют и в гуманитарных науках. Например, команда психолога из центра позитивной психологии университета Пенсильвании Мартина Селигмана провела несколько экспериментов по анализу сообщений в Facebook и Twitter. В ходе одного из исследований, ученые проанализировали 148 миллионов твитов для предсказания уровня смертности от сердечных заболеваний в одном из округов США. Слова, связанные со злостью и негативным отношением, оказались факторами риска. Более того, данный прогноз оказался точнее, чем тот, что был сделан на основе 10 обычных риск-факторов — таких как курение или сахарный диабет. В дальнейшем с помощью этой технологии была составлена карта рисков, где по округам отмечены уровни благополучия, депрессии, доверия и других состояний.

Анализ текстовых сообщений в интернете требует плотной работы с лингвистами, в свою очередь предоставляя им множество данных для анализа: изменение языка и стиля общения, проникновение сленгов и отмирание понятий. Всестороннее влияние больших данных на деятельность человека — часть новое глобальной эпохи «Индустрия 4.0».

Большие данные и сетевой эффект

Рост количества данных предъявляет новые требования не только к квалификации ученых, но и к материальному обеспечению исследований. Сохранение данных имеет решающее значение для воспроизводимости научных результатов, а также обеспечения их доступности для широкой аудитории. Это приводит к важным вопросам о том, кто несет ответственность за эти данные, где их хранить, кто будет платить за хранение, как обеспечить безопасное использование. Кроме того, сохранения данных недостаточно, они также должны оставаться пригодными для использования будущими исследователями. А это не всегда легко обеспечить во времена, когда аппаратное и программное обеспечение может устареть в течение нескольких месяцев.

По мере того, как наука интегрирует информационные технологии в свои составные части, она наращивает « сетевой эффект » : между узлами в сети образуется гораздо больше связей, чем в традиционной линейной схеме, при которой ученый изолированно создает свои собственные данные, программное обеспечение и идеи. Сетевой эффект позволяет ускорить научный прогресс с экспоненциальной скоростью: не только данные, созданные одной командой, могут использоваться всем миром, но и новые стороны могут вносить свой вклад в создание программ и развитие идей. Таким образом, анализ больших массивов данных в 21 веке станет обязательным компонентом науки.

Материал подготовлен на основе сообщения пресс-службы Big Data Conference

Послушай умного человека: ТОП-10 подкастов по Date Science и Машинному Обучению

Единственный известный человечеству способ стать мастером своего дела — это учиться всегда, учиться везде. С появлением подкастов набираться новых знаний можно и в пробке, и в спортзале, да хоть на свидании (не рекомендуем).

Представляем вам топ подкастов по машинному обучению и data science. Порядок произвольный, знание английского обязательно. Кстати, первый, кто запустит такое шоу в Рунете, имеет неплохие шансы стать звездой.

Data Skeptic

Один из самых известных и популярных подкастов в нашей области. Счет эпизодов перевалил за две сотни. Выходит еженедельно, освещает data science, машинного обучения, статистики, искусственного интеллекта как такового. Не стесняются актуальных и общественно-важных тем вроде применения всех этих технологий в «фейк-ньюс».

Ведущие подробно разбирают темы каждой серии, позволяя слушателям познакомиться со всеми тонкостями существующих идей и технологий. Кроме того, у микрофона нередко оказываются видные профессионалы отрасли, которые предоставляют экспертное мнение по тем или иным вопросам.

Linear Digressions

Еще один еженедельный подкаст с парой ведущих. Темы те же, что и у «скептиков», хронометраж поменьше — полчаса. Особенность этой программы в том, что создатели подкаста дружат в «реальной жизни», поэтому у шоу очень приятная атмосфера.

Это помогает слушателям разобраться в сложных темах. Ведущие стараются подробно разбирать самые запутанные вопросы, объясняя их технологическую основу и показывая примеры практического применения. Учитывая небольшую длительность серий, получается удобоваримое резюме по каждой теме, после которого можно при желании копать глубже.

Talking Machines

Создательница этой передачи поставила себе целью популяризацию сложных технических материй, чтобы не допустить новой «зимы искусственного интеллекта». Так профессионалы отрасли называют угасание интереса к ИИ, который следует за периодом повального увлечения этими технологиями (как говорят в таких случаях, ВЫ СЕЙЧАС ЗДЕСЬ).

Эта цель обуславливает и подачу материала, которая оказывается легче, чем во многих других подобных передачах. Ведущие ориентируются не только на специалистов по ИИ, но и менее подкованных в технологиях слушателей — людей из бизнеса, аналитиков, простых любителей науки.

Большинство 40-минутных эпизодов построены по одной схеме: новости отрасли, интервью с гостем в студии, ответ на вопрос от слушателя. Поскольку основательница подкаста пришла с профессионального радио, у передачи отличная динамика. А ее со-ведущий обладает профессорской степенью, так что в конечном счете контент все равно отвечает научным критериям.

O’Reilly Data Show

Первый в нашем списке сольный подкаст. Ведущий работает ведущим дата-сайентистом в одной из компаний, и в каждой серии он приглашает на разговор кого-то из профессионалов отрасли.

Хронометраж составляет 30-40 минут, формат технологичный, но доступный. Стоит отметить, что в каждом выпуске ведущий говорит о каком-либо интересном мероприятии по темам подкаста. Так что если вы хотите познакомиться с крупнейшими деятелями data science в «естественной среде обитания», эта программа вам в этом поможет.

Data Stories

Создатели этого подкаста выбрали очень специфическую тему — визуализация аналитических данных. Учитывая, что оба ведущих профессионально занимаются этой темой, у слушателей есть уникальная возможность познакомиться с вопросами, о которых в открытых источниках говорят нечасто.

В каждом выпуске к микрофону приглашается гость, с которым идет разговор об аналитике и способах наглядного представления информации. Оба ведущих прекрасно умеют вести дискуссию и раскрывают каждого своего собеседника. Профессионалы могут почерпнуть тонкости мастерства, а люди, далекие от визуализации данных, — узнать, как сильно она влияет на нашу жизнь.

SuperDataScience

Этот подкаст ведет человек с приятным нашему уху именем — Кирилл Еременко. Тем не менее, программа англоязычная. Посвящена она проблемам карьеры в data science.

Ведущий приглашает в студию состоявшихся профессионалов и расспрашивает их о ключевых решениях, необходимых компетенциях и прочих поворотах историй карьерного успеха. Помимо основных серий, Еременко записывает так называемые «Пятничные пятиминутки» (Five Minute Friday), которые призваны замотивировать слушателей на развитие. Здесь он как рассуждает на общие темы, так и дает конкретные советы, как специалисту по машинному обучению зарядиться на успех.

Data Science at Home

Еще один подкаст, направленный на популяризацию ИИ и машинного обучения. По стилю он больше напоминает авторскую колонку, так что слушатели часто могут познакомиться с личными взглядами ведущего, состоявшегося эксперта по Data Science, на те или иные проблемы профессии.

Среди них — и технологические аспекты, и карьерные темы, и пресловутая «зима ИИ». У передачи нет строгого расписания и формата — в одних сериях ведущий размышляет один, в других к нему присоединяются коллеги. Первые эпизоды, как правило, составляют около 20 минут, вторые приближаются к часу.

This Week in Machine Learning & Artificial Intelligence

Эта еженедельная программа держит слушателей в курсе последних новостей в индустрии. Ведущий ориентируется на самую широкую аудиторию — от инженеров и исследователей машинного обучения до людей из бизнеса и простых энтузиастов.

Перед тем, как познакомиться с этим подкастом будет нелишним освежить свой технический бэкграунд — в отличие от многих других участников нашего списка, здесь создатели не делают слушателям скидок и ведут рассказ весьма хардкорно. Благодаря новостному формату архив передачи можно использовать в исторических целях, чтобы из будущего послушать, как к разным событиям мира ИИ относились их свидетели.

Читайте также

DataFramed

Ведущий этой программы совмещает работу дата-сайентиста с писательством и преподаванием. Поэтому ему удается дать аудитории широкую перспективу по самым разным вопросам науки о данных.

В студию к нему тоже приходят разносторонние люди, так что все разговоры получаются интересными и многогранными. Специальные рубрики посвящены кратким ликбезам по отдельным аспектам профессии. Если вы хотите понимать влияние искусственного интеллекта на неочевидные стороны нашей жизни или, например, узнать, как построить карьеру независимого дата-сайентиста, то вам точно будет интересно.


Artificial Intelligence in Industry

Еще одно еженедельное шоу по широким вопросам Data Science и общества. Интенсивные получасовые эпизоды наполнены беседам с ИИ-профессионалами, которые рассказывают о применении технологий в финансах, государственном управлении, образовании и так далее.

Ведущий стремится вызвать интерес у слушателей, которые захотят сами погрузиться в предмет. Как на любом первом уроке, поданную информацию очень просто понять, а вопросы, которые звучат в эфире, застревают в голове и требуют ответа.

Читайте также

Ура, бонус

Дочитали? Молодцы. Тогда держите еще несколько подкастов — эти уже на русском. Как мы говорили в начале, по Data Science передач пока нет, но интересный контент для IT-специалистов все же найти можно.

  • Moscow Python Podcast — проект сообщества пайтонистов, где профессионалы обсуждают вопросы разного уровня сложности.
  • Podlodka — этот подкаст ведут четыре специалиста из крупных IT-компаний, которые беседуют со своими гостями о мобильной разработке и прочих актуальных технологиях.
  • Радио-Т — наконец, нельзя не сказать о первом и главном IT-подкасте Рунета, хотя его, наверно, и так все знают. А если вы не знаете, то обязательно подпишитесь.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Мастер Йода рекомендует:  Преимущества индексации страниц с mod_rewrite

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Что востребовано в Data Science в 2020 году

В опросе смешалось всё: языки, приложения, пакеты, библиотеки. Но несмотря на хаос, распределение красноречиво говорит о том, за что надо взять на вооружение в наступившем году, если вы хотите достигнуть высот в Data Science. Давайте остановимся на каждом пункте чуть подробнее.

Python

Использует: 52,6 % всех опрошенных.

Динамика роста: +15 % за последний год.

Самодостаточность (процент опрошенных, кто пользуется только этим инструментом): 0,2 %.

Python показывает хорошую динамику: если в прошлом году он уступал первое место R, то в этом – перегнал своего главного конкурента. Востребованным язык делает его простота и большое количество библиотек, лидером – универсальность. Это можно проследить на примере других представителей рейтинга, среди которых «профильные» Tensorflow, scikit-learn, Anaconda.

Динамика роста: +6,4 %.

До прошлого года R возглавлял рейтинг наиболее используемых в Data Science языков. Причина схожа с Python – благодаря простому синтаксису, по сути системе команд, с R очень легко работать даже далёкому от программирования человеку.

SQL Language

Динамика роста: -1,8 %.

Некогда главный инструмент для взаимодействия с базами данных постепенно утрачивает авторитет. Главная причина – конкуренты, которые постоянно обрастают новыми функциями и библиотеками. SQL же всё такой же простой инструмент для взаимодействия с БД, с которым приходится прощаться, когда речь заходит о действительно больших данных.

RapidMiner

Динамика роста: +0,7 %.


Самый высокий рейтинг самодостаточности в рейтинге понятен каждому, кто представляет, что такое RapidMiner. Это электронный конструктор, позволяющий любому учёному или математику, не зная программирования, при помощи блоков рассчитать любые данные, построить модели, составить таблицы, импортировать и экспортировать данные. Огромная популярность обусловлена тем, что это, пожалуй, самый совершенный Open Source проект в Data Science, в то время как закрытые аналоги (LabView, Simulink) требуют огромных затрат.

Excel

Динамика роста: -16 %.

Главное отличие начинающего специалиста Data Science от рядового юзера – представление о том, какие данные можно называть большими. Excel в этой области лишь один из вспомогательных инструментов, далеко не самый удобный. И кажется, что с каждым годом его функциональность лишь падает. Тем не менее, более четверти опрошенных используют его для простых операций – фильтрации, сортировки, просмотра таблиц, создания простых макросов.

Spark

Динамика роста: +5,3 %.

Фреймворк, работающий на Java Virtual Machine, поддерживает языки Java, Python, Scala и R. Вы можете прикрутить надстройки для машинного обучения, создания графов или обработки потоковых данных. Больше подойдёт уже готовым программистам, с хорошим знанием одного из профильных языков, которым требуется обрабатывать большие выборки.

Anaconda

Динамика роста: +37 %.

Отличный дистрибутив, содержащий все базовые библиотеки Python, в том числе предназначенные для обработки и визуализации данных. При этом Anaconda – продукт общего пользования, а не инструмент Data Science, поэтому рассчитывать на какие-то бонусы в работе не стоит.

Tensorflow

Динамика роста: +195 %.

Запущенная в 2015 году программная платформа от Google является одним из самых стремительно развивающихся продуктов в области. Предназначен для работы с нейронными сетями глубинного обучения, но, в отличие от конкурентов, прост и понятен в использовании. Позволяет создавать отдельные кодовые блоки на Python, Haskell, Java, Go или C++, графически объединять их в системы, управлять входными и выходными данными.

Scikit-learn

Динамика роста: +13 %.

Python-библиотека, направленная на машинное обучения. Расширяет возможности двух других библиотек – NumPy и SciPy, поэтому предварительно придётся освоить их. Scikit содержит специализированные функций для перебора, фильтрации, классификации, позволяющих реализовать сложные алгоритмы всего в нескольких строках кода.

Tableau

Динамика роста: +5 %.

Tableau – бизнес-инструмент для создания аналитических отчётов, графиков и гистограмм. В своей сфере – одно из самых производительных решений, позволяющее оперативно выкладывать данные на сервер или сайт, управлять ботами, организовывать рассылки и многое другое. И всё это внутри продукта.

KNIME

Динамика роста: + 6,3 %.

Аналог RapidMiner, позволяющий любому человеку, не знающему программирование, да и вообще не очень опытному пользователю компьютера, при помощи блоков и стрелочек выполнять сложные математические операции. Имеет значительные ограничения в настройках готовых блоков, но позволяет создавать свои скрипты в R или Python. Поэтому следующим шагом в развитии станет изучение этих языков.

Помимо участников этого рейтинга стоит обратить внимание на другой – с самыми прогрессирующими в плане популярности инструментами Data Science. Выглядит он так:

Вот что мы узнали о Data Science в России

В декабре 2020 года мы провели опрос среди различных групп пользователей, так или иначе имеющих отношение к анализу данных. Мы распространяли ссылку на опрос в сообществах Slack OpenData Science, рассылали напрямую в компании, в которых есть подразделения data analysis, а также участникам конференции SmartData. Нам очень хотелось узнать, какими языками программирования, технологиями и инструментами пользуются специалисты в этой области.

Здесь мы делимся результатами этого исследования. При всем желании мы бы не смогли отразить все интересные наблюдения, которые можно сделать из полученных данных. Поэтому если вы хотите поработать с исходными данными, можете скачать их здесь. В целях конфиденциальности все ответы на открытые вопросы удалены.

57% респондентов относятся к возрастной категории от 21 до 29 лет, возраст 35% опрошенных — от 30 до 39. Это вполне соответствует ситуации в мире, где такое соотношение составляет 48% и 29%, согласно нашему исследованию Data Science Survey Worldwide . Что интересно, доля тех, кому за 40, превосходит долю тех, кому меньше 20 лет.

Сколько вам лет

80% специалистов трудоустроены
и имеют полную занятость

Каким образом вы
в основном трудоустроены?

Укажите уровень вашей
квалификации

Распределение респондентов по уровню образования сильно отличается от данных по миру.

Среди опрошенных в России, 59% имеют степень бакалавра, и только 20% степень магистра, в то время как в мире, согласно данным нашего опроса, степень бакалавра имеют 45%, а степень магистра — 36%.

Таким образом среди респондентов уровень образования ниже, чем в мире, при том что возрастная группа в целом совпадает.

Укажите полученное вами образование

Как можно увидеть, около половины респондентов (46%) работают в области анализа данных от 1 до 3 лет. И лишь 18% имеют опыт 3-6 лет.

Необычно, что для абсолютного большинства респондентов (тех, у кого опыт от 0 до 6 лет, а таких >90%) средний возраст никак не связан с опытом.

То же самое относится и к занимаемой позиции: только возраст старших специалистов (seniors) несколько превышает возраст всех остальных.

Как долго вы работаете
в сфере анализа данных

Сфера информационных технологий является основной областью применения анализа данных.

23% респондентов, не занятых в сфере IT,
занимаются научной деятельностью

В какой области вы в основном
применяете анализ данных?

Анализ данных —
это вообще профессия?

Многие люди решают задачи анализа данных наряду с программированием и другими должностными обязанностями. В России 50% респондентов указали анализ данных как основную профессиональную деятельность, для 33% опрошенных — это дополнительная работа.

Доля Scala/Java-разработчиков среди тех, для кого анализ данных — это основная деятельность, почти в три раза меньше, чем среди тех, для кого она дополнительная (18% против 46%). Это свидетельствует о том, что многие разработчики по долгу службы вынуждены решать задачи, связанные с обработкой данных.

Анализ данных в основном
является для вас.

Анализ данных —
это вообще профессия?

86% опрошенных занимаются
обработкой данных


В круг обязанностей
или интересов входит

Python — доминирующий язык анализа данных в России

Python — основной язык программирования у 74% респондентов. R в качестве основного языка указали только 10%. Можно ожидать, что в ближайшие годы доля Python будет расти, т.к. он является основным языком программирования для большинства опрошенных нами студентов (90% против 5% у R).

Основной язык программирования

Python — доминирующий язык анализа данных в России

Python — доминирующий язык анализа данных в России. В мире доли использования Python и R в области анализа данных составляют 73% и 40% соответственно, в России Python значительно популярнее R — 84% против 25%.

В этой таблице мы разбили всех респондентов на категории по тому, как они ответили на вопрос об использовании инструментов для Big Data. Всех, кто использует подобные инструменты, мы отнесли к Big Data, а остальных — к Не BigData. Студенты выделены в самостоятельную группу.

Самая большая доля JVM-языков — именно среди занимающихся «большими данными».

Регулярно используемые языки

Больше половины тех, для кого R — основной язык программирования, также используют Python.

Респонденты-джависты используют мало дополнительных языков, в отличие от любителей Scala, которые активно пользуются и Java, и Python, и R. При этом нужно учесть, что тех, для кого Scala является основным языком, набралось мало.

Пересечение для основных
и регулярно используемых языков

Глубокое обучение —
это тренд

Более 60% респондентов так или иначе используют инструменты для глубокого обучения.

TensorFlowTM является наиболее популярным фреймворком — 49%, Keras на втором месте c 39%.

Глубокое обучение особенно популярно среди студентов — 83% опрошенных в этой группе используют фреймворки для глубокого обучения.

Какие инструменты для глубокого машинного обучения (deep learning) вы используете?

69% опрошенных используют Linux
для анализа данных

Какую операционную систему (системы) Вы используете в качестве рабочего окружения, когда занимаетесь анализом данных?

87% респондентов производят
вычисления на локальном
компьютере

Где вы производите вычисления?

Apache Spark — главный инструмент анализа «больших данных»

Apache Spark используют 40% респондентов, в том числе 92% тех, кто программирует на Scala. Все, для кого Scala является основным языком, используют Apache Spark.

Доля тех, кто программирует только на Python и использует Spark, составляет порядка 14% (если не учитывать возможность использовать Spark из Lua и Julia, то эта доля увеличится до 20%).

Hadoop и Hive несколько менее популярны среди респондентов — 30% и 20%, соответственно.

Почти все респонденты хотя бы иногда пользуются Python, поэтому распределение ответов Python-программистов почти не отличается от общего распределения. Scala же используется в основном только теми, кто занимается Big Data.

Какие инструменты для работы
с BigData вы используете?

Мы не делали никаких предположений о том, что именно подразумевают респонденты под термином “большие данные”, а всего лишь выделили набор технологий, которые наиболее распространены в этой области.

Как и следовало ожидать, знание технологий больших данных — ключ к высокой заработной плате. Средняя зарплата специалиста вне стека технологий больших данных составляет 127 тыс. рублей.

В зависимости от технологий зарплата специалистов в России сильно варьируется, однако в среднем в области анализа больших данных она значительно выше.

При этом, несмотря на популярность Apache Spark, респонденты со знанием этой технологии уступают по зарплате специалистам, владеющим Apache Pig и Apache Hive — 157 тыс. рублей против 177 и 166 тыс. соответственно. Знание Apache Hadoop/MapReduce дает в среднем 150 тыс. рублей.

Средняя сумма заработной платы

Средняя сумма заработной платы

В вопросе зависимости зарплат от языка программирования мы не отличаемся от всего мира: специалисты в Scala зарабатывают больше остальных — 173 тыс. в среднем. За ними идут респонденты со знанием Java — 158 тыс., и Python — 143 тыс.

При этом зарплата специалистов, использующих Python, примерно на 4-5% выше, чем специалистов, использующих R (136 тыс.), что вполне соответствует ситуации в мире.

Средняя сумма заработной платы

Зарплата также существенно варьируется в зависимости от квалификации и опыта работы.

Что интересно, средняя зарплата стажера составляет 76 тыс. рублей. Младшие специалисты (Junior) получают в среднем 108 тыс., в то время как специалисты (Middle) незначительно больше 129 тыс. Однако разрыв между старшими специалистами (Senior) и остальными очень существенный, на этом уровне средняя зарплата приближается к 186 тыс.

в среднем зарабатывает
старший специалист

Средняя сумма заработной платы

Ситуация с опытом не такая очевидная, как в случае квалификации. Работники с опытом более 10 лет имеют среднюю зарплату в 120 тыс., что значительно уступает другим категориям, кроме совсем начинающих (с опытом менее 1 года). Дело в том, что респондентов с таким опытом набралось очень мало — всего 8 человек, и 6 из них используют R.

Этому есть вполне понятная причина, ведь язык Python стал популярен среди специалистов по анализу данных менее 10 лет назад, тогда как R занимал абсолютно доминирующую позицию в этой области долгие годы, уступив Python сравнительно недавно.

В остальном с большим отрывом лидируют специалисты со стажем от 6 до 10 лет, зарабатывая 221 тыс. рублей. Респонденты со стажем от 3 до 6 лет получают в среднем 158 тыс. Начинающие могут рассчитывать на 107 тыс., а специалист с опытом от 1 до 3 лет может рассчитывать уже на 145 тыс.

Средняя сумма заработной платы

Спасибо, что уделили нам время!
Мы надеемся, что эта инфографика оказалась для вас полезна.

Результаты исследования показались вам интересными? Поделитесь этим отчетом с друзьями и коллегами

Если у вас есть вопросы по данному исследованию или предложения на будущее, пишите нам на почту survey@jetbrains.com.

Мы будем рады получить ваши отзывы и комментарии, чтобы в следующий раз сделать свою работу еще лучше.

Добавить комментарий