Data Science за 3 месяца эффективный учебный план


Оглавление (нажмите, чтобы открыть):

Data Science за 3 месяца: эффективный учебный план

8’845 подписчиков
2’038 просмотров на пост

Полезные материалы по всему, что может быть интересно дата сайентисту.

Детальная рекламная статистика будет доступна после прохождения простой процедуры регистрации

  • Детальная аналитика 70’046 каналов
  • Доступ к 28’004’146 рекламных постов
  • Поиск по 112’332’059 постам
  • Отдача с каждой купленной рекламы
  • Графики динамики изменения показателей канала
  • Где и как размещался канал
  • Детальная статистика по подпискам и отпискам

Найдено 590 постов

В этом руководстве вы познакомитесь с лучшими практиками подготовки и дополнения фотографий для задач классификации изображений с помощью сверточных нейронных сетей.

pytorch: тензоры и динамические нейронные сети в Python с сильным ускорением GPU.

Знакомство с Kaggle: изучаем науку о данных на практике
Сначала Kaggle был местом для соревнований по машинному обучению, но сейчас там можно найти множество ресурсов по Data Science.

ИИ научился создавать портреты несуществующих людей в полный рост

Японские разработчики обучили нейросеть создавать портреты несуществующих людей в полный рост.
С помощью такой технологии можно будет, например, сэкономить на моделях при продвижении одежды.

Александр Фрей и Кевин О’Коннелл из Норвежского центра по изучению психологических расстройств (NORMENT) в городе Осло рассказывали об использовании больших данных для математических моделей генома человека.

Были рассмотрены наиболее успешные полногеномные исследования и ограничения, которые препятствуют эффективному применению методов машинного обучения в генетике человека. Часть занятия была посвящена статистической методологии, лежащей в основе подобных исследований, в том числе анализу байесовских смешанных моделей и методу ограниченного максимального правдоподобия.

11 Классических методов прогнозирования временных рядов в Python (Шпаргалка)

Этика распознавания лиц
Обычно основным аргументом для реализации инноваций на основе AI, например, распознавания лиц, является намерение увеличить ROI. Такая ситуация не может не вызывать этических вопросов.
Всегда ли есть достаточные основания для принятия системы распознавания лиц и как организации должны бороться с ее недостатками? Пришло время разобраться.

Создаем с нуля собственную нейронную сеть на Python
Создание с нуля собственной нейронной сети на Python без сложных библиотек (TensorFlow и Keras).

Нейронные сети: наиболее полные и понятные видеолекции
В лекциях представлены основные алгоритмы, задачи и методы, которые помогут лучше понять нейронные сети.

Практические советы по системам ML
В данной статье представлен Список реальных проблем при использовании методов ML (без кода).

Классная функция докера
Данный метод позволяет просматривать статистику совокупной нагрузки по контейнерам.
Может оказаться очень полезной для тех, кто активно использует данный инструмент!

Воспитание ребёнка и обучение ИИ чем-то довольно схожие задачи. Однако тяжело об этом судить, не побывав в обоих амплуа. В приведённой ниже статье девушка, которая успевает быть и мамой, и data scientist-ом, сравнивает, чем же похожи и чем отличаются эти два непростых занятия.

​​Галерея хобби проектов в сфере ML DS

�� Разыскивается главный редактор на сайт proglib.io

Если вам хочется глубже погрузиться в мир IT и владеть вниманием широкой аудитории, эта вакансия для вас!

Кластеризация и визуализация текстовой информации
В данной статье автор собрал данные по анализу текстовых сообщений на русском языке воедино и рассмотрел пример кластеризации

Machine Learning Recipes with Josh Gordon
Англоязычный видеокурс от разработчиков Google, в котором разбираются основные принципы машинного обучения.

1. Hello World!
2. Визуализация дерева принятия решений.
3. Как выбрать правильный признак (feature)?
4. Пишем pipeline.
5. Пишем первый классификатор.
6. Обучаем классификатор изображений с помощью TensorFlow for Poets.
7. Классификатор прописных чисел с помощью TF.Learn

10 трюков библиотеки Python Pandas, которые вам нужны
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.

�� Data Science за 3 месяца: эффективный учебный план. #[email protected]

Data Science за 3 месяца? В своем ли мы уме? Вполне. Расскажем, как стать аналитиком данных за 12 недель по курсам Microsoft и др.

Data Science за 3 месяца: эффективный учебный план

Data Science за 3 месяца? В своем ли мы уме? Вполне. Расскажем, как стать аналитиком данных за 12 недель по курсам Microsoft и др.

Комментарии (10)

Алёшка Астахов

согласно диаграмме, не нужно знать ни математики, ни статистики, чтобы быть датасаентистом

Алёшка Астахов

видимо именно такой специалист составлял картинку

Егор Гусаренко

Алексей, math и stats это что тогда?

Алёшка Астахов

Егор, в пересечение множеств умеешь? согласно рисунку, специалистом можно стать как зная их, так и без них

Алёшка Астахов

хотя окнешно, если множество математики и алгоритмов представлено не в форме круга а в более сложной, я, безусловно, не прав

Владимир Топунов

Пopнyxa какая то на картинке

Леонид Крылов

Алексей, просто картинку составлял человек, который учился рисовать графическое представление пересечения множества на этих курсах) Я тоже по угорал с рисунка, как можно такие ошибки в публичном контенте допускать, да еще и платить за его распространение))

Александр Селезнёв

Алексей, множество дата инженер к тому же пересекается с множеством дата коммьюникейшн

Егор Гусаренко

Алексей, да, я что-то не присмотрелся к диаграмме виенна, там действительно можно быть датасаентистом без знания math и stats. Косяк. Извиняюсь

Андрей Токарев

Курс от мелкомягких по ссылке не открывается. А тот, что находится в edx через поиск не бесплатный-пока не заплатишь 99 баксов, упражнения и экзамены будут недоступны. Смотреть видео можно, но зачем?

Детальный план самообразования в Computer Science за 1,5 года

Сайт proglib.io опубликовал один из возможных планов самообразования в Computer Science за 1,5 года со ссылками на онлайн-курсы и другие образовательные сайты.

При составлении этого плана мы отталкивались от предложенного Siraj Raval пятимесячного интенсива, но постарались подойти более реалистично к срокам прохождения курсов из расчета 8-10 часов в неделю. При большем или меньшем временном ресурсе умножайте приведенные длительности на соответствующий коэффициент.

Любой план субъективен, поэтому задачей этой публикации было не составление идеального плана самообразования в Computer Science, а создание конкретного примера одного из возможных направлений с достаточным числом ссылок на образовательные ресурсы, изучив которые вы будете способны воплотить новые идеи на практике. Очевидно, что независимо от наших рекомендаций вы можете корректировать время и направление развития обучения. Мы постарались учесть разносторонний опыт, накопленный за время существования proglib.io, и там, где это было уместно, дополнили тематические блоки ссылками на наши публикации.

Если вы намерены предварительно продумать курс под себя еще более детализировано, изучите различные соображения по самообразованию на примере американских университетов и ресурса Teach Yourself Computer Science (перевод). Если у вас есть возможность отводить занятиям большее время (по 18-22 часов в неделю), рекомендуем обратить внимание на план Open Source Society University.

Наверняка вы хотите, чтобы самообразование проходило эффективно и с максимальной пользой. Некоторые из читателей, начинающих знакомство с IT, не знают, с чего начать, или, имея некоторые соображения на этот счет, хотели бы узнать, как попасть в IT после 30. Возможно, вы стремитесь скорее стать Junior-разработчиком и начать зарабатывать на программировании. Перед тем, как изложить сам план, рассмотрим некоторые предварительные соображения относительно самообразования в Computer Science, справедливые для различных категорий учеников.

Предварительные соображения

Учитывайте, что обучение – это не зубрежка, а погружение в материал, решение практических задач и интервальные повторения. Чтобы избежать типичных ошибок, изучите советы для обучающихся программированию и как/что читать по программированию. Чтобы эффективно использовать свободное время, в дополнение к приведенным ниже курсам вы можете тренироваться в мобильных приложениях. Если вам по душе игровая форма обучения, обратите внимание на подборку соответствующих ресурсов и статью о 27 сайтах с задачками для оттачивания навыков программирования.

При просмотре видеолекций для экономии времени ускоряйте их в 1.25-2 раза, в особенности в тех местах, где происходит обзор концепций и повторение материала предыдущих занятий. Несмотря на легкость изложения, концентрация новых знаний в этих частях минимальна и рассчитана на то, чтобы освежить знания с учетом больших интервалов между лекциями при традиционном обучении. Если вы проходите урок за уроком, соответствующие нейронные связи будут поддерживаться за счет применения старых знаний в новых уроках. Подход ускорения видео требует некоторой привычки, но позволяет больше времени уделять действительно сложным моментам.

При чтении сопроводительных материалов ведите краткий конспект, дополняя его после каждой смысловой части. Пройдя какую-то из концепций, например, определенный алгоритм, полезно детально объяснить его реальному или воображаемому собеседнику. Это та составляющая, которой обычно сильно не хватает относительно самообразования в Computer Science и не только – фидбэка. Будет отлично, если вы можете найти заинтересованного партнера по занятиям – это не только повысит качество проверки тестовых работ, но также добавит в обучение соревновательный аспект и повысит мотивацию прохождения очередного курса.

По тем же причинам при нескольких вариантах реализации практической части выбирайте курсы с мгновенной обратной связью – те, в которых проверка результата происходит без задержки, например, непосредственно в консоли или по приложенным ответам. Если параллельно с планом вы хотите получать дополнительные знания из книг, иметь что-то вроде «списка книг на лето», в этом поможет подборка десяти лучших книг по Computer Science.

Обязательно пользуйтесь системами контроля версий, такими как GitHub и Gist, чтобы не тратить время на решение однотипных задач и реализовывать попутно с обучением различные проекты, приходящие на ум в процессе прохождения курсов. Тогда профиль GitHub можно будет использовать как портфолио при устройстве на работу.

Учебный план самообразования в Computer Science

Предлагаемый план самообразования в Computer Science разбит на три семестра, в среднем по 26 недель каждый. Первый семестр является фундаментом, в котором закладываются математико-алгоритмические основы компьютерных технологий и получаются представления о программировании.

Второй семестр посвящен различным аспектам, в которых полученные в первом семестре понятия реализуются через различные виды взаимодействий между компьютерами или между компьютерами и пользователями: базы данных, компьютерные сети, мобильные приложения и обработка текстов.

Третий семестр является наиболее субъективной частью этого плана, так как анализ данных и компьютерное зрение часто выносятся за пределы Computer Science. Однако с практической точки зрения владение этими технологиями в рамках Computer Science существенно расширяет навыки специалиста относительно решения современных задач анализа данных. В этом завершающем семестре также рассматриваются распределенные системы и практики разработки.

  1. Первый семестр – математика, алгоритмы и структуры
    1. Гарвардский CS50 (4 недели)
    2. Основы Python (4 недели)
    3. Математика для Computer Science (8 недель)
    4. Структуры данных (6 недель)
    5. Алгоритмы (8 недель)
  2. Второй семестр – интерфейсы взаимодействия
    1. Базы данных (3 недели)
    2. Компьютерные сети (6 недель)
    3. Вэб (5 недель)
    4. Обработка текстов на естественном языке (4 недели)
    5. Мобильные приложения (5 недель)
  3. Третий семестр – анализ и управление данными
    1. Машинное обучение (10 недель)
    2. Компьютерное зрение (6 недель)
    3. Распределенные системы (5 недель)
    4. Практики разработки (4 недели)

1. Первый семестр – математика, алгоритмы и структуры

1.1. Гарвардский обзорный курс CS50 (4 недели)

Чтобы получить общее представление о Computer Science, пройдите курс CS50 Гарвардского университета из 22 лекций, обзор которого мы делали ранее: часть 1, часть 2. В качестве основного языка программирования используется язык С, что хорошо дополнит ваш инструментарий, так как в приведенном плане в этой же роли выступает высокоуровневый язык Python. Этот курс позволит увидеть картину в целом, и, если вы не уверены в выборе, понять, нужно ли вам заниматься Computer Science.

1.2. Основы Python (4 недели)

Язык Python – интерпретируемый объектно-ориентированный язык с динамической типизацией. Этот высокоуровневый язык позволяет быстро освоить основные концепции программирования и начать делать что-то практическое. Automate the Boring Stuff with Python Альберта Свейгарта (книга также есть в нашей библиотеке) – один из лучших учебников по Python с задачами, направленными на облегчение ежедневной рутины. Книгу в вышеуказанном темпе можно пройти за 4 недели, читая и делая задания одной главы в день. Либо можно ориентироваться на объем книги: 600 страниц это соответственно 150 страниц в неделю или 20-25 страниц в день.

Если вам больше нравятся интерактивные занятия, обратите внимание на один из перечисленных здесь курсов.

1.3. Математика для Computer Science (8 недель)

В освоении вопросов математической индукции, теории чисел, теории графов и прочих математических основ самообразования в Computer Science поможет соответствующий курс MIT, состоящий из 25 лекций и 12 контрольных работ. Полный конспект курса состоит из 557 страниц, соответственно в среднем нужно проходить около 10 страниц в день и решать 1-2 контрольные в неделю.

1.4. Структуры данных (6 недель)

Чтобы разбираться в связных списках, очередях, множествах, хэш-таблицах, бинарных деревьях и других структурах данных, пройдите курс университета Сан Диего, в создании которого принял участие Михал Левин, читающий в Школе анализа данных курс «Алгоритмы и структуры данных поиска».

1.5. Алгоритмы (8 недель)

Одним из лучших курсов по алгоритмам является курс MIT 6.006, состоящий из 8 разделов: 24 лекций и 7 подборок задач. Соответственно каждой теме можно уделить одну неделю. В качестве вспомогательно курса по алгоритмам и структурам данных на русском языке вы можете воспользоваться этим видеокурсом. Кроме того, мы подготовили соответствующую подборки книг, веб-сайтов, онлайн-курсов и видеоматериалов.

Когда будете разбираться в алгоритмах, помните о ресурсах с визуализацией – не только сортировок, но и других алгоритмов. На последней неделе проверьте полученные знания, ответив на вопросы по алгоритмам с собеседований в различных компаниях.

2. Второй семестр – интерфейсы взаимодействия

2.1. Базы данных (3 недели)

Для обучения работе с базами данных пройдите курс Мичиганского университета Using Databases with Python. В качестве базы данных в курсе используется SQLite3. Отточить свои навыки в написании SQL-запросов можно при помощи нескольких сайтов. Если вам потребуется проработать этот вопрос подробнее, воспользуйтесь нашей подборкой материалов для изучения баз данных и SQL.


2.2. Компьютерные сети (6 недель)

Шестинедельный курс от Google, входящий в специализацию Google IT Support Professional Certificate научит вас разбираться в TCP/IP, DNS, DHCP и прочих вещах, на которых строятся компьютерные сети. Если потребуются дополнительные разъяснения на русском, мы подготовили обзор на соответствующий курс.

2.3. Веб-программирование (5 недель)

Гарвардский курс CS50’s Web Programming with Python and JavaScript состоит из 10 лекций и является расширенным подмодулем первого курса (с другим лектором) описываемого плана, рассматривающим основные технологии современного веб-программирования. В течение каждой недели проходите по 2 лекции, отводя по два-три дня под изучение соответствующих технологий.

Язык JavaScript уже шестой год поряд остается самым популярным языком программирования по опросам StackOverflow. Если вы посчитаете, что с JavaScript вы хотите разобраться подробнее, пройдите курс freeCodeCamp или, если хочется разнообразия, посмотрите эту подборку видео.

Лучший способ научиться вэб-программированию это создать свой проект. Поэтому параллельно с прохождением указанного курса создайте ресурс, в котором вы будете реализовать возможности рассматриваемых технологий. Множество идей проектов собрано в подборке Just Build Websites.

2.4. Обработка текстов на естественном языке (4 недели)

Одним из интерфейсов взаимодействия человека с миров является язык, на котором человек говорит. Для приобретения навыков в обработке строковых объектов и файлов, написанных на естественном языке, пройдите четырехнедельный курс Мичиганского университета Applied Text Mining in Python.

По этой теме на нашем сайте есть также статья с подборкой дополнительных материалов: онлайн-курсов, библиотек, блогов и книг.

2.5. Мобильные приложения (5 недель)

Для того, чтобы окунуться в разработку мобильных приложений, лучший старт это курс, в котором параллельно объяснениям создается первое приложение (такие курсы есть и для iOS, и для Android).

Если вас увлекла эта сфера и перед вами встал вопрос, стоит ли становиться разработчиком мобильных приложений, прочитайте эту статью.

3. Третий семестр – анализ и управление данными

3.1. Машинное обучение (10 недель)

Один из вариантов разобраться в главных особенностях машинного обучения – пройти десятинедельный курс Python for Data Science. Еще один вариант, который мы рассматривали ранее – план от новичка до профи в машинном обучении за 3 месяца, требующий соответственно 12 недель.

Мастер Йода рекомендует:  Как с помощью смарт-объектов в Photoshop создать адаптивный макет для экранов различных устройств

При прохождении любого из вариантов вам помогут ссылки на ресурсы по Machine Learning и подборка материалов по машинному обучению. При проработке конкретных идей и поиске истоков алгоритмов машинного обучения важно знать, как правильно искать и читать научные статьи. Чтобы не забывать основную терминологию этого объемного блока, добавьте в закладки страницу со шпаргалками по машинному обучению.

3.2. Компьютерное зрение (6 недель)

Вводный курс Georgia Tech представляет собой введение в компьютерное зрение, включая основы формирования изображений, обнаружение и сопоставление образов, отслеживание движения и т. д.

3.3. Распределенные системы (5 недель)

Распределенные системы – область с быстро меняющимся инструментарием, поэтому наиболее правильно в этом разделе рекомендовать книгу, рассматривающую фундаментальные особенности этой области. Одна из лучших книг по тематике распределенных систем, не теряющая своей актуальности для самообразования в Computer Science – Распределенные системы. Принципы и парадигмы Таненбаума и ван Стеена. Это довольно объемный труд, требующий чтения порядка 15-20 страниц в день и продумывания вопросов в конце каждой из глав.

3.4. Практики разработки (4 недели)

Курс Миннесотского университета объясняет как происходит совместная работа команды разработчиков, какие процессы и методологии ими используются для создания законченного программного продукта.

После прохождения плана

Наконец, по завершении или во время прохождения плана приведенного плана самообразования в Computer Science, могут возникнуть вопросы о том, какие еще есть сайты для самообучения и что нужно делать для совершенствования своих навыков. Подпишитесь на подкасты и Youtube-каналы. Если вас увлечет теоретическая сторона Computer Science, просмотрите этот список книг.

Если вы проходили этот план, чтобы найти работу в сфере Computer Science, посмотрите советы по написанию резюме и статьи о том, как должно выглядеть резюме, как успешно пройти любое техническое собеседование и протестируйте полученные знания из разных областей Computer Science на подборке задач, предлагаемых на собеседованиях.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Девять лучших курсов по Big Data для дата-сайентистов и менеджеров

Редактор раздела «Технологии»

Специалисты по большим данным востребованы в ритейле, банковской сфере, E-Commerce и многих других областях. Мы отобрали девять коротких курсов, которые помогут научиться применять навыки и инструменты Big Data в реальных проектах.

Дата-сайентист — одна из самых высокооплачиваемых и востребованных профессий за рубежом и в России. Специальные подразделения для разработки data science-проектов в последние годы открывают многие крупные компании: от «Яндекса» до X5 Retail Group.

В подборку Rusbase вошли самые известные курсы для руководителей таких проектов и их разработчиков — начиная с бесплатных для новичков и заканчивая углубленными программами с акцентом на проекты конкретных отраслей.

Для менеджеров и руководителей:

1. A crash course in Data Science на Coursera

Для кого этот курс: этот курс — первый из пяти курсов группы Executive Data Science («Большие данные для руководителей»), разработанный в университете Джона Хопкинса. Он предназначен для тех, кто хочет быстро разобраться в том, что такое большие данные и где можно их применять.

Слушатели изучат основные термины и инструменты, которые используют дата-аналитики, и способы оценки успешности data science-проектов. Для этого у них будут видеолекции и материалы для самостоятельного изучения. Курс идет на английском, но есть субтитры на русском языке.

Продолжительность: 1 неделя, 4-6 часов.

Даты: курс стартовал 20 августа, но на него еще можно записаться.

Стоимость: первый курс — бесплатно. Для обучения на следующем курсе придется заплатить 2468 рублей за месяц. Этого хватит на все оставшиеся четыре курса — каждый из них длится неделю.

2. Курс Business Analytics в Udacity

Для кого этот курс: для новичков. Здесь они смогут получить навыки анализа больших данных и изучить инструменты, которые помогут в любой области: будь то инженерное дело, продажи, маркетинг или что-то еще. В рамках программы они изучат Excel, SQL и Tableau, и научатся анализировать данные для того, чтобы принимать лучшие стратегические решения.

Программа является подготовительной для двух других курсов Udacity — Data Analyst и Business Analyst Nanodegree programs. Студентам доступны видеолекции, текстовые инструкции и консультации менторов. Обучение ведется на английском.

Продолжительность: 3 месяца, 10 часов в неделю. После окончания программы студентам дается еще около 4 недель (130 часов) на завершение всех проектов.

Даты: запись открывается 21 августа.

Стоимость: 599 долларов (около 40 тысяч рублей).

3.

Data MBA Школы анализа данных

Для кого этот курс: для тех, кто хочет научиться применять инструменты Big Data в зависимости от индустрии и конкретной бизнес-задачи. Среди основных тем: как повысить продажи, управлять лояльностью, рисками, предсказывать эффективность кандидата для HR-менеджеров, делать банковский скоринг и т. д.

Продолжительность: 5 недель, 10 занятий.

Даты: 28 августа.

Стоимость: 100 тысяч рублей.

4.

Курс «Аналитика для руководителей» на «Нетологии»

Для кого этот курс: для коммерческих директоров, директоров по маркетингу, а также руководителей и владельцев бизнеса. В рамках курса они должны научиться исследовать рынок и выявлять тренды, прогнозировать продажи, проводить сегментацию клиентов, а также набирать команду для проектов с использованием больших данных и ставить задачи для разработчиков.

Программа состоит из нескольких блоков: BI аналитика в Tableu (построение дашбордов и интерактивных отчетов), data-driven менеджмент (разработка стратегии улучшения бизнес-процессов на основе этих отчетов), продуктовая аналитика, машинное обучение для бизнеса и др. Лекцию в рамках программы читает директор по маркетингу сервисов компании «Яндекс» Андрей Себрант.

Для дипломной работы потребуется спроектировать аналитическую структуру для своей компании или отдельного продукта/проекта, а также настроить дашборды в BI Tableau Software по ключевым метрикам. После окончания программы обещают помощь в трудоустройстве.

Продолжительность: 8 недель. Занятия проходят офлайн в кампусе Нетологии дважды в неделю по три часа. Видеозапись и материалы после каждого занятия добавляются в личный кабинет участника.

Даты: 23 августа — 14 октября.

Стоимость: 100 тысяч рублей.

Продолжительность: 5 недель, 10 занятий.

Даты: с 28 августа.

Стоимость: 100 тысяч рублей.

5. Курс «Специалист по большим данным 9.0» от «Лаборатории Новых Профессий»

Для кого этот курс: Для разработчиков, аналитиков и продакт-менеджеров. Курс состоит из двух модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй – рекомендательным системам для e-commerce, медиа, соцсетей, банкинга и рекламы.

Продолжительность: три месяца. Курс достаточно интенсивный: лекции и мастер-классы проходят три раза в неделю по три часа, для решения лабораторных работ надо еще минимум 5-7 часов в неделю. При желании можно заниматься онлайн.

Даты: 20 сентября — 11 декабря.

Стоимость: 200 тысяч рублей, при оплате в августе — 170 тысяч рублей.

Для разработчиков:

1. Dataquest

Для кого этот курс: для новичков в Data Science — включая тех, кому большие данные необходимы для работы над бизнес-проектами. При выборе программы студент должен определить, насколько ему знаком Python. После этого ему предлагается отнести себя к одной из пяти групп:

  • те, кто хочет работать с Data Science;
  • те, кому большие данные нужны для текущей работы;
  • стартаперы, которые используют большие данные в своем проекте;
  • студенты, которые планируют затем продолжать обучение;
  • просто интересующиеся.

Если знаний Python совсем нет, начинать придется с азов. Программа будет состоять из девяти курсов, в каждом из которых — по 2-3 блока занятий по отдельным темам (каждый блок состоит из 10 уроков). Ближе к середине обучения можно будет потренироваться в разработке data science-проектов с использованием машинного обучения. Обучение ведется на английском.

Продолжительность: проходить «квест» можно в своем темпе, отслеживать свой прогресс — на инфографике.

Дата: в любое время.

Стоимость: бесплатно.


2. «Введение в машинное обучение» от «Яндекса» и ВШЭ на Coursera

Для кого этот курс: для тех, кого не пугают слова «матрица», «вектор» и «производная». Для выполнения практических заданий потребуются базовые навыки программирования. Очень желательно знать Python. Задания рассчитаны на использование этого языка и его библиотек numpy, pandas и scikit-learn.

Чтобы успешно завершить курс, нужно набрать проходную сумму баллов за тесты и практические задания, а также выполнить финальный проект, посвящённый решению прикладной задачи анализа данных.

Продолжительность: 7 недель, 3-5 часов в неделю.

Даты: курс стартовал 6 августа, но на него еще можно записаться.

Стоимость: бесплатно, сертификат для подтверждения окончания курса стоит 1835 рублей.

3. «Машинное обучение и анализ данных» от «Яндекса» и МФТИ на Coursera

Для кого этот курс: для дата-сайентистов, которые смогут применять свои навыки в бизнес-проектах. Для обучения им требуются базовые знания математики и основ программирования. Основные темы обучения: современные методы классификации и регрессии, поиск структуры в данных, построение выводов, базовая фундаментальная математика и основы программирования на Python.

В конце программы слушатели должны будут применить свои знания в работе над реальным проектом. На выбор предлагается несколько областей: E-Commerce, социальные медиа, информационный поиск и бизнес-аналитика. Выпускники могут воспользоваться программой трудоустройства «Яндекса».

Продолжительность: все зависит от собственного темпа обучения. В среднем на это надо 3-6 месяцев.

Даты: в любое время.

Стоимость: первые 7 дней — бесплатно, после этого — 5000 рублей в месяц. Можно выбрать не все курсы специализации, а только один.

4. Школа анализа данных

Для кого этот курс: для тех, кто знаком с математической статистикой и имеет навыки программирования на Python. Кроме лекций, в программу входит решение реальных бизнес-задач. Тем, у кого навыков программирования пока нет, разработчики предлагают сначала пройти курс «Введение в Data Science».

Продолжительность: 3,5 месяца. Занятия проходят по будням два раза в неделю с 19.00 до 21.00. Учиться можно онлайн.

Даты: с 3 сентября.

Стоимость: 100 тысяч рублей.

Если вы вспомнили другие российские и зарубежные курсы для дата-сайентистов и менеджеров, пишите о них в комментариях.

Data Science за 3 месяца: эффективный учебный план

16 модулей, 2 месяца

  • Введение в программирование на Python
  • Анализ данных в Pandas и NumPy
  • Визуализация, очистка данных и feature engineering
  • Работа c файлами, html-страницами и API

8 модулей, 2 месяца

  • Линейная алгебра
  • Матанализ и методы оптимизации
  • Основы статистики и теории вероятности
  • Анализ временных рядов и другие математические методы

9 модулей, 2 месяца

  • Введение в машинное обучение
  • Предобработка данных
  • Основные модели машинного обучения
  • Оценка качества алгоритмов

11 модулей, 3 месяца

  • Фреймворк TensorFlow, библиотека Keras и другие
  • Сверточные нейронные сети и компьютерное зрение
  • Рекуррентные нейронные сети
  • Анализ естественного языка и другие задачи DL

8 модулей, 2 месяца

  • Hadoop
  • Spark
  • ETL и BI
  • Облачные технологии AWS и Azure

4 модуля, 1 месяц

  • Data Science в production
  • Оценка эффективности моделей в реальных бизнес-задачах
  • Управление data science проектом и командой
  • Общение с заказчиками

Стоимость обучения
Если курс не подойдет, мы вернем вам деньги

currentPrice
basePrice
priceComment

Можно в рассрочку на 24 месяца
installmentPrice в месяц
Подробнее

С помощью обучающих алгоритмов машинного обучения можно научить программы делать что угодно:

1. Предлагать дополнительные товары, которые пользователь купит с наибольшей вероятностью, на основе его поведения на сайте и покупок. Таким образом увеличивать продажи и прибыль бизнеса.

2. Предсказывать события в клиентской базе. Таким образом можно заранее предпринять меры, которые сократят расходы или увеличат прибыль. Возьмем к примеру страховую компанию, которая предоставляет услуги ДМС. Если она научит программу предсказывать, кто из клиентов в ближайшее время обратится за дорогостоящей медицинской услугой, то сможет предпринять меры, чтобы сократить расходы по ДМС. Например, позвонить клиенту и предложить ему проконсультироваться с хорошим врачом, чтобы не допустить развитие болезни.

3. Формировать заказы на поставку для магазинов сети с учетом динамики продаж, сезона, прогноза погоды и других параметров. Таким образом не допускать, чтобы в торговых точках было затоваривание или нехватка товара.

4. Сегментировать клиентов, чтобы делать им подходящие предложения. Возьмем к примеру банк, который создал новый вид кредита. С помощью машинного обучения он может выявить в базе клиентов тех, кто вероятнее всего воспользуется таким кредитом.

5. По факту, области применения машинного обучения и Python практически безграничны: от контроля качества товаров до диагностики оборудования на производстве, от продаж до аналитики, от повышения персонализации до аудита. Вы сможете использовать возможности алгоритмов практически в любой сфере.

По версии кадрового агентства Glassdoor, профессия Data Scientist, напрямую связанная с машинным обучением, занимает первую строчку в рейтинге самых лучших профессий Америки.

Ценятся такие специалисты высоко. Журнал IncRussia пишет, что зарплата специалиста по машинному обучению составляет 130-300 тысяч рублей. Причина в том, что на рынке мало специалистов в области Data Science. Полученная квалификация в этой области поможет вам совершить рывок в текущей работе или запуске собственного проекта.

Записался на обучение по Data Science.

Обычно человек ходит по колее, но иногда система сбоит и случаются «эмм, а чё я раньше не задумывался, что можно…» и «хм, а ведь можно попробовать сделать…». В такие моменты можно выскакивать за пределы колеи и переходить в новую более интересную, выходить из зоны болотного комфорта в зону воодушевляющего дискомфорта.

Всегда ходил по колее (вернее, замкнутому циклу): математика не моё, у меня много своих преимуществ, математик не в их числе, не всем дано. И к нему прицеплялось: машинное обучение, нейронные сети, статистика и тер.вер. требуют математики – ну, значит, тоже не мое, ну значит без этого. А тут че-то осенило: а какого хрена!? Кстати, тот случай когда реклама сподвигла (назойливая реклама курсов обучения по Data Science). Сначала отмахивался, а в какой-то момент подумал: а почему бы и нет? – Да, страшно, да лень, да не уверен, что получится, да долго, да нет уверенности, что поможет и т.д. Хорошо подумал, уверенным движением руки смахнул все эти иррациональные возражения и страхи со стола и записался на курс.

Так что скоро, надеюсь, например, не буду просто пролистывать посты уважаемого А.Г., а, возможно, буду извлекать смысл.

Кстати, уже только при прочтении программы курса словил пару инсайтов применительно к фин. рынкам.

Мастер Йода рекомендует:  5 советов по грамотному использованию иконок в интерфейсе

Глаза загорелись. Будет интересно.

  • спецраздел:
  • торговые роботы
  • Ключевые слова:
  • алгоритмическая торговля,
  • data science,
  • ML

dan◦fox, выбирал между:

— Школа анализа данных от Яндекса.

— Курс от Нетологии.

— Курс от SkillFactory.

— Курс от GeekUniversity.

Если интересно, на каком остановился — спросите в личку. А то напишешь — как обычно начнется: не то ты выбрал, надо было вот это))).

— уровень скиллов на входе — по этому критерию сразу отвалился Яндекс, потому что там уже на входе нужно очень хороший уровень показать. И ещё один отвалился.

— а дальше — ну программа, преподы, формат, цена, рассрочка по цене, общие неформализуемые впечатления.

Ну ладно, короче выбрал GeekUniversity от Мэйл.ру.

K., Ну и изначально выбирал хорошее — чтоб уже была серьезная фирма и курс масштабный, чтоб было все — хорошая математика, хороший дата-саенс и прочий машин-ленинг, много практики. Формат чтоб был эффективный — тут тебе и менторы и обратная связь и проекты практические на реальных кейсах и данных. Да и трудоустройство просто так на пустом месте не гарантируют.

Replikant_mih, в первую очередь — качеством подачи материала.
Я видел в пиратских копиях все четыре упомянутых вами, только ШАД показался адекватным.

Replikant_mih, некоторых лекторов нельзя допускать к публичным выступлениям — неоправданные паузы в предложениях, невнятная речь, «пык-мык» в просторечии. Короче говоря, не владеют риторикой. Т.е. как специалисты они может и неплохие (и может очень даже крутые), но как ораторы — нули. Я — сам айтишник с довольно существенным опытом и запросто могу идти читать курсы по ряду прикладных дисциплин. Но увы, обделён ораторскими талантами. Поэтому не читаю никаких публичных лекций.

Replikant_mih, ну проблемы с качеством подачи материала — это не только эстетическая претензия.
А так, можно и на kaggle поучиться — https://www.kaggle.com/learn/overview

Кстати, уже только при прочтении программы курса словил пару инсайтов применительно к фин. рынкам.

большие данные это мирные данные

big data is peace data

Replikant_mih, смотрю вы тут самый профи.

В двух словах можете объяснить что такое Data Sceince и чем это всё отличается от обычного высшего образования, включающего:

а) Мат. стат. + моделирование + верификация+валидация
б) Мат. анализ + численные методы

Что нового? После KNN, SVM, AR (Arima и т.д.), нейронных сетей, деревьев, графов?

SergeyJu, что поделать Сергей Юрич, за смарт-лабом не успеть, увы.)) попробую поищу топик — попрактикуюсь в DS, так сказать.

З.ы. и да, сегодня кто чего только к трейдингу не прикрутит (это не в адрес Афтара, сразу оговорюсь).
тоже надо пойти по-прикручивать, по америке спот-кривую дождусь на клоз и летс гоу.

Cristopher Robin, Если бы у меня не было внутреннего стержня и внутреннего компаса — наверно бы даже расстроился от вашего сообщения)).

Во-первых, тут с условного нуля стартуют.

Во-вторых, я не рвусь в олимпийские чемпионы)).

В-третьих, видел много людей, с отличным бэкграундом, но скучно его использующих — никакого креатива, никакой смелости, никакой экспрессии, не производят новые знания, в то время как я могу и без мат. подготовки феерить)). А уж с ещё одним инструментом (вернее, букетом инструментов) будет ещё интересней.

Я тоже начал учиться. Тем более что полно бесплатных курсов.
Забавно но седой и строгий PhD заявляет что там больше data чем science.
И что главное это любопытство.

Но хотя бы весь доступный инструментарий стоит поизучать чтобы не тратить время на изобретение велосипедов.
Хотя мне кажется что если бы всё было так просто — прикрутил ИИ и стал колбасить только в плюс, то давно или бы фонды такие появились которые скупили весь мир, или вообще все биржи прекратили существование.
Но может эта мысль и не верна. В шахматы-то всё равно люди играют друг с другом, хотя компьютеры уже играют лучше.
А мы на бирже уже непонятно с кем соревнуемся. Не то с людьми, не то с компьютерами..
Вобщем, сам не знаю что сказать хотел. Удачи, держи в курсе.
Хотелось бы мне лично накопать что-то на тему ИИ и money/risk management в применении к фьючерсам.

ПBМ, >>«Удачи, держи в курсе.»

Все, конечно, не просто. Это точно не магическая пилюля. Просто ещё один инструмент, но с большим потенциалом. И, думаю, его надо применять не в лоб — не тупо прогнозировать временной ряд на основе исторических данных, а что-то поинтересней, есть уже несколько задумок).

скажите, я так понимаю, обучение у вас онлайн. ногами даже раз в месяц никуда ходить не нада?

я в данный момент обучаюсь. Параллельно учусь по книгам. Могу сказать, что это намного, НАМНОГО сложнее чем кажется поначалу.

Дело в том, что надо очень неплохо натаскивать математику, причем из разных областей. С самого начала Вы должны знать такие вещи как обратная матрица и т.д., в противном случае будут смущать и вводить в ступор какие-нибудь формулы функций-издержек сводящие значение к минимуму. Поставить гиперпараметры на решетчатом поиске не понимая их смысл — это обезьяна с гранатой.


В общем DS это больше математика/статистика, чем программирование. Хотя и последнее надо знать хорошо. Так что будьте готовы.

WRK, А вы где учитесь?

В моем курсе обещают, что в самом курсе дают то что нужно для непосредственно ML и прочего DS. Программу читал — там есть и про матрицы и прочее — несколько разделов математики будем затрагивать. Ну и надо думать, что сначала математику затрагивать, а потом темы где она уже должна быть у тебя затронута)).

Про «НАМНОГО сложнее» — я догадываюсь)), хотя гоню эту мысль)), вернее игнорировал её когда принимал решение, а дальше в омут с головой)).

И как у вас с математикой проходит? — Или у вас на входе был неплохой уровень? Как вообще в целом продвигается? — уже что-то можете практическое? — Энтузиазм сохраняется?

Replikant_mih, учусь на одних из курсах (не хочу делать рекламу), их кстати большее количество, чем указано у Вас.

Уровень математики входной у меня был низкий, но тк знал основы эконометрики не могу сказать, что начал с нуля. Я как в студенческие годы брал и решал матрицы, пределы, выписывал и разбирался в нюансах стат.анализа и теории вероятности — на это уходит много времени, и это не настолько весело. По общению с куратором — дадут основы, но вы ведь сами понимаете, что за неск месяцев дотянуть до норм уровня почти невозможно, и настолько углубляться вы там с группой не будете. Хотя это лучше, чем ничего.

Что желательно знать — дано в темах к вступительным в ШАДе. + статистика. Понимание смысла (и нахождение) какой-нибудь частной производной и прочих азов должно быть очень ясным.

Повторюсь, можете делать расчеты и без знаний — но когда откроете документацию и уведите с десяток гиперпараметров, вот тут можно сесть в лужу — не понимая геометрически, к чему будет приводить изменение степени полинома, или же настройка альфы при регуляризации, а ведь в тех же регуляризациях по логистической — параметры инверсированные альфе, кот.будут делать с точностью наоборот.

WRK, >>«к чему будет приводить изменение степени полинома, или же настройка альфы при регуляризации, а ведь в тех же регуляризациях по логистической — параметры инверсированные альфе».

Может, я зря вообще все это затеял)))))

У меня в ВУЗе высшая математика прошла скорее мимо меня, а вот тер. вер. нравился, поэтому все получалось. Но если сейчас сделать срез, то я не отличу логарифм от производной, а первообразной от синуса)). Но обещают все прокачать, но конечно понимаю, что многое надо будет вытягивать и самому.

Так как в целом — уже что-то можете практическое делать?

Я правильно понимаю, что знать математику надо не для того чтобы реализовать ML (потому что с современными библиотеками это можно делать и без этого), а для того чтобы с пониманием играться настройками?

Replikant_mih, понимаешь, тут такой нюанс — мне нравится в это вникать — банально вдохновляет. К примеру, заниматься хардкорным программированием в духе java / kotlin или каким-нибудь веб’ом я бы не стал — сколь бы хайповой или перспективной эта сфера не казалась.

Если не попробовал заранее, не посмотрел те же вводные уроки Эндрю Ына а повелся на DS/ML моду, либо решил заниматься ХОТЬ ЧЕМ ТО — то зря. Если же душа лежит в анализу, не жаль тратить на это свободное время и деньги, разбираться — когда кипит мозг, а также пытал бесплатные курсы от курсеры, степика до ODS — и потом решил серьезно заниматься — то на мой взгляд можно и уйти в эту сферу.

Да дело не в настройках, сами методы обучения — это и есть сплошь математика со статистикой. По хорошему ты должен знать и понимать как сделать нормализацию не через готовую библиотеку, а «руками». Поверь, я бы сам хотел, чтобы было все легче и не так — но увы.

Моя цель в платных курсах была банальна-чтобы иметь общение с народом, а также то, что платные курсы ты хочешь / не хочешь будешь проходить. Но перед этим я вникал на бесплатных, потом взял тайм-аут подумать на «холодную» голову, и только после этого принял решение. Уже на одну литературу немало денег ушло.

Практическое обучение делал разумеется, писал даже легкую нейронку на основе numpy, но в кэгле до сих пор не принимал участия, надеюсь уже скоро дойду.

Тоже изучил детально эту рекламу и ощущение надо сказать, двойственное!

В свое время я имел честь закончил факультет, который тогда (да и сейчас тоже!) является лучшим в теме на всем пространстве Земли от островов Гавайи вплоть до пролива Ла-Манш. Среди прочих, у нас была так называемая «базовая кафедра» Искусственного Интеллекта (возглавлял академик Поспелов). Смею вас заверить, это было одно из немногих мест в СССР, где эти 2 слова вот так в явном, печатном виде упоминались.

И вот прошли годы, и «каждый встречный и поперечный» об этом толкует на улице. Казалось бы — каждый наш выпускник должен быть буквально на вес золота — ведь те, кто поставили на ту лошадку даже в 1998 году (купили СБЕР на все), сейчас выиграли ТЫСЯЧЕКРАТНО. В этой аналогии я поставил на ту лошадку еще на 10 лет раньше, в 1988 г.

Ан нет! Забыты старые авторитеты, появились молодые, борзые, нахрапистые — на вроде Яндекса. Которые непрерывно талдычат о том, какие они гении — чуть ли не единственная интеллектуальная компания во всей России, а самое главное — какие убогие все остальные в стране — плебеи, прожирающие нефтяную ренту, ну, чуть ли ни австралопитеки!

И вот те на — вдруг эти «гении» снизошли до нас, убогих, чтобы за круглую сумму нести нам светоч знаний .

Так вот, скажу, что впечатление первое такое: звучит все КРАЙНЕ ПОДОЗРИТЕЛЬНО! По-моему, просто люди хотят поднять непыльного бабла на хайповой теме.

Манул Кот, Вы про яндексовскую Школу анализа даных или про любое обучение по этой теме?)

Для высокотехнологичных компаний это один из каналов пополнения своих кадровых потребностей. Ну + это просто бизнес для них. Они получают деньги, люди востребованные знания.

В тех курсах, которые выбрал я, почитал подробную программу — разнообразие тем богатое, затрагиваются разные пласты и уровни, мне все понравилось на входе. Будем работать).

По поводу описанной вами кафедры — ну это область стремительная, если начать с хорошей базы и активно двигаться, то база конечно же большое преимущество, а если не двигаться, то быстро отстанешь от острия прогресса.

Вот цитата из их курса:

Курс по математике для Data Science, 8 модулей, 2 месяца

  • Линейная алгебра
  • Матанализ и методы оптимизации
  • Основы статистики и теории вероятности
  • Применение в машинном обучении и нейронных сетях

Давайте я разберу вам, как настоящий инсайдер, всего 1 пункт. Самое легкое, полезное и базовое тут — это линейная алгебра. Что это на пальцах? Грубо говоря, область математики, которая вас учит работать с векторами, матрицами, N-мерными пространствами, тензорами и т.д.

Помните из вуза такие слова, как «детерминант», системы линейных уравнений, правило Крамера, метод Гаусса? Вот всё это относится к лин. алгебре.

Тут надо подчеркнуть, что линейная алгебра — это, по сути, ликбез, я лично ее особо сложной не назову. В то же время, я далек от того, что бы пытаться вот так, с ходу, преподавать ее первому встречному, человеку с улицы. Точнее преподавать можно, но вероятность успеха — ниже 4%.

Поэтому могу дать такой совет — найдите реальную, бумажную книгу по ней (если сможете) или скачайте что-нибудь, на крайняк. Почитайте, полистайте прежде, чем платить господам из Яндекса деньги, попытайтесь понять — это вообще ваше или нет?

Конкретно, у нас базовым учебником по ней был Курс аналитической геометрии и линейной алгебры, Беклемишев Д.В. Также помню был какой-то гроссбух по матрицам Гантмахера.

В общем, поройтесь в инете, ищущий — да обрящет.

И помните — настоящая наука имеет очень отдаленное отношение к биржевой игре.

Манул Кот, Я не к Яндексу иду), у них на входе нужна хорошая математика, у меня нет. Мож потом и к ним запишусь когда уже подниму уровень.

Понятно, что книг и прочего открытого материала много, но для прокрастинатора это равнозначно, что ничего нет).

Replikant_mih, я не про Яндекс, я про вот это: https://skillfactory.ru/data-scientist.

Я на это объявление напоролся вчера, и, думаю, Вы — тоже.

Там из 4 заявленных преподавателей — 2 из Яндекса, поэтому я и сказал про них.

Яндекс — это сомнительная, псевдонаучная контора и у меня есть факты на руках, чтобы доказать это.

Replikant_mih, я понял (ДОШЛО, наконец!!), вы будете проходить тот курс, который от mail.ru. Просто я проскочил этот момент и сразу бросился мочить skillfactory.

В любом случае, дискуссия была полезной — для меня прежде всего тем, что люди дали ссылки на некоторые бесплатные ресурсы. Я их взглянул и уже накопал кое-что интересное.

Насчет платного обучения — я в него не особо верю, возможно потому, что сам учился всегда бесплатно (не считая биржевых потерь, разумеется!!) — наследие советской системы. Точнее, так: знания платное обучение может дать отличные, а вот бумажка, сертификат — от нее мне толку ноль, так как в России и зарплаты низкие, да к тому же еще и по возрасту зарежут.

Другое дело — если кто молодой, да в модных очках, да умеет на голубом глазу вести умные речи — тот закончит такие курсы и пойдет по конторам продавать себя подороже — это да, такой подход очень даже работает!

Что касается применимости тем ML/ИИ к извлечению альфы из рынка посредством трейдинга — ну, тут я скажу навскидку, релевантность не больше 10%. Тем более в частном трейдинге — то есть с малым депо.

Манул Кот, >>«Просто я проскочил этот момент и сразу бросился мочить skillfactory.»

По поводу платного образования — поговаривают, что когда оно платное ученики ответственней подходят к делу — хотя может, эту легенду придумали околорыночники в ответ на традиционный вопрос: если ты такой хороший трейдер зачем деньги тебе с обучаемых).

По поводу альфы — пока не могу прокомментировать, в лоб, думаю, толку от ML сложно добиться, а вот как-нибудь если по-хитрому прикрутить, то, наверное, толк может быть. Там помимо самого ML много всяких полезных скиллов и навыков обещаются).

Боюсь, что без классической схемы — экзекуции = зачет, экзамен, пересдача. забыл. Получить знания от альма матери не выйдет 🙂

А давайте образ мышления поменяем, лет так в 30,40,50. и передадим знание человеку — Что такое число?
Был гуманитарный, стал математический.

Нет, всё надо делать вовремя.

Jkrsss, Ну, я никогда не был гуманитарием), по образованию экономист — это где-то на границе). А давно работаю в аналитике, в IT, в финансах — это не сильно гуманитарно, так что с образом мышления все хорошо, IT бэкграунд неплохой имеется.

По поводу зачет-экзамен — по мне так это вообще противоестественное, когда у тебя мотивация сдать экзамен, а не получить знания и навыки, у меня как раз сейчас сильная мотивация получить знания.

А про 30, 40, 50 — это скорее про отговорки для того чтобы не выходить из зоны комфорта.

Jkrsss, ну если ты о математике — то тут она не должна быть на уровне 5 курса метмаха уж точно. И та же мат-ка не является чем то недостижимым — основы матана и линейной — доступны любому (ну почти). Ты не забывай, что в инсте часто надо вызубрить, сдать, переплюнуть и забыть. Когда ты занимаешься для своих целей, осознаешь необходимость изучить, а также повторяешь это в прикладных задачах из раза в раз — понимание совершенно другого уровня.

Самое практичное, что методы анализа данных — это не какая то оторванная дисциплина в вакууме, её можно применять в совершенно различных сферах, специальностях и секторах. И никакого искусственного интеллекта тут — конечно же нет.

WRK, Ага, уровень техникума советского с математическим уклоном. Методы анализа. Будет все как в прежние времена, расчетчиков(специалистов по Data Science. ) человек 300-400 на заводе(хедж фонде), а считать умеют только два.

Один из методов анализа подсказывает мне что на другой стороне бот.

Объявы по Data Science лезут изо всех щелей. По ходу, имеет место быть эффект чистильщика обуви: когда на Data Science можно было поднять реальных денег, об этом никто особо не знал, а когда все легкое и сладкое уже давно заработано, об этом стали говорить на каждом углу.

Вывод: можно изучать, но строго бесплатно и строго сообразуясь с полезностью, которую можно будет извлечь из этих знаний.

так вы за долгое платное онлайн обучение засели? тогда я вас не правильно понял. удачи, что.

я лично прошел несколько базовых бесплатных курсов и туториалов, чтобы понять что такое jupyter notebook, gbm и lgbm (всего одна буква разницы от lgbt и то искуственная разница, т.к. t = tree) и уже чувствую себя хорошо.
по крайней мере решился вопрос с пониманием того, какими методами сеть чего-то там решает. а то несколько лет пользовался многослойным перцептроном (в сочетании с некоторым новыми методиками учится хорошо и сравнительно быстро) — а понимания что внутри перцептрона происходит не было. просто чёрный ящик.

Мастер Йода рекомендует:  Заголовок HTML-страницы

в курсе по методологии утверждается, что всё-таки понимание предметной области это очень важно. всё-таки брут-форс не так эффективен как направленный брут-форс.

построил свою модель решающих пеньков, запустил, пока результат отрицательный (как и без них было)

а вот толком lgbm пока не разобрался.

ещё не понял такую штуку: допустим перцептрон может строить модели по нескольким фичам, как функцию от них.
а решающее дерево, классификатор, как я понял, такого не может.
поэтому высоко скоррелированные фичи для перцептрона норм, а для деревьев похоже — только мешают. и вот я не понял, как же можно и деревья применять и работать со скоррелированными данными.

наверное это следующий шаг — построение архитектур сетей из перцептронов и деревьев.
т.е. тренируем несколько деревьев на несколько наборов нескоррелированных фич,
тренируем несколько перцептронов на моделирование ещё более высокоуровневых фич
и результат снова пропускаем через дерево решений. это видимо и есть дип лёрнинг.

как вариант — обучить перцептрон с 3-4 слоями чтоб на выходе было только да или нет, а потом последний слой с 1 нейроном отрезать и вляпать вместо него дерево.

Data Science за 3 месяца: эффективный учебный план

Data Science за 3 месяца: эффективный учебный план

Data Science за 3 месяца? В своем ли мы уме? Вполне. Расскажем, как стать аналитиком данных за 12 недель по курсам Microsoft и др.

��Еще больше актуального материала по Data Science на нашем канале «Библиотека data scientist’а»: https://t.me/dsproglib
��Вакансии по Data Science: https://t.me/datajob

Эта статья была автоматически добавлена из сообщества Библиотека программиста

Глобальному миру — глобальные данные: 12 курсов по data science и аналитике

Наташа Федоренко

Ученых, специализирующихся на больших данных, нередко называют новой элитой, а Harvard Business Review считает эту профессию самой сексуальной в ХХI веке. Неплохая мотивация задуматься о переквалификации, особенно если вы уже что-то понимаете в математике и программировании. T&P собрали 12 курсов по анализу больших данных — и для тех, кто только начинает осваивать профессию, и для тех, кому необходимо прокачать уже имеющиеся навыки.

Специализация Дата-сайентист

Где и когда: онлайн с 15 мая (продолжительность — 1 год)

Стоимость: 120 000 рублей

SkillFactory предлагают стать дата-сайентистом с нуля всего за год — за это время вы освоите Python, классическое машинное обучение, секреты работы с нейросетями и deep learning.

Дата-сайентист

Где и когда: онлайн с июля (продолжительность — 5 месяцев)

Стоимость: 60 000 рублей

Создание архитектуры нейросетей и предсказательных моделей, разбор алгоритмов машинного обучения и интерпретация результатов исследований — серия интенсивных вебинаров пригодится тем, кто хочет овладеть востребованной профессией дата-сайентиста.

Машинное обучение и анализ данных

Организатор: «Яндекс», МФТИ

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 41 600–69 600 рублей

Курс начинается с азов — фундаментальной математики и программирования на Python. Затем преподаватели расскажут, как использовать алгоритмы для конкретных бизнес-задач, например прогнозов спроса на товар или расчетов вероятности клика по рекламе. В конце обучения студенты создадут собственный проект по анализу данных для социальных сетей, электронной коммерции и др. Для выпускников доступна программа трудоустройства.

Data Science. Уровень 1

Организатор: МГТУ им. Баумана

Где и когда: онлайн или очно в Москве с 5 мая (продолжительность — 24 ак. часа)

Стоимость: 15 990–61 200 рублей

Студенты научатся решать задачи по большим данным с помощью языка R, строить аналитические модели, оценивать их качество и визуализировать результаты в Excel. Курс подойдет тем, кто уже знаком с математической статистикой, языками SQL и R.

Hadoop.Система для обработки больших объемов данных

Организатор: Mail.Ru Group


Где и когда: онлайн в любое время (продолжительность — 29 часов)

Hadoop — одна из самых популярных систем для обработки больших данных. В этом онлайн-курсе объяснят, как ей пользоваться. Для участия очень желательно знание языков программирования.

Основы программирования на Python

Организатор: НИУ ВШЭ

Где и когда: онлайн в любое время (продолжительность — 9 недель)

Стоимость: бесплатно, сертификат — 1901 рубль

Python — один из самых популярных языков программирования, который пригодится и для анализа больших данных, и для написания программ. Курс поможет освоить язык на базовом уровне.

Специализация: Большие данные

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 3213 рублей в месяц

Большая онлайн-специализация, которая будет полезна всем, кто уже работает с большими данными. На курсах расскажут об основах Hadoop, MapReduce, Spark, обработке данных в реальном времени, крупномасштабном машинном обучении и т. д.

Визуализация данных

Организатор: Гарвардский университет

Где и когда: онлайн в любое время (продолжительность — 8 недель)

Стоимость: бесплатно, сертификат — $49

Как визуализировать исследования больших данных, расскажут в 8-недельном гарвардском курсе. Студенты освоят пакет визуализации ggplot2 для языка статистического программирования R.

Наука о данных для менеджеров

Организатор: Федеральная политехническая школа Лозанны

Где и когда: Лозанна, с 3 июня (продолжительность — 5 дней)

Стоимость: 3400–4200 CHF

Пятидневная программа в Лозанне будет полезна менеджерам, которые хотят использовать большие данные для стратегического планирования в бизнесе. На курсе расскажут об основах науки о данных и популярных методах исследования в здравоохранении, машиностроении, финансах, телекоммуникациях, городском развитии и т. д.

Прикладная наука о данных

Организатор: Мичиганский университет

Где и когда: осенью, онлайн (продолжительность — 1–3 года)

Стоимость: $31 688–42 262 (больше половины студентов получат стипендию)

Магистерская онлайн-программа Мичиганского университета подойдет всем, кто всерьез задумывается о карьере дата-сайентиста. Диапазон тем — от практических навыков программирования и анализа данных до профессиональной этики. От претендентов ожидают наличие базовых знаний в области статистики и языка Python.

Сертификат IBM в области науки о данных

Где и когда: онлайн в любое время (продолжительность — 2 месяца)

Стоимость: 2557 рублей в месяц

Python, SQL, машинное обучение и визуализация — онлайн-программа повышения квалификации от IBM пригодится всем, кто хочет улучшить свои навыки работы с большими данными.

Наука данных от Microsoft

Где и когда: онлайн в любое время (продолжительность — 160–320 ак. часов)

Большая специализация по большим данным от Microsoft подойдет как тем, кто хочет освоить новую профессию, так и тем, кому необходимо улучшить конкретный навык — от сторителлинга (чтобы лучше презентовать свои исследования) до аналитики в Excel.

Наука данных для практических целей

Где и когда: онлайн, с 30 апреля (продолжительность — 3 месяца)

Сегодня большие данные необходимы почти везде — от кибербезопасности и здравоохранения до финансов и индустрии развлечений. Этот курс поможет увидеть реальные перспективы для применения своих знаний тем, кто уже освоил азы статистики и программирования.

Какие навыки нужны специалисту по Data Science

Что нужно знать, чтобы анализировать данные — рассказывают преподаватели школы SkillFactory.

Что такое Data Science

В конце июня 2020 года Google выпустила обновление для своего сервиса «Карты». В новой версии приложение научилось предсказывать задержки в движении общественного транспорта даже тогда, когда у него нет доступа к данным текущего местоположения автобусов. Алгоритм рассчитывает время на дорогу с учётом всех факторов: пробок, расположения остановок, выделенных полос. Среди прочего для построения моделей специалисты использовали снимки из Google Street View.

Предсказание скорости движения общественного транспорта — один из примеров того, как бизнесу и пользователям помогает data science.

Наука о данных — обширная сфера, которая сочетает несколько смежных дисциплин. Это программирование, математика и статистика, бизнес-аналитика и машинное обучение.

Специалисты в этой сфере, аналитики данных, работают с большими массивами данных, извлекая из них полезную информацию. Результат даёт ответы на множество вопросов: например, почему один менеджер заключил больше сделок, сколько единиц товара нужно закупить в следующем квартале и какой компонент лекарства улучшит самочувствие пациента. Для решения некоторых задач специалисты разрабатывают алгоритмы, которые способны генерировать результат без участия человека.

По данным HeadHunter, специалисты в анализе данных в 2020 году получали в России от 130 до 300 тысяч рублей в зависимости от опыта.

Спрос на аналитиков данных увеличивается каждый год: только с 2020 года по 2020 он вырос в два раза. При этом доля вакансий для кандидатов с опытом работы меньше года на четверть выше, чем в целом по ИТ-рынку.

В чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту. Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения.

Преподаватели школы SkillFactory изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Мы готовы учить людей с нулевым уровнем знаний в программировании. Специально для них мы проводим десять дополнительных вебинаров в рамках курса: пять по вводному блоку и пять по основному. Согласно нашему опросу около трети студентов никогда не программировали, столько же — программировали в школе. Остальные — это люди с каким-то опытом, но матёрых разработчиков среди них мало, чаще всего это люди, которые изучали другие языки программирования.

На курсе мы изучаем базовые алгоритмические конструкции, структуры данных, работу со строками, работу с датами и функции. Начинаем с введения в Python: изучаем кнопки, пишем программу «Hello World». Если студент будет прикладывать хотя бы 40% усилий от своего максимума и вовремя будет давать обратную связь, то изучение даже с нуля не займет много времени. На изучение базового Python понадобится от 2-3 недель до полугода, если заниматься раз в неделю.

Второй этап — знакомство с библиотекой Pandas, которая нужна для сбора, очистки и анализа данных. Это займёт от 1-2 недель если уделять занятиям целый рабочий день и иметь базовые навыки программирования. Нужно быть готовым продолжить обучение после курса: библиотека большая, в ней много функций и настроек, которые нельзя выучить сразу.

Полезные материалы для изучения Python

Pythontutor.ru — хороший бесплатный учебник на русском языке. Это базовая книга, где рассматриваются все основные структуры данных, а ещё много заданий на каждую тему.

  • CS50 на русском (Гарвардский курс по основам программирования) — первые лекции стоит посмотреть всем, кто начинает изучать программирование.
  • Pythonworld.ru — блог, где подробно объяснены основные вопросы программирования и разных методов.
  • Pythonicway.com — похож на предыдущий сайт.
  • Анализ

    Основа работы аналитика данных — работа с данными. В том числе с теми, которые можно «скормить» разработанному алгоритму.

    Вокруг огромное количество данных, современное человечество генерирует их с невероятной скоростью каждый день. Эти данные нужно уметь собирать, хранить, приводить в приемлемый для анализа или машинного обучения вид — очищать, форматировать и определять, что именно можно узнать из этих данных.

    Анализ данных тесно связан с использованием профильных библиотек для Python и с пониманием математических и статистических основ анализа данных. Важно уметь находить в них закономерности и понимать цели и задачи бизнеса.

    Математика и статистика

    Заниматься Data Science можно и без глубоких знаний в фундаментальной математике: современные библиотеки содержат огромное количество готовых решений. С их помощью можно анализировать данные и обучать алгоритмы не вдаваясь в математические подробности. Но только до первой по-настоящему сложной или нетипичной задачи.

    Разобраться с ними можно только если аналитик данных действительно понимает, как работают все строчки кода «под капотом» с точки зрения математики и статистики. Поэтому крупные компании на собеседованиях часто проверяют уровень знаний соискателя в этих областях.

    В чём нужно разбираться специалисту:

    Линейная алгебра — основы работы с векторным и матричным представлением данных.

  • Математический анализ — для оптимизации моделей и алгоритмов, понимания, где можно «докрутить» модель, чтобы она работала лучше и быстрее.
  • Теория вероятности и статистика — для многих алгоритмов машинного обучения, проведения анализа данных и адекватного проведения a/b-тестов. Помогает оценить, насколько вообще можно полагаться на имеющиеся данные, как работать с выбросами в данных, которые могут испортить всю достоверность информации.
  • Использование NumPy и других библиотек Python для вычислений и построения моделей. Для математических и статистических вычислений и преобразований уже повсеместно используют возможности Python, а для работы с машинным обучением знание этих инструментов необходимо.
  • Для изучения Data Science необходимо базовое знание школьного курса по математике. Не на уровне 80 баллов ЕГЭ — достаточно знать, что такое квадратичные уравнения и как они решаются, как умножаются скобки. Важно разбираться в технических моментах.

    На курсе по Data Science в SkillFactory изучение математики состоит из трёх блоков: основы линейной алгебры, матанализ и теория вероятности и статистика. Студентам не придётся доказывать теоремы или как-то углубляться в основы. Например, блок про матанализ — это скорее рассказ про математику, из которого становится понятно, что математики умеют сегодня и как этим можно пользоваться.

    Полезные материалы по математике

    «(Не)совершенная случайность» Леонарда Млодинова.

  • «Гарри Поттер и методы рационального мышления» Элиезера Юдковского.
  • «Голая статистика» Чарльза Уилана.
  • Серия «Образовательная манга».
  • YouTube-канал 3blue1brown.
  • Машинное обучение и глубокое обучение

    Обучение нейросетей — один из подразделов машинного обучения, в котором, в свою очередь, выделяется глубокое обучение. Сложная система терминологии связана с тем, что область развивалась десятилетиями до того, как очередные прорывы в методах сделали её по-настоящему популярной — подобласти выделялись постепенно. Сейчас, когда речь идет об обучении нейросетей, чаще всего подразумевают методы глубокого обучения.

    Машинное обучение — огромная самостоятельная область, но лишь часть науки о данных. В ней можно развиваться практически бесконечно — новые методы появляются каждый год. Если раньше Deep Learning был условно единой областью знаний, то сегодня входящие в него подобласти — компьютерное зрение, работа с естественным языком, обучение с подкреплением, генеративно-состязательные сети и другие методы, — выделяются в самостоятельные сферы специализации. Это направление растёт невероятно быстро, заставляя специалистов постоянно поддерживать свой уровень знаний, чтобы успевать за рынком.

    Путь от нуля до первых результатов в машинном обучении занимает от шести месяцев до года. С опытом в программировании — быстрее. Область машинного обучения уже получила набор инструментов, с помощью которых можно быстро создавать рабочие модели. Проблема лишь в написании обертки вокруг модели и написании той части кода, которая отвечает за предобработку данных. Поэтому специалистам нужен опыт, а опыт нарабатывается только работой.

    На курсе по Data Science в SkillFactory я отвечаю за три блока: введение в машинное обучение, предобработка данных и метрики. В первом блоке я рассказываю, что умеют делать машины, а что нет. Во втором блоке мы учимся решать проблему плохих данных или неполных данных. Третий блок учит проверять, работает ли модель машинного обучения и как её улучшить.

    Полезные материалы по машинному обучению

    Thecode.media — очень простая вводная статья для тех, кто не знаком с темой.

    Coursera.org — курс Machine Learning от Andrew Ng на Coursera.

    Книга «Создаем нейронную сеть» Тарика Рашида.

    Data Engineering

    Данные обладают структурой в аналитическом, информационном и даже физическом смысле — их нужно где-то хранить, поддерживать доступность и устойчивость, организовывать архитектуру. Например, Нью-Йоркская фондовая биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

    Организовать работу с данными, измеряемыми в сотнях и тысячах терабайт, непросто. Для взаимодействия с ними есть свои подходы, концепции и инструменты.

    Организацией сбора, хранения и доступа к данным занимаются информационные инженеры. Аналитику данных придётся либо общаться с ними на одном языке, либо — особенно в небольших компаниях — самому выполнять функции дата инженера.

    Полезные материалы

    • Почитать немного о Big Data простым языком можно здесь.
    • Data Science from Scratch.
    • Big Data.

    Data Science в продакшн

    В конечном итоге все знания и инструменты нужны для того, чтобы применять их в интересах бизнеса. Здесь важны два навыка:

    Умение определять, какие именно инструменты нужны для решения конкретной задачи: где внедрить машинное обучение, а где построить базу данных и внедрить SQL-запросы.

  • Продуктовый взгляд на свою работу: умение общаться и налаживать контакты с коллегами, аргументировать свою точку зрения, управлять процессами в своей работе и команде.
  • Чтобы стать специалистом в data science, нужно освоить много навыков в самых разных областях. Это посильная задача: каждую сферу можно осваивать и углублять постепенно.

    Будущим аналитикам данных нужна самоорганизация и целеустремленность, чтобы освоить такой объём знаний. Придётся ориентироваться в потоках информации, не потеряться в порядке изучения, найти самые актуальные методы и принципы, а самое главное — разобраться, почему что-то работает не так, и найти достаточное поле для практики.

    Для тех, кто не боится вызовов и хочет освоить востребованную специальность, в Skillfactory разработали курс по Data Science. Он спроектирован в соответствии с запросами рынка в сотрудничестве с практиками data science из российских компаний.

    Весь материал подобран и организован так, чтобы студенты постепенно осваивали необходимые навыки и отрабатывали их на большом количестве практических заданий — на тренажёрах, аналитических кейсах, создании алгоритмов машинного обучения и в соревнованиях.

    Комплексная и продуманная программа дополняется сильным сообществом, в котором состоят студенты разных потоков, кураторы, менторы и наставники. Каждый из них выполняет свою роль: одни помогают с техническими и организационными вопросами, другие поясняют правильность выполнения учебных задач, третьи отвечают на вопросы о реалиях сферы data science, мотивируют продолжать учебу и развивают своих подопечных.

    В рамках курсах вам будет предложено решить несколько кейсов, которые основаны на реальных задачах бизнеса. Вы сможете поработать в команде с другими студентами, прокачать навыки, полученные в курсе и получить успешных проект для вашего портфолио. Эта возможность сделает вас востребованным специалистом на рынке сразу после завершения программы.

    На SkillFactory вы можете получить бесплатный двухнедельный доступ к курсу Data Science. А для тех читателей, кто захочет продолжить, есть промокод на скидку 25%: VC-25

    Добавить комментарий