План обучения для специалиста по Data Science
Data Science и Machine Learning — 6 лучших онлайн-курсов в рунете
Data Science, Machine Learning, Big Data, нейросети и искусственный интеллект — всё это слова, связанные с самым растущим направлением бизнеса — анализом больших данных. Об этом уже выпущено много бесплатных англоязычных курсов на Coursera и EdX. Это статья про 6 лучших онлайн-курсов для начинающих обучение «науке о данных» с нуля до первых стажировок и трудоустройства.
Почему это направление такое растущее? Потому что современные системы аналитики собирают огромное количество данных о бизнесе, на основе которых принимаются судьбоносные решения о развитии отдельных направлений и всего бизнеса. Специалисты, которые умеют работать с данными: собирать, обрабатывать и интерпретировать ценятся на вес золота и спрос на них только растёт, поэтому есть смысл внимательнее присмотреться к получению профессии Data Scientist.
1. Онлайн-курс практический Machine Learning
SkillFactory – один из самых заметных игроков на рынке русскоязычных курсов по машинному обучению. Преподаватели-практики с опытом в Data Science готовы сделать из вас специалиста по данным за 11 недель. За это время вы изучите основные модели машинного обучения, научитесь оценивать качество алгоритмов, разберётесь в глубоком обучении с помощью нейросетей, изучите Feature Engineering, рекомендательные системы, кластеризацию, распознавание изображений и текстов с помощью нейросетей, а также сами большие данные. В конце курса вас ждёт хакатон – командное соревнование практических решений на основе полученных знаний.
Выпускники получают сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость от 35900 до 51900. В зависимости от даты брони места на курсе и количества свободных мест. Как читатель блога igaryoh.ru вы можете получить 10% скидку на курс, сообщив менеджеру кодовое слово igaryoh после регистрации. Полную программу курса, а также подробный план развития в Data Science вы можете получить по этой ссылке .
2. Специализация Data Sciense
Вы пройдете полный цикл обучения, начиная с изучения языка Python для анализа данных, классического машинного обучения, самого востребованного направления в области машинного обучения — нейросетей и deep learning, и заканчивая основами data engineering и применением data science на практике. Для прохождения этого курса вам не потребуется специальных знаний, выходящих за рамки школьной программы по математике.
Выпускники получат сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость обучения от 120 000 до 150 000. В зависимости от даты брони места на курсе и количества свободных мест. Подробности и программа по ссылке.
3. Python для анализа данных
Тем, кто решил прокачаться в анализе больших данных, необходимо уметь использовать язык программирования Питон. SkillFactory вместе с Константином Башевым, программистом-аналитиком Яндекс.Маркета готовы научить вас применять этот язык по назначению с нуля за 6 недель.
Это стартовая база, для тех кто хочет понять что такое машинное обучение. Курс хорош для всех кто работает с данными — от бизнес-аналитиков и финансистов, до маркетологов и продуктовых аналитиков. Он заточен для тех, кто не умеет программировать. Здесь вас научат не программировать, а использовать язык Питон и библиотеку Pandas для анализа данных. 13 модулей, экзамен в конце курса, тусовка с полезными знакомствами, сертификат, а также помощь со стажировкой и трудоустройством.
Стоимость от 29900 до 37900 в зависимости от даты брони места на курсе и количества свободных мест. Получите 10% скидку, сообщив менеджеру кодовое слово igaryoh после оформления заявки. Читайте подробности о программе и записывайтесь на курс по этой ссылке.
4. Профессия Data Scientist от Skillbox
Масштабная программа обучения Data Science с гарантией трудоустройства. Здесь вы будете последовательно идти от изучения основ анализа данных к наиболее интересным лично вам специализациям. Вы погрузитесь в профессию и даем задачи, которые приближены к жизненным ситуациям. Так вы получите опыт, близкий к работе в IT-компании, пройдёте путь с нуля до специалиста по Data Science middle-уровня. Узнайте подробности и записывайтесь на курс по этой ссылке.
5. Data Scientist с нуля до PRO
После прохождения базового курса вы сможете выбрать специализацию: аналитика или машинное обучение. Домашние задания содержат настоящие данные, то есть после курса вы фактически будете иметь за плечами год практики. Возможность стажировки в топовых компаниях России, а также помощь в трудоустройстве и прохождении собеседований. Преподаватели из Facebook, IVI.ru, Skillbox и Высшей школы экономики. Регистрация здесь.
6. Профессия Data Scientist от Нетологии
Онлайн-университет «Нетология» запустила, пожалуй, самый масштабный в России курс по науке о данных. Лучшие эксперты по Data Science сначала в онлайне, а затем в кампусе Нетологии (в Москве) будут вести вас от первых шагов в данных до собственной Machine-Learning-разработки и хакатона (конкурса практических решений). Преподаватели: ivi, Яндекс, Сбербанк, ВШЭ и др. Участники курса получают гарантированную стажировку или трудоустройство. Подробности и регистрация по этой ссылке.
Автор: Игорь Селезнёв, интернет-предприниматель, основатель проекта «RELANCE».
Развиваю онлайн-бизнес и себя, путешествую, кайфую от жизни и исполняю мечты, помогаю строить удалённую карьеру. 🙂 |
Подпишись на наше сообщество во ВКонтакте и канал в Телеграме и строй удалённую карьеру вместе с нами! 🙂
Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию
Пошаговая инструкция для тех, кто не знает, с чего начать
Профессию Data Scientist сегодня часто называют одной из самых перспективных и модных. Онлайн-курсы и университеты предлагают все больше программ обучения этой специальности, и новичкам не всегда понятно, с чего начать и как выбрать самый эффективный путь. Руководитель факультета Data Science онлайн-университета «Нетология» Елена Герасимова специально для «Цеха» составила подробный путеводитель по миру науки о данных. В материале вы найдете объяснения главных терминов, пошаговую инструкцию для тех, кто только входит в профессию, а также список полезной литературы по каждой теме.
О чем речь
Data Science — деятельность, связанная с анализом данных и поиском лучших решений на их основе. Раньше подобными задачами занимались специалисты по математике и статистике. Затем на помощь пришел искусственный интеллект, что позволило включить в методы анализа оптимизацию и информатику. Этот новый подход оказался намного эффективней.
Как строится процесс? Все начинается со сбора больших массивов структурированных и неструктурированных данных и их преобразования в удобный для восприятия формат. Дальше используется визуализация, работа со статистикой и аналитические методы — машинного и глубокого обучения, вероятностный анализ и прогнозные модели, нейронные сети и их применение для решения актуальных задач.
Пять главных терминов, которые нужно запомнить
Искусственный интеллект, машинное обучение, глубокое обучение и наука о данных — основные и самые популярные термины. Они близки, но не эквивалентны друг другу. На старте важно разобраться, чем они отличаются.
Искусственный интеллект (Artificial Intelligence) — область, посвященная созданию интеллектуальных систем, работающих и действующих как люди. Ее возникновение связано с появлением машин Алана Тьюринга в 1936 году. Несмотря на долгую историю развития, искусственный интеллект пока не способен полностью заменить человека в большинстве областей. А конкуренция ИИ с людьми в шахматах и шифрование данных — две стороны одной медали.
Машинное обучение (Machine learning) — создание инструмента для извлечения знаний из данных. Модели ML обучаются на данных самостоятельно или поэтапно: обучение с учителем на подготовленных человеком данных и без учителя — работа со стихийными, зашумленными данными.
Глубокое обучение (Deep learning) — создание многослойных нейронных сетей в областях, где требуется более продвинутый или быстрый анализ, и традиционное машинное обучение не справляется. «Глубина» обеспечивается некоторым количеством скрытых слоев нейронов в сети, которые проводят математические вычисления.
Большие данные (Big Data) — работа с большим объемом часто неструктурированных данных. Специфика сферы — это инструменты и системы, способные выдерживать высокие нагрузки.
Наука об анализе данных (Data Science) — в основе области лежит наделение смыслом массивов данных, визуализация, сбор идей и принятие решений на основе этих данных. Специалисты по анализу данных используют некоторые методы машинного обучения и Big Data: облачные вычисления, инструменты для создания виртуальной среды разработки и многое другое.
Где применяется Data Science
• обнаружение аномалий, например, ненормальное поведение клиента, мошенничества;
• персонализированный маркетинг — электронные рассылки, ретаргетинг, системы рекомендаций;
• количественные прогнозы — показатели эффективности, качество рекламных кампаний и других мероприятий;
• скоринговые системы — обработка больших объемов данных, помощь в принятии решений, например, о предоставлении кредита;
• базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Пять основных этапов в работе с данными
• Сбор. Поиск каналов, где можно собирать данные, и выбор методов их получения.
• Проверка. Валидация, нивелирование аномалий, которые не влияют на результат и мешают дальнейшему анализу.
• Анализ. Изучение данных, подтверждение предположений.
• Визуализация. Представление информации в понятном для восприятия виде: графики, диаграммы.
• Реакция. Принятие решений на основе данных. Например, изменение маркетинговой стратегии, увеличение бюджета компании.
Образование. Шесть шагов на пути к Data Scientist
Путь к этой профессии труден: невозможно овладеть всеми инструментами за месяц или даже год. Придется постоянно учиться, делать маленькие шаги каждый день, ошибаться и пытаться вновь.
Шаг 1. Статистика, математика, линейная алгебра
Для серьезного понимания Data Science понадобится фундаментальный курс по теории вероятностей (математический анализ как необходимый инструмент в теории вероятностей), линейной алгебре и математической статистике.
Фундаментальные математические знания важны, чтобы анализировать результаты применения алгоритмов обработки данных. Сильные инженеры в машинном обучении без такого образования есть, но это скорее исключение.
«Элементы статистического обучения», Тревор Хасти, Роберт Тибширани и Джером Фридман — если после учебы в университете осталось много пробелов. Классические разделы машинного обучения представлены в терминах математической статистики со строгими математическими вычислениями.
«Глубокое обучение», Ян Гудфеллоу. Лучшая книга о математических принципах, лежащих в основе нейронных сетей.
«Нейронные сети и глубокое обучение», Майкл Нильсен. Для знакомства с основными принципами.
Полное руководство по математике и статистике для Data Science. Крутое и нескучное пошаговое руководство, которое поможет сориентироваться в математике и статистике.
Введение в статистику для Data Science поможет понять центральную предельную теорему. Оно охватывает генеральные совокупности, выборки и их распределение, содержит полезные видеоматериалы.
Полное руководство для начинающих по линейной алгебре для специалистов по анализу данных. Всё, что необходимо знать о линейной алгебре.
Линейная алгебра для Data Scientists. Интересная статья, знакомящая с основами линейной алгебры.
Шаг 2. Программирование
Большим преимуществом будет знакомство с основами программирования. Вы можете немного упростить себе задачу: начните изучать один язык и сосредоточьтесь на всех нюансах его синтаксиса.
При выборе языка обратите внимание на Python. Во-первых, он идеален для новичков, его синтаксис относительно прост. Во-вторых, Python многофункционален и востребован на рынке труда.
«Автоматизация рутинных задач с помощью Python: практическое руководство для начинающих». Практическое руководство для тех, кто учится с нуля. Достаточно прочесть главу «Манипулирование строками» и выполнить практические задания из нее.
Codecademy — здесь вы научитесь хорошему общему синтаксису.
Dataquest поможет освоить синтаксис.
После того, как изучите основы Python, познакомьтесь с основными библиотеками:
Машинное обучение и глубокое обучение:
Обработка естественного языка:
Web scraping (Работа с web):
Шаг 3. Машинное обучение
Компьютеры обучаются действовать самостоятельно, нам больше не нужно писать подробные инструкции для выполнения определенных задач. Поэтому машинное обучение имеет большое значение для практически любой области, но прежде всего будет хорошо работать там, где есть Data Science.
Первый шаг в изучении машинного обучения — знакомство с тремя его основными формами.
1) Обучение с учителем — наиболее развитая форма машинного обучения. Идея в том, чтобы на основе исторических данных, для которых нам известны «правильные» значения (целевые метки), построить функцию, предсказывающую целевые метки для новых данных. Исторические данные промаркированы. Маркировка (отнесение к какому-либо классу) означает, что у вас есть особое выходное значение для каждой строки данных. В этом и заключается суть алгоритма.
2) Обучение без учителя. У нас нет промаркированных переменных, а есть много необработанных данных. Это позволяет идентифицировать то, что называется закономерностями в исторических входных данных, а также сделать интересные выводы из общей перспективы. Итак, выходные данные здесь отсутствуют, есть только шаблон, видимый в неконтролируемом наборе входных данных. Прелесть обучения без учителя в том, что оно поддается многочисленным комбинациям шаблонов, поэтому такие алгоритмы сложнее.
3) Обучение с подкреплением применяется, когда у вас есть алгоритм с примерами, в которых отсутствует маркировка, как при неконтролируемом обучении. Однако вы можете дополнить пример положительными или отрицательными откликами в соответствии с решениями, предлагаемыми алгоритмом. Обучение с подкреплением связано с приложениями, для которых алгоритм должен принимать решения, имеющие последствия. Это похоже на обучение методом проб и ошибок. Интересный пример обучения с подкреплением — когда компьютеры учатся самостоятельно играть в видеоигры.
Визуализация в машинном обучении. Отличная визуализация, которая поможет понять, как используется машинное обучение.
Шаг 4. Data Mining (Анализ данных) и визуализация данных
Data Mining — важный исследовательский процесс. Он включает анализ скрытых моделей данных в соответствии с различными вариантами перевода в полезную информацию, которая собирается и формируется в хранилищах данных для облегчения принятия деловых решений, призванных сократить расходы и увеличить доход.
Что почитать и посмотреть:
Как работает анализ данных. Отличное видео с доходчивым объяснением анализа данных.
«Работа уборщика данных» — главное препятствие для анализа» — интересная статья, в которой подробно рассматривается важность анализа данных в области Data Science.
Шаг 5. Практический опыт
Заниматься исключительно теорией не очень интересно, важно попробовать свои силы на практике. Вот несколько хороших вариантов для этого.
Используйте Kaggle. Здесь проходят соревнования по анализу данных. Существует большое количество открытых массивов данных, которые можно анализировать и публиковать свои результаты. Кроме того, вы можете смотреть скрипты, опубликованные другими участниками и учиться на успешном опыте.
Шаг 6. Подтверждение квалификации
После того, как вы изучите все, что необходимо для анализа данных, и попробуете свои силы в открытых соревнованиях, начинайте искать работу. Преимуществом станет независимое подтверждение вашей квалификации.
- расширенный профиль на Kaggle, где есть система рангов. Вы можете пройти путь от новичка до гроссмейстера. За успешное участие в конкурсах, публикацию скриптов и обсуждения вы получаете баллы, которые увеличивают ваш рейтинг. Кроме того, на сайте отмечено, в каких соревнованиях вы участвовали и каковы ваши результаты.
- программы анализа данных можно публиковать на GitHub или других открытых репозиториях, тогда все желающие могут ознакомиться с ними. В том числе и работодатель, который проводит с вами собеседование.
Последний совет: не будьте копией копий, найдите свой путь. Любой может стать Data Scientist. В том числе самостоятельно. В свободном доступе есть все необходимое: онлайн-курсы, книги, соревнования для практики. Но не стоит приходить в сферу только из-за моды. Что мы слышим о Data Science: это круто, это самая привлекательная работа XXI века. Если это основной стимул для вас, его вряд ли хватит надолго. Чтобы добиться успеха, важно получать удовольствие от процесса.
Магистр по наукам о данных
Первая в России англоязычная магистерская программа, реализуемая полностью онлайн на образовательной платформе Coursera.
Цель программы — подготовить специалистов по современному анализу данных (data scientist), разработчиков машинного обучения (machine learning engineer) и будущих исследователей в области data science. Программа сочетает теорию с интенсивной практикой: отработка всех полученных навыков будет происходить на реальных проектах и задачах из индустрии.
Контакты
Москва,
Покровский бульвар, 11, корпус T, каб. T921
Телефон:
+7 (495) 772-95-90 * 27356 Email: msds@hse.ru
- Администрация
- Студсовет
Выразительная кнопка для срочных сообщений
Нашли опечатку ?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.
Программа реализуется полностью в онлайн формате
О чём эта программа?
Машинное обучение и анализ данных — крайне востребованное направление на сегодня. И в компаниях, и в науке появляется всё больше данных, и их можно использовать для извлечения экономической выгоды, получения новых знаний и результатов. Для этого нужны специалисты по работе с данными и построению сложных моделей на их основе.
Программа “Master of data science” рассчитана на подготовку специалистов по трём направлениям:
-
Data scientist — специалист по машинному обучению, владеющий современными подходами и методами, способный решать как традиционные, но важные для бизнеса задачи (прогнозирование спроса, предсказание оттока, анализ текстовых данных, сегментация и т.д.), так и более современные постановки (построение вопросно-ответных систем, анализ изображений, генерация реалистичных примеров и т.д.).
Machine Learning Engineer — специалист на стыке наук о данных и разработки, который понимает и профессионально использует современные технологии для сбора, хранения и анализа больших массивов данных, умеет писать эффективный код и проектировать сложные системы, связанные с сервисами на основе машинного обучения.
Researcher in DS — специалист по машинному обучению, знакомый со state-of-the-art результатами, понимающий теоретические основы машинного обучения и способный заниматься улучшением существующих методов.
Программа создана для тех, кто хочет разобраться в data science, получить практический опыт решения большого количества реальных задач и заинтересован в начале карьеры в этом направлении.
Преимущества нашей магистратуры
- Полностью онлайн — можно заниматься из любой точки земного шара по удобному вам расписанию;
- Максимально приближенное к очным программам взаимодействие — преподаватели доступны для общения в чатах (Slack) и видеоконференциях (Zoom), регулярные вебинары, обсуждения и взаимодействие с однокурсниками, большое количество заданий, проверяемых преподавателями вручную;
- Большое количество практики — практически все курсы завершаются проектом, а также в программе предусмотрено три больших проектных курса, где по шагам решается сложная реальная задача из бизнеса от компаний-партнёров;
- Возможность пройти пробное собеседование в компаниях-партнёрах магистратуры для лучших студентов;
- Программа выстроена с учётом запросов и экспертизы от ведущих IT-компаний России;
- Программу при достаточном вложении времени могут успешно пройти люди без серьёзного бэкграунда в математике и/или программировании.
Требования к поступающим
Для поступления в магистратуру необходимо иметь диплом бакалавра или специалиста по любому направлению.
В программе предусмотрено полноценное изучение математики для анализа данных, программирования и алгоритмов, поэтому даже студенты с непрофильным бакалаврским образованием смогут выровнять свой уровень и полноценно изучить все дальнейшие курсы.
Для поступления необходимо обладать знаниями по базовым разделам математики и на достаточном уровне владеть математической культурой. Зачисление на программу будет осуществлено по итогам вступительного онлайн-экзамена по математике с прокторингом.
Во время обучения
В рамках программы студенты могут выбрать один из трёх треков — два карьерно-ориентированных, цель которых подготовить студентов к трудоустройству на конкретные позиции, и один исследовательский:
- Data Scientist (трек по подготовке датасаентистов),
- Machine Learning Engineer (трек по подготовке ML-инженеров),
- Researcher in Data Science (трек ориентирован на развитие исследовательских навыков в области Data Science).
С первого семестра студенты изучают программирование (Python, SQL), алгоритмы и структуры данных, математику для анализа данных. Завершается изучение курсов блока математики и программирования проектом по сбору и обработке больших массивов данных.
В середине второго семестра обучения студенты определяются с треком и далее изучают курсы в соответствии с выбранным направлением.
Помимо стандартных курсов, сочетающих теорию и практические задания, в программе предусмотрены еще два крупных проектных курса: по машинному обучению и финальный проект (выпускная квалификационная работа, которая может быть посвящена проектной или исследовательской задаче).
Для успешного освоения программы студентам необходимо набрать 120 кредитов, т.е.
- изучить 18 курсов* по 5 кредитов (90 кредитов),
- выполнить 2 проектных курса по 10 кредитов (20 кредитов),
- пройти 1 финальный курс* (7 кредитов),
- а также защитить выпускную квалификационную работу (3 кредита).
Всё обучение на магистерской программе будет проходить полностью онлайн. Контроль за самостоятельностью выполнения заданий будет осуществляться стандартными для онлайн-программ средствами: еженедельное общение в формате форумов и вебинаров, проведение ключевых контрольных мероприятий с прокторингом, проведение защиты проектов и дипломной работы посредством видеоконференций.
* В соответствии с выбранным треком
После магистратуры
Выпускники программы могут начать карьеру по направлению анализа данных и машинного обучения, претендовать на позиции Junior Data Scientist или Junior Machine Learning Engineer. Также выпускники смогут начать академическую карьеру и заняться исследованиями в области data science в аспирантуре.
Как стать Data Scientist. Осваиваем новую перспективную профессию
Кто такой Data Scientist, или специалист по данным
Вокруг профессии Data Scientist ходит немало мифов, и многие толком не понимают, что это такое. Кому-то кажется, что специалист по данным или специалист по анализу данных — это что-то вроде программиста (по принципу: умеешь программировать, значит, умеешь работать с данными), кто-то считает эту профессию похожей на администратора баз данных, а кто-то вообще не знает, что это такое.
Забегая вперед, нужно сразу отметить, что специалист по анализу данных — это не программист и никак уж не администратор базы данных, хотя навыки программирования он иметь обязан.
Специалист по данным — это специалист, владеющий тремя группами навыков:
- математика и статистика;
- IT-навыки, в том числе программирование;
- понимание бизнес-процессов в той или иной области.
Вакансии не всегда называются Data Scientist. Очень часто встречаются варианты: программист-аналитик, аналитик Big Data, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик и другие.
Среди обязанностей специалиста по данным можно выделить следующие:
- сбор больших объемов данных и приведение их в удобный формат;
- программирование на языках Python, R, SAS;
- решение бизнес-задач с использованием методов обработки данных;
- поиск скрытых связей и закономерностей в данных;
- проведение статистических тестов.
Специалист по данным должен понимать бизнес-запросы своей организации, владеть аналитическими инструментами: машинным обучением и текстовой аналитикой.
По утверждению консалтинговой компании McKinsey Global Institute, уже в следующем году в США (только в США, не во всем мире!) понадобится целая армия специалистов по данным — от 140 до 190 тысяч.
Сколько зарабатывает специалист по данным
В США средняя зарплата специалиста по данным составляет более 138 тысяч долларов в год. В России можно претендовать на зарплату от 120 тысяч рублей в месяц (более 26 тысяч долларов в год).
Если сравнивать с профессией простого программиста, то в США средняя зарплата программиста составляет 65–80 тысяч долларов в год, а в России 60 тысяч рублей в месяц, или 13 тысяч долларов в год.
В любом случае, получив специальность специалиста по данным, можно зарабатывать больше программиста.
Как видишь, специалист по данным — очень перспективная профессия. Во-первых, зарплата у него выше, чем у обычного программиста. Во-вторых, специалистов по данным не так много и рынок испытывает дефицит специалистов, причем не только в России, но и во всем мире.
Освоить профессию Data Scientist можно в университете по подготовке и дополнительному обучению специалистов «Нетология».
Что дает курс обучения Data Scientist
Пройдя курс Data Scientist, ты научишься:
- создавать рекомендательные системы и нейросети и обучать их, обрабатывать тексты на естественном языке;
- понимать поставленную задачу и правильно подавать результаты своей работы заказчику (ты будешь практиковаться в формализации требований, визуализации данных, составлении отчетов и презентаций для заказчика).
После окончания курса ты получишь диплом о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению».
Нужно отметить, что половина времени курса отводится на практические знания и применение этих знаний в онлайн-маркетинге, e-commerce и других прикладных областях. На программу были отобраны преподаватели, каждый день работающие с большими данными, обучающие машины и решающие задачи по Big Data. Каждый преподаватель — не теоретик, а хорошо зарекомендовавший себя специалист в области анализа данных.
Программа занятий
Программа занятий состоит из 11 частей:
- Введение в Data Science, рассмотрение основных инструментов — ты узнаешь, что такое Data Science, Big Data и как это все работает.
- Базовые алгоритмы и понятия машинного обучения — здесь рассматриваются деревья решений, кластеризация, линейный классификатор, логическая регрессия и другие непонятные для обывателя вещи.
- Feature engineering — это проблемы качества и размерности данных, а также методы декомпозиции данных.
- Рекомендательные системы — введение в рекомендательные системы, неперсонализированные и персонализированные рекомендации.
- Распознавание изображений, машинное зрение — нейросети, рукописный ввод, детекция объектов на изображении.
- Обработка естественного языка — введение в обработку текста и обзор существующих библиотек, их использование и доработка.
- Анализ временных рядов, прогнозирование стоимости акций и других товаров — временные ряды, модели ARMA/ARIMA, модели прогнозирования.
- Общение с заказчиком — формализация требований, составление отчетов по исследованиям, визуализация данных, презентация проекта.
- Дополнительные инструменты, среды — инструменты HP и Google для работы с большими данными.
- Data Science в цифровом маркетинге и e-commerce-проектах: цели, задачи, решения и критерии успешности применения больших данных.
- Дипломная работа — разработка и внедрение собственного решения/проекта в области больших данных и машинного обучения.
Ознакомиться с полной программой можно здесь.
- Месяцев обучения: 5
- Часов в неделю: 9
- Экспертов: 13
- Часов практики: 100+
Требования к студентам
Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.
Курс подготовки
Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.
Сколько стоит
Базовая стоимость — 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.
Что в итоге
Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.
Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца.
Диплом государственного образца о профессиональной переподготовке по специальности
Глобальному миру — глобальные данные: 12 курсов по data science и аналитике
Наташа Федоренко
Ученых, специализирующихся на больших данных, нередко называют новой элитой, а Harvard Business Review считает эту профессию самой сексуальной в ХХI веке. Неплохая мотивация задуматься о переквалификации, особенно если вы уже что-то понимаете в математике и программировании. T&P собрали 12 курсов по анализу больших данных — и для тех, кто только начинает осваивать профессию, и для тех, кому необходимо прокачать уже имеющиеся навыки.
Специализация Дата-сайентист
Где и когда: онлайн с 15 мая (продолжительность — 1 год)
Стоимость: 120 000 рублей
SkillFactory предлагают стать дата-сайентистом с нуля всего за год — за это время вы освоите Python, классическое машинное обучение, секреты работы с нейросетями и deep learning.
Дата-сайентист
Где и когда: онлайн с июля (продолжительность — 5 месяцев)
Стоимость: 60 000 рублей
Создание архитектуры нейросетей и предсказательных моделей, разбор алгоритмов машинного обучения и интерпретация результатов исследований — серия интенсивных вебинаров пригодится тем, кто хочет овладеть востребованной профессией дата-сайентиста.
Машинное обучение и анализ данных
Организатор: «Яндекс», МФТИ
Где и когда: онлайн в любое время (продолжительность — 8 месяцев)
Стоимость: 41 600–69 600 рублей
Курс начинается с азов — фундаментальной математики и программирования на Python. Затем преподаватели расскажут, как использовать алгоритмы для конкретных бизнес-задач, например прогнозов спроса на товар или расчетов вероятности клика по рекламе. В конце обучения студенты создадут собственный проект по анализу данных для социальных сетей, электронной коммерции и др. Для выпускников доступна программа трудоустройства.
Data Science. Уровень 1
Организатор: МГТУ им. Баумана
Где и когда: онлайн или очно в Москве с 5 мая (продолжительность — 24 ак. часа)
Стоимость: 15 990–61 200 рублей
Студенты научатся решать задачи по большим данным с помощью языка R, строить аналитические модели, оценивать их качество и визуализировать результаты в Excel. Курс подойдет тем, кто уже знаком с математической статистикой, языками SQL и R.
Hadoop.Система для обработки больших объемов данных
Организатор: Mail.Ru Group
Где и когда: онлайн в любое время (продолжительность — 29 часов)
Hadoop — одна из самых популярных систем для обработки больших данных. В этом онлайн-курсе объяснят, как ей пользоваться. Для участия очень желательно знание языков программирования.
Основы программирования на Python
Организатор: НИУ ВШЭ
Где и когда: онлайн в любое время (продолжительность — 9 недель)
Стоимость: бесплатно, сертификат — 1901 рубль
Python — один из самых популярных языков программирования, который пригодится и для анализа больших данных, и для написания программ. Курс поможет освоить язык на базовом уровне.
Специализация: Большие данные
Где и когда: онлайн в любое время (продолжительность — 8 месяцев)
Стоимость: 3213 рублей в месяц
Большая онлайн-специализация, которая будет полезна всем, кто уже работает с большими данными. На курсах расскажут об основах Hadoop, MapReduce, Spark, обработке данных в реальном времени, крупномасштабном машинном обучении и т. д.
Визуализация данных
Организатор: Гарвардский университет
Где и когда: онлайн в любое время (продолжительность — 8 недель)
Стоимость: бесплатно, сертификат — $49
Как визуализировать исследования больших данных, расскажут в 8-недельном гарвардском курсе. Студенты освоят пакет визуализации ggplot2 для языка статистического программирования R.
Наука о данных для менеджеров
Организатор: Федеральная политехническая школа Лозанны
Где и когда: Лозанна, с 3 июня (продолжительность — 5 дней)
Стоимость: 3400–4200 CHF
Пятидневная программа в Лозанне будет полезна менеджерам, которые хотят использовать большие данные для стратегического планирования в бизнесе. На курсе расскажут об основах науки о данных и популярных методах исследования в здравоохранении, машиностроении, финансах, телекоммуникациях, городском развитии и т. д.
Прикладная наука о данных
Организатор: Мичиганский университет
Где и когда: осенью, онлайн (продолжительность — 1–3 года)
Стоимость: $31 688–42 262 (больше половины студентов получат стипендию)
Магистерская онлайн-программа Мичиганского университета подойдет всем, кто всерьез задумывается о карьере дата-сайентиста. Диапазон тем — от практических навыков программирования и анализа данных до профессиональной этики. От претендентов ожидают наличие базовых знаний в области статистики и языка Python.
Сертификат IBM в области науки о данных
Где и когда: онлайн в любое время (продолжительность — 2 месяца)
Стоимость: 2557 рублей в месяц
Python, SQL, машинное обучение и визуализация — онлайн-программа повышения квалификации от IBM пригодится всем, кто хочет улучшить свои навыки работы с большими данными.
Наука данных от Microsoft
Где и когда: онлайн в любое время (продолжительность — 160–320 ак. часов)
Большая специализация по большим данным от Microsoft подойдет как тем, кто хочет освоить новую профессию, так и тем, кому необходимо улучшить конкретный навык — от сторителлинга (чтобы лучше презентовать свои исследования) до аналитики в Excel.
Наука данных для практических целей
Где и когда: онлайн, с 30 апреля (продолжительность — 3 месяца)
Сегодня большие данные необходимы почти везде — от кибербезопасности и здравоохранения до финансов и индустрии развлечений. Этот курс поможет увидеть реальные перспективы для применения своих знаний тем, кто уже освоил азы статистики и программирования.
Data Science: профессиональная обработка и анализ данных
Программирование и СУБД
Курсы Java
Бизнес-аналитика
Курсы IBM SPSS
Менеджмент и финансы
Маркетинг и продажи
Веб-программирование
Пользователь ПК
Эту Дипломную программу
в нашем Центре успешно закончили
719 человек!
У вас есть способности к математике, вы не боитесь программирования и любите решать сложные задачи до победного конца? Поздравляем, у вас есть все шансы получить одну из самых «горячих» и перспективных профессий в мире – data scientist!
В процессе деятельности любая компания накапливает большое количество данных из разных источников. Грамотный анализ этой информации, выведение скрытых закономерностей приводят к неожиданным открытиям, которые повышают конкурентоспособность компании и могут сделать ее лидером рынка.
Для этого компаниям и нужен data scientist. Это уникальный специалист, обладающий знаниями сразу в нескольких областях: математика и статистика, программирование, машинное обучение, работа с базами данных, визуализация. Data scientist не просто извлекает и анализирует данные с помощью самых современных методов и технологий – он строит математические модели, делает прогнозы, а затем находит их подтверждение или опровержение с помощью цифр. Нужным сочетанием компетенций сегодня обладают единицы, что делает data scientist невероятно ценным сотрудником на рынке труда.
В «Специалисте» вы получите высокооплачиваемую профессию data scientist за несколько месяцев. Наша дипломная программа включает 9 курсов и дает весь спектр необходимых для работы навыков. В отличие от других учебных центров, в ней достигнут идеальный баланс между математической подготовкой (статистика, теория вероятности и т.д.) и инженерной частью (методы обработки, анализа и визуализации данных).
от 6 месяцев
Время освоения
от 100 т.р.
Средняя зарплата
Пройдя дипломную программу, вы научитесь:
- применять на практике знания по математической статистике, необходимые для статистического анализа;
- превращать разнородные данные в стройные отчеты, понятные диаграммы и графики;
- пользоваться современными базами данных, использовать язык запросов SQL для анализа данных и построения отчетов;
- проводить анализ и визуализацию данных с помощью языка статистической обработки данных R;
- применять технологии Big Data и машинного обучения для анализа;
- масштабировать аналитические решения (облако, вычислительный кластер) в корпоративной среде.
Что такое дипломные программы в «Специалисте»:
- Очный или очно-заочный формат обучения.
- Инновационная методика с использованием современных технологий.
- При прохождении дипломной программы в формате очного обучения, Вам будет предоставлен доступ к записям онлайн-обучения для самостоятельной подготовки и закрепления учебного материала.
- При очно-заочном обучении – дистанционное обучение в удобном темпе по записям онлайн-обучения, 1 очная консультация в неделю по расписанию (не менее 1/3 от общего времени обучения).
- Оплата в рассрочку: первоначальный взнос – 25% от стоимости дипломной программы.
- Престижные документы об окончании: диплом о профессиональной переподготовке по окончании всей программы, сертификат Центра международного образца (если предусмотрен), международный сертификат вендора после каждого авторизованного курса.
В дипломную программу «Data Science: профессиональная обработка и анализ данных» входят курсы:
После успешной итоговой аттестации слушателям выдается престижный диплом с указанием профессии – «Data Science: профессиональная обработка и анализ данных».
Тысячи работодателей в России и за рубежом ждут квалифицированных data scientist. По прогнозам, только в США потребность в таких специалистах к 2020 году составит 440-490 тысяч человек. Постройте успешную карьеру, получив одну из самых привлекательных профессий современности в крупнейшем учебном центре страны!
Обучение в рассрочку для дипломных программ — это выгодно и удобно!
Не ломайте голову, где взять всю сумму на обучение по дипломной программе, у нас Вы можете оплачивать его частями. Мы предлагаем Вам рассрочку на оплату обучения!
Стоимость обучения (рублей)*
с 10:00 до 17:00 | Вечер или Выходные Стандартная цена |
Очно-заочно | Онлайн | Записаться |
---|---|---|---|---|
Частные лица | 140 090 | 140 090 | 99 890 | 140 090 |
Организации | 153 690 | 153 690 | 107 890 | 153 690 |
Первый взнос (для частных лиц) | 35 000 | 35 000 | 24 950 | 35 000 |
лица
зации
лица
зации
Включает в себя 10 курсов:
*«Цена от» — минимальная возможная цена на данный курс, зависит от формата, вида обучения, выбранного времени занятий и указана с учетом действующих акций и специальных предложений. Точную цену на конкретную группу Вы можете узнать по тел. +7 (495) 232-3216.
Для юридических лиц (организаций) указана минимальная цена, действующая при полной предоплате.
Документы об окончании
В зависимости от программы обучения выдаются следующие документы:
Диплом о профессиональной переподготовке по специальности
Cертификат международного образца
* Для получения удостоверения вам необходимо предоставить копию диплома о высшем или среднем профессиональном образовании.
По окончании каждого отдельного курса, входящего в Дипломную программу, в личном кабинете слушателя формируются электронные сертификаты об обучении по каждому отдельному курсу. По окончании обучения по Дипломной программе выпускнику выдается Диплом о профессиональной переподготовке установленного образца.
Обязательно уточняйте перед заключением договора, какой документ Вам будет выдан после окончания обучения!
Заказ добавлен в Корзину.
Для завершения оформления, пожалуйста, перейдите в Корзину!
Как составить индивидуальную программу и изучить data science
Сегодня data science — одно из самых востребованных ИТ-направлений, но возможность изучить «науку о данных» есть не у всех. Фанат машинного обучения Харрисон Янсма уверен, что даже несмотря на отсутствие средств, главное — энтузиазм и настрой на успех. В статье на Medium он поделился советами, как составить индивидуальную программу изучения науки о данных, и инструментами, которые помогут сделать первые шаги на этом пути. dev.by опубликовал перевод статьи.
Под «data science» я имею в виду инструменты для обработки информации с целью применить её в прикладных решениях. Сюда относятся машинное обучение, технологии баз данных, статистика, программирование и специализированные технологии.
С чего начать
Интернет — это безграничный океан неструктурированной информации, и сориентироваться в ней бывает непросто. Но есть ресурсы, которые предлагают выжимку наиболее полезных материалов, например Dataquest, DataCampили Udacity. Каждый сайт имеет готовые учебные программы, последовательно охватывающие различные темы. Проблема в том, что не все желающие могут их себе позволить, к тому же они не учат применять понятия в рабочих проектах. Также студенты должны придерживаться установленного плана и не могут переключиться на то, что им кажется более интересным.
Но есть бесплатные альтернативы вроде edX и coursera, которые предоставляют единичные курсы по конкретным темам. Они подойдут тем, кто хорошо усваивает информацию в формате видео или лекций.
На этом сайте можно найти список доступных курсов по науке о данных. Есть также бесплатные учебные планы, например в статье Дэвида Вентури, или же более традиционная программа обучения на Open Source DS Masters.
Если вам удобнее читать, книга «Data Science Наука о данных с нуля» Джоэла Граса содержит полноценную программу, которую можно дополнить онлайн-ресурсами. Книгу можно бесплатно скачать в формате pdf.
Это лишь некоторые ресурсы. Есть много других. В следующей части я приведу общую программу обучения, чтобы вы хорошо понимали, какие навыки вам нужно приобрести.
Учебная программа
Программирование на Python
Программирование — главный навык специалиста по обработке данных. Освойте синтаксис Python, разберитесь, какими разными способами можно запускать программу на этом языке: через блокнот Jupyter, командную строку, IDE.
Примерно за месяц я прошёл руководство по Python, вот этот «путеводитель» по Python, и сложности программирования на этом языке на CodeSignal.
Подсказка: собирайте распространённые методы (алгоритмы) решения задач, которыми пользуются программисты.
Статистика и линейная алгебра
Это фундамент для машинного обучения и обработки данных. Если у вас уже есть глубокое знание этих дисциплин, отведите пару недель, чтобы повторить ключевые понятия.
Сделайте особый акцент на описательную статистику: умение понимать датасет стоит дороже золота.
Numpy, Pandas, & Matplotlib
Научитесь загружать, визуализировать данные и проводить над ними различные операции. Владение этими библиотеками будет для вас бесценно в будущих проектах.
Подсказка: не нужно зубрить название каждого метода или функции — это придёт с опытом. Если что-то забыли — загуглите.
Изучите руководства по Pandas, Numpy и Matplotlib. Не ограничивайтесь этими ресурсами: возможно, вам попадётся что-то более интересное.
И помните: единственный способ освоить библиотеки — использовать их практике.
Машинное обучение
Изучите теорию по алгоритмам машинного обучения и как применять их. Отрабатывайте изучаемые методы на реальных данных, которые вам интересны.
Большинство новичков начинает с тренировочных датасетов из репозитория по машинному обучению от UCI. Экспериментируйте с данными и пользуйтесь пошаговыми руководствами.
В документации Scikit-learn есть отличные уроки по применению распространённых алгоритмов. Вот этот бесплатный образовательный подкаст содержит полезную теорию по машинному обучению. Его можно слушать в пути или во время тренировок.
Производственные системы
Получив должность специалиста по данным, вы будете применять данные об окружающем мире в прикладных решениях. Вам придётся научиться использовать вычислительные ресурсы компании для добычи, преобразования и обработки данных.
Объяснению этой части программы по науке о данных уделяют меньше всего внимания, в основном потому, что в каждой отрасли применяют определённые проблемно-ориентированные инструменты.
Однако навык управления базами данных является обязательным. Работе с базами данных с помощью кода можно научиться на ModeAnalytics или Codecademy. За небольшую сумму можно реализовать свою базу данных на DigitalOcean.
Ещё один навык, без которого часто нельзя обойтись — управление версиями. Для этого можно создать аккаунт на GitHub и делать ежедневные коммиты через командную строку.
Выбирая, какие технологии изучить, важно прислушиваться к себе и к тому, что вам самому хотелось бы узнать. Например, если вам нравится веб-разработка, беритесь за инструменты, которые используют компании в этой отрасли.
Советы по прохождению программы
1. Новая информация будет поступать быстрее, чем вы сможете её «переваривать».
Существуют тысячи сайтов и форумов, посвящённых популярным инструментам по обработке данных. Поэтому одна из проблем онлайн-обучения — вы начинаете быстро отвлекаться на постороннее.
Начиная разбирать ту или иную тему, не отступайте от намеченной цели, иначе будете перескакивать на любую попавшуюся на глаза ссылку.
Сохраняйте и систематизируйте интересующие вас веб-ресурсы. Так вы не потеряете материалы, которые нужно посмотреть позже, и сможете сосредоточиться на теме, которая наиболее важна в данный момент.
Если всё делать правильно, вы выстроите последовательную программу самообучения, которая поможет вам придерживаться правильного курса. Вы не будете распыляться, и процесс пойдёт быстрее.
Ваш список материалов к прочтению очень скоро вырастет до сотен. Так и должно быть, поэтому
2. Не паникуйте. Это долгий путь, а не лёгкая прогулка.
Самообучение — это погружение в бездонный колодец знаний. Если вы действительно хотите стать профессионалом в обработке данных, вам придётся учиться всю жизнь. Но помните, что это не самоцель, и главное — процесс обучения.
На пути к знаниям вы будете всё больше открывать и себя и понимать, к чему у вас лежит душа. И чем лучше вы будете понимать себя, тем больше удовольствия станете получать от обучения.
3. Выучили — применили — закрепили.
Нельзя просто выучить одно новое понятие и сразу же браться за другое. И «выучить» здесь значит научиться применять его на практике.
Не обязательно делать отдельный проект по каждому понятию, но нужно справедливо оценивать свои способности и помнить, что вы учитесь для того, чтобы создать что-то важное для остального мира.
4. Соберите портфолио: по нему о ваших умениях будут судит другие люди.
Сомнения — одно из самых трудных для преодоления препятствий в изучении науки о данных. Сомневаться в вас могут как окружающие, так и вы сами. Портфолио — визитная карточка, которая демонстрирует миру ваши способности и уверенность в своих навыках.
Насыщенное портфолио поможет вам получить работу и придаст уверенность в своей компетентности, и это — самое важное, чем вам нужно заняться в процессе обучения.
Наполните его проектами, которыми вы гордитесь, будь то построенное с нуля веб-приложение, ваш собственный аналог IMDB или любопытный анализ медицинских данных.
Подготовьте к ним чёткое описание, хорошо задокументируйте код. И само портфолио должно быть аккуратным. Вот моё портфолио.
Или можно создать репозиторий на GitHub с хорошим ReadMe-файлом (краткое резюме) и соответствующими файлами по проектам.
Вот пример симпатичного и простого портфолио на GitHub. Можно даже сделать отдельную страницу на GitHub.io.
5. Наука о данных + _________________ = карьера моей мечты.
Пропуск заполните сами.
Data science позволяет создавать инструменты, которые изменяют мир. Одни специалисты по данным строят системы машинного зрения для анализа медицинских снимков, другие — обрабатывают миллиарды единиц информации, чтобы найти закономерности в поведении пользователей сайтов. Из всего множества вариантов применения науки о данных найдите то, что будет «зажигать» вас.
Когда тема вам кажется увлекательной, вы будете больше выкладываться, чтобы проект получился как можно лучше. Пока учитесь, ищите проекты или идеи, которые будут разжигать ваш энтузиазм.
Ищите общее в проектах, над которыми работаете с удовольствием. Не поленитесь изучить отрасли, которые связаны с такими проектами. Когда вы найдёте правильную отрасль, сосредоточьтесь на технических знаниях и навыках, необходимых конкретно в ней.
Тогда все вложенные в обучение силы и упорство станут основой успешной карьеры в деле, которое приносит вам настоящее удовольствие.
Заключение
Если вам нравится познавать мир и вы увлекаетесь искусственным интеллектом, дверь в науку о данных для вас открыта, в каком бы положении вы ни находились.
Будет непросто, и вам потребуется целеустремлённость и самодисциплина. Если вы способны заставить себя развиваться, то вполне сможете изучить всё самостоятельно. Ведь это и есть качества специалиста по данным: пытливый ум, мотивация и стремление найти ответы на свои вопросы.
Дорога в Data Science глазами новичка
Что такое Data Science?
В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist
Почему появился этот пост
Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:
Для первого дня сложно
Плюх в океан знаний
Я утонул
К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить
Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!
0. Математический анализ
Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить
1. Математическая статистика
В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:
•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их
•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики
•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R
2. Дискретная математика
Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен
3. Программирование на Python
Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык
4. Машинное обучение
Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык
5. Получение опыта на Kaggle
Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!
6. Дальнейшее обучение, собеседования
Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!
Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!
Глобальному миру — глобальные данные: 12 курсов по data science и аналитике
Наташа Федоренко
Ученых, специализирующихся на больших данных, нередко называют новой элитой, а Harvard Business Review считает эту профессию самой сексуальной в ХХI веке. Неплохая мотивация задуматься о переквалификации, особенно если вы уже что-то понимаете в математике и программировании. T&P собрали 12 курсов по анализу больших данных — и для тех, кто только начинает осваивать профессию, и для тех, кому необходимо прокачать уже имеющиеся навыки.
Специализация Дата-сайентист
Где и когда: онлайн с 15 мая (продолжительность — 1 год)
Стоимость: 120 000 рублей
SkillFactory предлагают стать дата-сайентистом с нуля всего за год — за это время вы освоите Python, классическое машинное обучение, секреты работы с нейросетями и deep learning.
Дата-сайентист
Где и когда: онлайн с июля (продолжительность — 5 месяцев)
Стоимость: 60 000 рублей
Создание архитектуры нейросетей и предсказательных моделей, разбор алгоритмов машинного обучения и интерпретация результатов исследований — серия интенсивных вебинаров пригодится тем, кто хочет овладеть востребованной профессией дата-сайентиста.
Машинное обучение и анализ данных
Организатор: «Яндекс», МФТИ
Где и когда: онлайн в любое время (продолжительность — 8 месяцев)
Стоимость: 41 600–69 600 рублей
Курс начинается с азов — фундаментальной математики и программирования на Python. Затем преподаватели расскажут, как использовать алгоритмы для конкретных бизнес-задач, например прогнозов спроса на товар или расчетов вероятности клика по рекламе. В конце обучения студенты создадут собственный проект по анализу данных для социальных сетей, электронной коммерции и др. Для выпускников доступна программа трудоустройства.
Data Science. Уровень 1
Организатор: МГТУ им. Баумана
Где и когда: онлайн или очно в Москве с 5 мая (продолжительность — 24 ак. часа)
Стоимость: 15 990–61 200 рублей
Студенты научатся решать задачи по большим данным с помощью языка R, строить аналитические модели, оценивать их качество и визуализировать результаты в Excel. Курс подойдет тем, кто уже знаком с математической статистикой, языками SQL и R.
Hadoop.Система для обработки больших объемов данных
Организатор: Mail.Ru Group
Где и когда: онлайн в любое время (продолжительность — 29 часов)
Hadoop — одна из самых популярных систем для обработки больших данных. В этом онлайн-курсе объяснят, как ей пользоваться. Для участия очень желательно знание языков программирования.
Основы программирования на Python
Организатор: НИУ ВШЭ
Где и когда: онлайн в любое время (продолжительность — 9 недель)
Стоимость: бесплатно, сертификат — 1901 рубль
Python — один из самых популярных языков программирования, который пригодится и для анализа больших данных, и для написания программ. Курс поможет освоить язык на базовом уровне.
Специализация: Большие данные
Где и когда: онлайн в любое время (продолжительность — 8 месяцев)
Стоимость: 3213 рублей в месяц
Большая онлайн-специализация, которая будет полезна всем, кто уже работает с большими данными. На курсах расскажут об основах Hadoop, MapReduce, Spark, обработке данных в реальном времени, крупномасштабном машинном обучении и т. д.
Визуализация данных
Организатор: Гарвардский университет
Где и когда: онлайн в любое время (продолжительность — 8 недель)
Стоимость: бесплатно, сертификат — $49
Как визуализировать исследования больших данных, расскажут в 8-недельном гарвардском курсе. Студенты освоят пакет визуализации ggplot2 для языка статистического программирования R.
Наука о данных для менеджеров
Организатор: Федеральная политехническая школа Лозанны
Где и когда: Лозанна, с 3 июня (продолжительность — 5 дней)
Стоимость: 3400–4200 CHF
Пятидневная программа в Лозанне будет полезна менеджерам, которые хотят использовать большие данные для стратегического планирования в бизнесе. На курсе расскажут об основах науки о данных и популярных методах исследования в здравоохранении, машиностроении, финансах, телекоммуникациях, городском развитии и т. д.
Прикладная наука о данных
Организатор: Мичиганский университет
Где и когда: осенью, онлайн (продолжительность — 1–3 года)
Стоимость: $31 688–42 262 (больше половины студентов получат стипендию)
Магистерская онлайн-программа Мичиганского университета подойдет всем, кто всерьез задумывается о карьере дата-сайентиста. Диапазон тем — от практических навыков программирования и анализа данных до профессиональной этики. От претендентов ожидают наличие базовых знаний в области статистики и языка Python.
Сертификат IBM в области науки о данных
Где и когда: онлайн в любое время (продолжительность — 2 месяца)
Стоимость: 2557 рублей в месяц
Python, SQL, машинное обучение и визуализация — онлайн-программа повышения квалификации от IBM пригодится всем, кто хочет улучшить свои навыки работы с большими данными.
Наука данных от Microsoft
Где и когда: онлайн в любое время (продолжительность — 160–320 ак. часов)
Большая специализация по большим данным от Microsoft подойдет как тем, кто хочет освоить новую профессию, так и тем, кому необходимо улучшить конкретный навык — от сторителлинга (чтобы лучше презентовать свои исследования) до аналитики в Excel.
Наука данных для практических целей
Где и когда: онлайн, с 30 апреля (продолжительность — 3 месяца)
Сегодня большие данные необходимы почти везде — от кибербезопасности и здравоохранения до финансов и индустрии развлечений. Этот курс поможет увидеть реальные перспективы для применения своих знаний тем, кто уже освоил азы статистики и программирования.
Как работать в Data Science без ученой степени
Размышления и рекомендации от Data Scientist Джейсона Юнга
Введение
Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.
Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.
Чем занимается Data Scientist?
Пропустите этот пункт, если вы это уже знаете.
Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data. Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.
Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования. Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных. Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.
Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.
Что нужно, чтобы стать data scientist (без траты средств)
Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.
Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.
1 этап: детство
Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:
- Университетский курс введения в computer science (в моем случае это был С++).
- Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
- Университетский курс введения в статистику и вероятности поможет разобраться с R.
Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:
- Математика: Многовариантные исчисления, дифференциальные уравнения, линейная алгебра от Khan Academy.
- Статистика: Статистика в R и введение в Data Science: Специализация по Data Science от Университета Джонса Хопкинса на Coursera.
- Python: CodeAcademy.com для общего программирования в Python.
Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.
К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.
2 этап: отрочество
Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов. Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision
— рассматривает все гораздо глубже.
На этом этапе пройдите курсы:
- Машинное обучение: Andrew Ng’s Machine Learning Course на Coursera. Я прошел этот курс, но не стал платить за сертификат, потому что домашняя работа не подразумевала использование Python или R. Но он все равно очень полезен для понимания основ машинного обучения.
- Машинное обучение: Stanford CS229 Machine Learning Course. Это старые, но все еще очень актуальные лекции Эндрю Ына.
- Текстовая аналитика: Прикладной анализ текстов с Python на Coursera. Я не проходил этот курс, но как Data Scientist вам очень желательно обладать навыками текстовой аналитики и обработки естественного языка (Natural Language Processing, NLP).
- PySpark: Введение в PySpark от DataCamp. PySpark это Python-версия Spark фреймворка для распределенной обработки данных. Проще говоря, он позволяет вам использовать Python с Very Large Data Bases (VLDB). Я пользуюсь им как минимум раз в неделю.
- Deep Learning: Курс DeepLearning.ai от Andrew Ng на Coursera. Я оплатил сертификат, потому что там очень хорошая домашка. Это не очень дорого, так что я бы рекомендовал заплатить.
- Компьютерное зрение: Курс Стэндфорда CS231n: Сверточные нейронные сети для визуального распознавания.
- Обработка естественного языка (NLP): Курс Стэндфорда CS224n: Глубокое Обучение в Обработке Естественного Языка.
Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.
3 этап: юность
На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.
Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю. Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.
Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе. Здесь Leetcode.com можно потренироваться в SQL и программировании.
Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).
Заключение
Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.
Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!