План обучения для специалиста по Data Science


Оглавление (нажмите, чтобы открыть):

Data Science и Machine Learning — 6 лучших онлайн-курсов в рунете

Data Science, Machine Learning, Big Data, нейросети и искусственный интеллект — всё это слова, связанные с самым растущим направлением бизнеса — анализом больших данных. Об этом уже выпущено много бесплатных англоязычных курсов на Coursera и EdX. Это статья про 6 лучших онлайн-курсов для начинающих обучение «науке о данных» с нуля до первых стажировок и трудоустройства.

Почему это направление такое растущее? Потому что современные системы аналитики собирают огромное количество данных о бизнесе, на основе которых принимаются судьбоносные решения о развитии отдельных направлений и всего бизнеса. Специалисты, которые умеют работать с данными: собирать, обрабатывать и интерпретировать ценятся на вес золота и спрос на них только растёт, поэтому есть смысл внимательнее присмотреться к получению профессии Data Scientist.

1. Онлайн-курс практический Machine Learning

SkillFactory – один из самых заметных игроков на рынке русскоязычных курсов по машинному обучению. Преподаватели-практики с опытом в Data Science готовы сделать из вас специалиста по данным за 11 недель. За это время вы изучите основные модели машинного обучения, научитесь оценивать качество алгоритмов, разберётесь в глубоком обучении с помощью нейросетей, изучите Feature Engineering, рекомендательные системы, кластеризацию, распознавание изображений и текстов с помощью нейросетей, а также сами большие данные. В конце курса вас ждёт хакатон – командное соревнование практических решений на основе полученных знаний.

Выпускники получают сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость от 35900 до 51900. В зависимости от даты брони места на курсе и количества свободных мест. Как читатель блога igaryoh.ru вы можете получить 10% скидку на курс, сообщив менеджеру кодовое слово igaryoh после регистрации. Полную программу курса, а также подробный план развития в Data Science вы можете получить по этой ссылке .

2. Специализация Data Sciense

Вы пройдете полный цикл обучения, начиная с изучения языка Python для анализа данных, классического машинного обучения, самого востребованного направления в области машинного обучения — нейросетей и deep learning, и заканчивая основами data engineering и применением data science на практике. Для прохождения этого курса вам не потребуется специальных знаний, выходящих за рамки школьной программы по математике.

Выпускники получат сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость обучения от 120 000 до 150 000. В зависимости от даты брони места на курсе и количества свободных мест. Подробности и программа по ссылке.

3. Python для анализа данных

Тем, кто решил прокачаться в анализе больших данных, необходимо уметь использовать язык программирования Питон. SkillFactory вместе с Константином Башевым, программистом-аналитиком Яндекс.Маркета готовы научить вас применять этот язык по назначению с нуля за 6 недель.

Это стартовая база, для тех кто хочет понять что такое машинное обучение. Курс хорош для всех кто работает с данными — от бизнес-аналитиков и финансистов, до маркетологов и продуктовых аналитиков. Он заточен для тех, кто не умеет программировать. Здесь вас научат не программировать, а использовать язык Питон и библиотеку Pandas для анализа данных. 13 модулей, экзамен в конце курса, тусовка с полезными знакомствами, сертификат, а также помощь со стажировкой и трудоустройством.

Стоимость от 29900 до 37900 в зависимости от даты брони места на курсе и количества свободных мест. Получите 10% скидку, сообщив менеджеру кодовое слово igaryoh после оформления заявки. Читайте подробности о программе и записывайтесь на курс по этой ссылке.

4. Профессия Data Scientist от Skillbox

Масштабная программа обучения Data Science с гарантией трудоустройства. Здесь вы будете последовательно идти от изучения основ анализа данных к наиболее интересным лично вам специализациям. Вы погрузитесь в профессию и даем задачи, которые приближены к жизненным ситуациям. Так вы получите опыт, близкий к работе в IT-компании, пройдёте путь с нуля до специалиста по Data Science middle-уровня. Узнайте подробности и записывайтесь на курс по этой ссылке.

5. Data Scientist с нуля до PRO

После прохождения базового курса вы сможете выбрать специализацию: аналитика или машинное обучение. Домашние задания содержат настоящие данные, то есть после курса вы фактически будете иметь за плечами год практики. Возможность стажировки в топовых компаниях России, а также помощь в трудоустройстве и прохождении собеседований. Преподаватели из Facebook, IVI.ru, Skillbox и Высшей школы экономики. Регистрация здесь.

6. Профессия Data Scientist от Нетологии

Онлайн-университет «Нетология» запустила, пожалуй, самый масштабный в России курс по науке о данных. Лучшие эксперты по Data Science сначала в онлайне, а затем в кампусе Нетологии (в Москве) будут вести вас от первых шагов в данных до собственной Machine-Learning-разработки и хакатона (конкурса практических решений). Преподаватели: ivi, Яндекс, Сбербанк, ВШЭ и др. Участники курса получают гарантированную стажировку или трудоустройство. Подробности и регистрация по этой ссылке.

Автор: Игорь Селезнёв, интернет-предприниматель, основатель проекта «RELANCE».

Развиваю онлайн-бизнес и себя, путешествую, кайфую от жизни и исполняю мечты, помогаю строить удалённую карьеру. 🙂

Подпишись на наше сообщество во ВКонтакте и канал в Телеграме и строй удалённую карьеру вместе с нами! 🙂

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Пошаговая инструкция для тех, кто не знает, с чего начать

Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.

О чем речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

• об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

• пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

• ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

• ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

• ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть:

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

  • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
  • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

Магистр по наукам о данных

Первая в России англоязычная магистерская программа, реализуемая полностью онлайн на образовательной платформе Coursera.

Цель программы — подготовить специалистов по современному анализу данных (data scientist), разработчиков машинного обучения (machine learning engineer) и будущих исследователей в области data science. Программа сочетает теорию с интенсивной практикой: отработка всех полученных навыков будет происходить на реальных проектах и задачах из индустрии.

Контакты

Москва,
Покровский бульвар, 11, корпус T, каб. T921

Телефон:
+7 (495) 772-95-90 * 27356 Email: msds@hse.ru

  • Администрация
  • Студсовет

Выразительная кнопка для срочных сообщений

Нашли опечатку ?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Программа реализуется полностью в онлайн формате

О чём эта программа?

Машинное обучение и анализ данных — крайне востребованное направление на сегодня. И в компаниях, и в науке появляется всё больше данных, и их можно использовать для извлечения экономической выгоды, получения новых знаний и результатов. Для этого нужны специалисты по работе с данными и построению сложных моделей на их основе.

Программа “Master of data science” рассчитана на подготовку специалистов по трём направлениям:

    Data scientist — специалист по машинному обучению, владеющий современными подходами и методами, способный решать как традиционные, но важные для бизнеса задачи (прогнозирование спроса, предсказание оттока, анализ текстовых данных, сегментация и т.д.), так и более современные постановки (построение вопросно-ответных систем, анализ изображений, генерация реалистичных примеров и т.д.).

Machine Learning Engineer — специалист на стыке наук о данных и разработки, который понимает и профессионально использует современные технологии для сбора, хранения и анализа больших массивов данных, умеет писать эффективный код и проектировать сложные системы, связанные с сервисами на основе машинного обучения.

Researcher in DS — специалист по машинному обучению, знакомый со state-of-the-art результатами, понимающий теоретические основы машинного обучения и способный заниматься улучшением существующих методов.

Программа создана для тех, кто хочет разобраться в data science, получить практический опыт решения большого количества реальных задач и заинтересован в начале карьеры в этом направлении.

Преимущества нашей магистратуры

  1. Полностью онлайн — можно заниматься из любой точки земного шара по удобному вам расписанию;
  2. Максимально приближенное к очным программам взаимодействие — преподаватели доступны для общения в чатах (Slack) и видеоконференциях (Zoom), регулярные вебинары, обсуждения и взаимодействие с однокурсниками, большое количество заданий, проверяемых преподавателями вручную;

  3. Большое количество практики — практически все курсы завершаются проектом, а также в программе предусмотрено три больших проектных курса, где по шагам решается сложная реальная задача из бизнеса от компаний-партнёров;
  4. Возможность пройти пробное собеседование в компаниях-партнёрах магистратуры для лучших студентов;
  5. Программа выстроена с учётом запросов и экспертизы от ведущих IT-компаний России;
  6. Программу при достаточном вложении времени могут успешно пройти люди без серьёзного бэкграунда в математике и/или программировании.

Требования к поступающим

Для поступления в магистратуру необходимо иметь диплом бакалавра или специалиста по любому направлению.

В программе предусмотрено полноценное изучение математики для анализа данных, программирования и алгоритмов, поэтому даже студенты с непрофильным бакалаврским образованием смогут выровнять свой уровень и полноценно изучить все дальнейшие курсы.

Для поступления необходимо обладать знаниями по базовым разделам математики и на достаточном уровне владеть математической культурой. Зачисление на программу будет осуществлено по итогам вступительного онлайн-экзамена по математике с прокторингом.

Во время обучения

В рамках программы студенты могут выбрать один из трёх треков — два карьерно-ориентированных, цель которых подготовить студентов к трудоустройству на конкретные позиции, и один исследовательский:

  1. Data Scientist (трек по подготовке датасаентистов),
  2. Machine Learning Engineer (трек по подготовке ML-инженеров),
  3. Researcher in Data Science (трек ориентирован на развитие исследовательских навыков в области Data Science).

С первого семестра студенты изучают программирование (Python, SQL), алгоритмы и структуры данных, математику для анализа данных. Завершается изучение курсов блока математики и программирования проектом по сбору и обработке больших массивов данных.

В середине второго семестра обучения студенты определяются с треком и далее изучают курсы в соответствии с выбранным направлением.

Помимо стандартных курсов, сочетающих теорию и практические задания, в программе предусмотрены еще два крупных проектных курса: по машинному обучению и финальный проект (выпускная квалификационная работа, которая может быть посвящена проектной или исследовательской задаче).

Для успешного освоения программы студентам необходимо набрать 120 кредитов, т.е.

  1. изучить 18 курсов* по 5 кредитов (90 кредитов),
  2. выполнить 2 проектных курса по 10 кредитов (20 кредитов),
  3. пройти 1 финальный курс* (7 кредитов),
  4. а также защитить выпускную квалификационную работу (3 кредита).

Всё обучение на магистерской программе будет проходить полностью онлайн. Контроль за самостоятельностью выполнения заданий будет осуществляться стандартными для онлайн-программ средствами: еженедельное общение в формате форумов и вебинаров, проведение ключевых контрольных мероприятий с прокторингом, проведение защиты проектов и дипломной работы посредством видеоконференций.

* В соответствии с выбранным треком

После магистратуры

Выпускники программы могут начать карьеру по направлению анализа данных и машинного обучения, претендовать на позиции Junior Data Scientist или Junior Machine Learning Engineer. Также выпускники смогут начать академическую карьеру и заняться исследованиями в области data science в аспирантуре.

Как стать Data Scientist. Осваиваем новую перспективную профессию

Кто такой Data Scientist, или специалист по данным

Вокруг профессии Data Scientist ходит немало мифов, и многие толком не понимают, что это такое. Кому-то кажется, что специалист по данным или специалист по анализу данных — это что-то вроде программиста (по принципу: умеешь программировать, значит, умеешь работать с данными), кто-то считает эту профессию похожей на администратора баз данных, а кто-то вообще не знает, что это такое.

Забегая вперед, нужно сразу отметить, что специалист по анализу данных — это не программист и никак уж не администратор базы данных, хотя навыки программирования он иметь обязан.

Специалист по данным — это специалист, владеющий тремя группами навыков:

  • математика и статистика;
  • IT-навыки, в том числе программирование;
  • понимание бизнес-процессов в той или иной области.

Вакансии не всегда называются Data Scientist. Очень часто встречаются варианты: программист-аналитик, аналитик Big Data, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик и другие.
Среди обязанностей специалиста по данным можно выделить следующие:

  • сбор больших объемов данных и приведение их в удобный формат;
  • программирование на языках Python, R, SAS;
  • решение бизнес-задач с использованием методов обработки данных;
  • поиск скрытых связей и закономерностей в данных;
  • проведение статистических тестов.

Специалист по данным должен понимать бизнес-запросы своей организации, владеть аналитическими инструментами: машинным обучением и текстовой аналитикой.
По утверждению консалтинговой компании McKinsey Global Institute, уже в следующем году в США (только в США, не во всем мире!) понадобится целая армия специалистов по данным — от 140 до 190 тысяч.

Сколько зарабатывает специалист по данным

В США средняя зарплата специалиста по данным составляет более 138 тысяч долларов в год. В России можно претендовать на зарплату от 120 тысяч рублей в месяц (более 26 тысяч долларов в год).

Если сравнивать с профессией простого программиста, то в США средняя зарплата программиста составляет 65–80 тысяч долларов в год, а в России 60 тысяч рублей в месяц, или 13 тысяч долларов в год.

В любом случае, получив специальность специалиста по данным, можно зарабатывать больше программиста.

Как видишь, специалист по данным — очень перспективная профессия. Во-первых, зарплата у него выше, чем у обычного программиста. Во-вторых, специалистов по данным не так много и рынок испытывает дефицит специалистов, причем не только в России, но и во всем мире.

Освоить профессию Data Scientist можно в университете по подготовке и дополнительному обучению специалистов «Нетология».

Что дает курс обучения Data Scientist

Пройдя курс Data Scientist, ты научишься:

  • создавать рекомендательные системы и нейросети и обучать их, обрабатывать тексты на естественном языке;
  • понимать поставленную задачу и правильно подавать результаты своей работы заказчику (ты будешь практиковаться в формализации требований, визуализации данных, составлении отчетов и презентаций для заказчика).

После окончания курса ты получишь диплом о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению».

Нужно отметить, что половина времени курса отводится на практические знания и применение этих знаний в онлайн-маркетинге, e-commerce и других прикладных областях. На программу были отобраны преподаватели, каждый день работающие с большими данными, обучающие машины и решающие задачи по Big Data. Каждый преподаватель — не теоретик, а хорошо зарекомендовавший себя специалист в области анализа данных.

Программа занятий

Программа занятий состоит из 11 частей:

  1. Введение в Data Science, рассмотрение основных инструментов — ты узнаешь, что такое Data Science, Big Data и как это все работает.
  2. Базовые алгоритмы и понятия машинного обучения — здесь рассматриваются деревья решений, кластеризация, линейный классификатор, логическая регрессия и другие непонятные для обывателя вещи.
  3. Feature engineering — это проблемы качества и размерности данных, а также методы декомпозиции данных.
  4. Рекомендательные системы — введение в рекомендательные системы, неперсонализированные и персонализированные рекомендации.
  5. Распознавание изображений, машинное зрение — нейросети, рукописный ввод, детекция объектов на изображении.
  6. Обработка естественного языка — введение в обработку текста и обзор существующих библиотек, их использование и доработка.
  7. Анализ временных рядов, прогнозирование стоимости акций и других товаров — временные ряды, модели ARMA/ARIMA, модели прогнозирования.
  8. Общение с заказчиком — формализация требований, составление отчетов по исследованиям, визуализация данных, презентация проекта.
  9. Дополнительные инструменты, среды — инструменты HP и Google для работы с большими данными.
  10. Data Science в цифровом маркетинге и e-commerce-проектах: цели, задачи, решения и критерии успешности применения больших данных.
  11. Дипломная работа — разработка и внедрение собственного решения/проекта в области больших данных и машинного обучения.

Ознакомиться с полной программой можно здесь.

  • Месяцев обучения: 5
  • Часов в неделю: 9
  • Экспертов: 13
  • Часов практики: 100+

Требования к студентам

Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.

Курс подготовки

Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.

Сколько стоит

Базовая стоимость — 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.

Что в итоге

Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.

Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца.

Диплом государственного образца о профессиональной переподготовке по специальности

Глобальному миру — глобальные данные: 12 курсов по data science и аналитике

Наташа Федоренко

Ученых, специализирующихся на больших данных, нередко называют новой элитой, а Harvard Business Review считает эту профессию самой сексуальной в ХХI веке. Неплохая мотивация задуматься о переквалификации, особенно если вы уже что-то понимаете в математике и программировании. T&P собрали 12 курсов по анализу больших данных — и для тех, кто только начинает осваивать профессию, и для тех, кому необходимо прокачать уже имеющиеся навыки.

Специализация Дата-сайентист

Где и когда: онлайн с 15 мая (продолжительность — 1 год)

Стоимость: 120 000 рублей

SkillFactory предлагают стать дата-сайентистом с нуля всего за год — за это время вы освоите Python, классическое машинное обучение, секреты работы с нейросетями и deep learning.

Дата-сайентист

Где и когда: онлайн с июля (продолжительность — 5 месяцев)

Стоимость: 60 000 рублей

Создание архитектуры нейросетей и предсказательных моделей, разбор алгоритмов машинного обучения и интерпретация результатов исследований — серия интенсивных вебинаров пригодится тем, кто хочет овладеть востребованной профессией дата-сайентиста.

Машинное обучение и анализ данных

Организатор: «Яндекс», МФТИ

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 41 600–69 600 рублей

Курс начинается с азов — фундаментальной математики и программирования на Python. Затем преподаватели расскажут, как использовать алгоритмы для конкретных бизнес-задач, например прогнозов спроса на товар или расчетов вероятности клика по рекламе. В конце обучения студенты создадут собственный проект по анализу данных для социальных сетей, электронной коммерции и др. Для выпускников доступна программа трудоустройства.

Data Science. Уровень 1

Организатор: МГТУ им. Баумана

Где и когда: онлайн или очно в Москве с 5 мая (продолжительность — 24 ак. часа)

Стоимость: 15 990–61 200 рублей

Студенты научатся решать задачи по большим данным с помощью языка R, строить аналитические модели, оценивать их качество и визуализировать результаты в Excel. Курс подойдет тем, кто уже знаком с математической статистикой, языками SQL и R.

Hadoop.Система для обработки больших объемов данных

Организатор: Mail.Ru Group

Где и когда: онлайн в любое время (продолжительность — 29 часов)

Hadoop — одна из самых популярных систем для обработки больших данных. В этом онлайн-курсе объяснят, как ей пользоваться. Для участия очень желательно знание языков программирования.

Основы программирования на Python

Организатор: НИУ ВШЭ

Где и когда: онлайн в любое время (продолжительность — 9 недель)

Стоимость: бесплатно, сертификат — 1901 рубль

Python — один из самых популярных языков программирования, который пригодится и для анализа больших данных, и для написания программ. Курс поможет освоить язык на базовом уровне.

Специализация: Большие данные

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 3213 рублей в месяц

Большая онлайн-специализация, которая будет полезна всем, кто уже работает с большими данными. На курсах расскажут об основах Hadoop, MapReduce, Spark, обработке данных в реальном времени, крупномасштабном машинном обучении и т. д.

Визуализация данных

Организатор: Гарвардский университет

Где и когда: онлайн в любое время (продолжительность — 8 недель)

Стоимость: бесплатно, сертификат — $49

Как визуализировать исследования больших данных, расскажут в 8-недельном гарвардском курсе. Студенты освоят пакет визуализации ggplot2 для языка статистического программирования R.

Наука о данных для менеджеров

Организатор: Федеральная политехническая школа Лозанны

Где и когда: Лозанна, с 3 июня (продолжительность — 5 дней)

Стоимость: 3400–4200 CHF

Пятидневная программа в Лозанне будет полезна менеджерам, которые хотят использовать большие данные для стратегического планирования в бизнесе. На курсе расскажут об основах науки о данных и популярных методах исследования в здравоохранении, машиностроении, финансах, телекоммуникациях, городском развитии и т. д.

Прикладная наука о данных

Организатор: Мичиганский университет

Где и когда: осенью, онлайн (продолжительность — 1–3 года)

Стоимость: $31 688–42 262 (больше половины студентов получат стипендию)

Магистерская онлайн-программа Мичиганского университета подойдет всем, кто всерьез задумывается о карьере дата-сайентиста. Диапазон тем — от практических навыков программирования и анализа данных до профессиональной этики. От претендентов ожидают наличие базовых знаний в области статистики и языка Python.

Сертификат IBM в области науки о данных

Где и когда: онлайн в любое время (продолжительность — 2 месяца)

Стоимость: 2557 рублей в месяц


Python, SQL, машинное обучение и визуализация — онлайн-программа повышения квалификации от IBM пригодится всем, кто хочет улучшить свои навыки работы с большими данными.

Наука данных от Microsoft

Где и когда: онлайн в любое время (продолжительность — 160–320 ак. часов)

Большая специализация по большим данным от Microsoft подойдет как тем, кто хочет освоить новую профессию, так и тем, кому необходимо улучшить конкретный навык — от сторителлинга (чтобы лучше презентовать свои исследования) до аналитики в Excel.

Наука данных для практических целей

Где и когда: онлайн, с 30 апреля (продолжительность — 3 месяца)

Сегодня большие данные необходимы почти везде — от кибербезопасности и здравоохранения до финансов и индустрии развлечений. Этот курс поможет увидеть реальные перспективы для применения своих знаний тем, кто уже освоил азы статистики и программирования.

Data Science: профессиональная обработка и анализ данных

Программирование и СУБД

Курсы Java

Бизнес-аналитика

Курсы IBM SPSS

Менеджмент и финансы

Маркетинг и продажи

Веб-программирование

Пользователь ПК

Эту Дипломную программу
в нашем Центре успешно закончили
719 человек!

У вас есть способности к математике, вы не боитесь программирования и любите решать сложные задачи до победного конца? Поздравляем, у вас есть все шансы получить одну из самых «горячих» и перспективных профессий в мире – data scientist!

В процессе деятельности любая компания накапливает большое количество данных из разных источников. Грамотный анализ этой информации, выведение скрытых закономерностей приводят к неожиданным открытиям, которые повышают конкурентоспособность компании и могут сделать ее лидером рынка.

Для этого компаниям и нужен data scientist. Это уникальный специалист, обладающий знаниями сразу в нескольких областях: математика и статистика, программирование, машинное обучение, работа с базами данных, визуализация. Data scientist не просто извлекает и анализирует данные с помощью самых современных методов и технологий – он строит математические модели, делает прогнозы, а затем находит их подтверждение или опровержение с помощью цифр. Нужным сочетанием компетенций сегодня обладают единицы, что делает data scientist невероятно ценным сотрудником на рынке труда.

В «Специалисте» вы получите высокооплачиваемую профессию data scientist за несколько месяцев. Наша дипломная программа включает 9 курсов и дает весь спектр необходимых для работы навыков. В отличие от других учебных центров, в ней достигнут идеальный баланс между математической подготовкой (статистика, теория вероятности и т.д.) и инженерной частью (методы обработки, анализа и визуализации данных).

от 6 месяцев
Время освоения

от 100 т.р.
Средняя зарплата

Пройдя дипломную программу, вы научитесь:

  • применять на практике знания по математической статистике, необходимые для статистического анализа;
  • превращать разнородные данные в стройные отчеты, понятные диаграммы и графики;
  • пользоваться современными базами данных, использовать язык запросов SQL для анализа данных и построения отчетов;
  • проводить анализ и визуализацию данных с помощью языка статистической обработки данных R;
  • применять технологии Big Data и машинного обучения для анализа;
  • масштабировать аналитические решения (облако, вычислительный кластер) в корпоративной среде.

Что такое дипломные программы в «Специалисте»:

  1. Очный или очно-заочный формат обучения.
  2. Инновационная методика с использованием современных технологий.
  3. При прохождении дипломной программы в формате очного обучения, Вам будет предоставлен доступ к записям онлайн-обучения для самостоятельной подготовки и закрепления учебного материала.
  4. При очно-заочном обучении – дистанционное обучение в удобном темпе по записям онлайн-обучения, 1 очная консультация в неделю по расписанию (не менее 1/3 от общего времени обучения).
  5. Оплата в рассрочку: первоначальный взнос – 25% от стоимости дипломной программы.
  6. Престижные документы об окончании: диплом о профессиональной переподготовке по окончании всей программы, сертификат Центра международного образца (если предусмотрен), международный сертификат вендора после каждого авторизованного курса.

В дипломную программу «Data Science: профессиональная обработка и анализ данных» входят курсы:

После успешной итоговой аттестации слушателям выдается престижный диплом с указанием профессии – «Data Science: профессиональная обработка и анализ данных».

Тысячи работодателей в России и за рубежом ждут квалифицированных data scientist. По прогнозам, только в США потребность в таких специалистах к 2020 году составит 440-490 тысяч человек. Постройте успешную карьеру, получив одну из самых привлекательных профессий современности в крупнейшем учебном центре страны!

Обучение в рассрочку для дипломных программ — это выгодно и удобно!

Не ломайте голову, где взять всю сумму на обучение по дипломной программе, у нас Вы можете оплачивать его частями. Мы предлагаем Вам рассрочку на оплату обучения!

Стоимость обучения (рублей)*

Курс может быть заказан согласно ФЗ-44, ФЗ-223 (закупка/аукцион/запрос котировок/конкурсные процедуры)
с 10:00 до 17:00 Вечер или Выходные
Стандартная цена
Очно-заочно Онлайн Записаться
Частные лица 140 090 140 090 99 890 140 090
Организации 153 690 153 690 107 890 153 690
Первый взнос (для частных лиц) 35 000 35 000 24 950 35 000
Очно Очно-заочное обучение Частные
лица Органи-
зации Частные
лица Органи-
зации Data Science: профессиональная обработка и анализ данных
Включает в себя 10 курсов:
357 164 900 140 090 180 900 153 690 156 650 99 890 171 850 107 890 Основы работы с большими данными (Data Science) 20 Выбрать дату 9 990 13 990 5 990 7 990 Введение в статистику 16 Выбрать дату 6 990 7 990 3 990 4 990 Microsoft Excel 2020/2020. Уровень 3. Анализ и визуализация данных 24 Выбрать дату 9 990 10 990 5 990 6 990 Анализ данных на языке SQL 36 Выбрать дату 20 990 21 990 12 990 12 990 Основы решения алгоритмических задач 24 Выбрать дату 8 990 9 990 4 990 5 990 Программирование на языке R. Уровень 1. Базовые знания 36 Выбрать дату 15 990 16 990 9 990 9 990 Data Science. Уровень1. Инструменты и технологии 29 Выбрать дату 15 990 16 990 9 990 9 990 Data Science. Уровень 2. Применение машинного обучения 48 Выбрать дату 27 990 29 990 16 990 17 990 Программирование на языке Python. Уровень 1. Базовый курс 60 Выбрать дату 19 990 22 990 11 990 13 990 PostgreSQL: Уровень 1. Основы SQL 60 Выбрать дату

27 990 28 990 16 990 16 990

*«Цена от» — минимальная возможная цена на данный курс, зависит от формата, вида обучения, выбранного времени занятий и указана с учетом действующих акций и специальных предложений. Точную цену на конкретную группу Вы можете узнать по тел. +7 (495) 232-3216.

Для юридических лиц (организаций) указана минимальная цена, действующая при полной предоплате.

Документы об окончании

В зависимости от программы обучения выдаются следующие документы:

Диплом о профессиональной переподготовке по специальности

Cертификат международного образца

* Для получения удостоверения вам необходимо предоставить копию диплома о высшем или среднем профессиональном образовании.

По окончании каждого отдельного курса, входящего в Дипломную программу, в личном кабинете слушателя формируются электронные сертификаты об обучении по каждому отдельному курсу. По окончании обучения по Дипломной программе выпускнику выдается Диплом о профессиональной переподготовке установленного образца.

Обязательно уточняйте перед заключением договора, какой документ Вам будет выдан после окончания обучения!

Заказ добавлен в Корзину.

Для завершения оформления, пожалуйста, перейдите в Корзину!

Как составить индивидуальную программу и изучить data science

Сегодня data science — одно из самых востребованных ИТ-направлений, но возможность изучить «науку о данных» есть не у всех. Фанат машинного обучения Харрисон Янсма уверен, что даже несмотря на отсутствие средств, главное — энтузиазм и настрой на успех. В статье на Medium он поделился советами, как составить индивидуальную программу изучения науки о данных, и инструментами, которые помогут сделать первые шаги на этом пути. dev.by опубликовал перевод статьи.

Под «data science» я имею в виду инструменты для обработки информации с целью применить её в прикладных решениях. Сюда относятся машинное обучение, технологии баз данных, статистика, программирование и специализированные технологии.

С чего начать

Интернет — это безграничный океан неструктурированной информации, и сориентироваться в ней бывает непросто. Но есть ресурсы, которые предлагают выжимку наиболее полезных материалов, например Dataquest, DataCampили Udacity. Каждый сайт имеет готовые учебные программы, последовательно охватывающие различные темы. Проблема в том, что не все желающие могут их себе позволить, к тому же они не учат применять понятия в рабочих проектах. Также студенты должны придерживаться установленного плана и не могут переключиться на то, что им кажется более интересным.

Но есть бесплатные альтернативы вроде edX и coursera, которые предоставляют единичные курсы по конкретным темам. Они подойдут тем, кто хорошо усваивает информацию в формате видео или лекций.

На этом сайте можно найти список доступных курсов по науке о данных. Есть также бесплатные учебные планы, например в статье Дэвида Вентури, или же более традиционная программа обучения на Open Source DS Masters.

Если вам удобнее читать, книга «Data Science Наука о данных с нуля» Джоэла Граса содержит полноценную программу, которую можно дополнить онлайн-ресурсами. Книгу можно бесплатно скачать в формате pdf.

Это лишь некоторые ресурсы. Есть много других. В следующей части я приведу общую программу обучения, чтобы вы хорошо понимали, какие навыки вам нужно приобрести.

Учебная программа

Программирование на Python

Программирование — главный навык специалиста по обработке данных. Освойте синтаксис Python, разберитесь, какими разными способами можно запускать программу на этом языке: через блокнот Jupyter, командную строку, IDE.

Примерно за месяц я прошёл руководство по Python, вот этот «путеводитель» по Python, и сложности программирования на этом языке на CodeSignal.

Подсказка: собирайте распространённые методы (алгоритмы) решения задач, которыми пользуются программисты.

Статистика и линейная алгебра

Это фундамент для машинного обучения и обработки данных. Если у вас уже есть глубокое знание этих дисциплин, отведите пару недель, чтобы повторить ключевые понятия.

Сделайте особый акцент на описательную статистику: умение понимать датасет стоит дороже золота.

Numpy, Pandas, & Matplotlib

Научитесь загружать, визуализировать данные и проводить над ними различные операции. Владение этими библиотеками будет для вас бесценно в будущих проектах.

Подсказка: не нужно зубрить название каждого метода или функции — это придёт с опытом. Если что-то забыли — загуглите.

Изучите руководства по Pandas, Numpy и Matplotlib. Не ограничивайтесь этими ресурсами: возможно, вам попадётся что-то более интересное.

И помните: единственный способ освоить библиотеки — использовать их практике.

Машинное обучение

Изучите теорию по алгоритмам машинного обучения и как применять их. Отрабатывайте изучаемые методы на реальных данных, которые вам интересны.

Большинство новичков начинает с тренировочных датасетов из репозитория по машинному обучению от UCI. Экспериментируйте с данными и пользуйтесь пошаговыми руководствами.

В документации Scikit-learn есть отличные уроки по применению распространённых алгоритмов. Вот этот бесплатный образовательный подкаст содержит полезную теорию по машинному обучению. Его можно слушать в пути или во время тренировок.

Производственные системы

Получив должность специалиста по данным, вы будете применять данные об окружающем мире в прикладных решениях. Вам придётся научиться использовать вычислительные ресурсы компании для добычи, преобразования и обработки данных.

Объяснению этой части программы по науке о данных уделяют меньше всего внимания, в основном потому, что в каждой отрасли применяют определённые проблемно-ориентированные инструменты.

Однако навык управления базами данных является обязательным. Работе с базами данных с помощью кода можно научиться на ModeAnalytics или Codecademy. За небольшую сумму можно реализовать свою базу данных на DigitalOcean.

Ещё один навык, без которого часто нельзя обойтись — управление версиями. Для этого можно создать аккаунт на GitHub и делать ежедневные коммиты через командную строку.

Выбирая, какие технологии изучить, важно прислушиваться к себе и к тому, что вам самому хотелось бы узнать. Например, если вам нравится веб-разработка, беритесь за инструменты, которые используют компании в этой отрасли.

Советы по прохождению программы

1. Новая информация будет поступать быстрее, чем вы сможете её «переваривать».

Существуют тысячи сайтов и форумов, посвящённых популярным инструментам по обработке данных. Поэтому одна из проблем онлайн-обучения — вы начинаете быстро отвлекаться на постороннее.

Начиная разбирать ту или иную тему, не отступайте от намеченной цели, иначе будете перескакивать на любую попавшуюся на глаза ссылку.

Сохраняйте и систематизируйте интересующие вас веб-ресурсы. Так вы не потеряете материалы, которые нужно посмотреть позже, и сможете сосредоточиться на теме, которая наиболее важна в данный момент.

Если всё делать правильно, вы выстроите последовательную программу самообучения, которая поможет вам придерживаться правильного курса. Вы не будете распыляться, и процесс пойдёт быстрее.

Ваш список материалов к прочтению очень скоро вырастет до сотен. Так и должно быть, поэтому

2. Не паникуйте. Это долгий путь, а не лёгкая прогулка.

Самообучение — это погружение в бездонный колодец знаний. Если вы действительно хотите стать профессионалом в обработке данных, вам придётся учиться всю жизнь. Но помните, что это не самоцель, и главное — процесс обучения.

На пути к знаниям вы будете всё больше открывать и себя и понимать, к чему у вас лежит душа. И чем лучше вы будете понимать себя, тем больше удовольствия станете получать от обучения.

3. Выучили — применили — закрепили.

Нельзя просто выучить одно новое понятие и сразу же браться за другое. И «выучить» здесь значит научиться применять его на практике.

Не обязательно делать отдельный проект по каждому понятию, но нужно справедливо оценивать свои способности и помнить, что вы учитесь для того, чтобы создать что-то важное для остального мира.

4. Соберите портфолио: по нему о ваших умениях будут судит другие люди.

Сомнения — одно из самых трудных для преодоления препятствий в изучении науки о данных. Сомневаться в вас могут как окружающие, так и вы сами. Портфолио — визитная карточка, которая демонстрирует миру ваши способности и уверенность в своих навыках.

Насыщенное портфолио поможет вам получить работу и придаст уверенность в своей компетентности, и это — самое важное, чем вам нужно заняться в процессе обучения.

Наполните его проектами, которыми вы гордитесь, будь то построенное с нуля веб-приложение, ваш собственный аналог IMDB или любопытный анализ медицинских данных.

Подготовьте к ним чёткое описание, хорошо задокументируйте код. И само портфолио должно быть аккуратным. Вот моё портфолио.


Или можно создать репозиторий на GitHub с хорошим ReadMe-файлом (краткое резюме) и соответствующими файлами по проектам.

Вот пример симпатичного и простого портфолио на GitHub. Можно даже сделать отдельную страницу на GitHub.io.

5. Наука о данных + _________________ = карьера моей мечты.

Пропуск заполните сами.

Data science позволяет создавать инструменты, которые изменяют мир. Одни специалисты по данным строят системы машинного зрения для анализа медицинских снимков, другие — обрабатывают миллиарды единиц информации, чтобы найти закономерности в поведении пользователей сайтов. Из всего множества вариантов применения науки о данных найдите то, что будет «зажигать» вас.

Когда тема вам кажется увлекательной, вы будете больше выкладываться, чтобы проект получился как можно лучше. Пока учитесь, ищите проекты или идеи, которые будут разжигать ваш энтузиазм.

Ищите общее в проектах, над которыми работаете с удовольствием. Не поленитесь изучить отрасли, которые связаны с такими проектами. Когда вы найдёте правильную отрасль, сосредоточьтесь на технических знаниях и навыках, необходимых конкретно в ней.

Тогда все вложенные в обучение силы и упорство станут основой успешной карьеры в деле, которое приносит вам настоящее удовольствие.

Заключение

Если вам нравится познавать мир и вы увлекаетесь искусственным интеллектом, дверь в науку о данных для вас открыта, в каком бы положении вы ни находились.

Будет непросто, и вам потребуется целеустремлённость и самодисциплина. Если вы способны заставить себя развиваться, то вполне сможете изучить всё самостоятельно. Ведь это и есть качества специалиста по данным: пытливый ум, мотивация и стремление найти ответы на свои вопросы.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Глобальному миру — глобальные данные: 12 курсов по data science и аналитике

Наташа Федоренко

Ученых, специализирующихся на больших данных, нередко называют новой элитой, а Harvard Business Review считает эту профессию самой сексуальной в ХХI веке. Неплохая мотивация задуматься о переквалификации, особенно если вы уже что-то понимаете в математике и программировании. T&P собрали 12 курсов по анализу больших данных — и для тех, кто только начинает осваивать профессию, и для тех, кому необходимо прокачать уже имеющиеся навыки.

Специализация Дата-сайентист

Где и когда: онлайн с 15 мая (продолжительность — 1 год)

Стоимость: 120 000 рублей

SkillFactory предлагают стать дата-сайентистом с нуля всего за год — за это время вы освоите Python, классическое машинное обучение, секреты работы с нейросетями и deep learning.

Дата-сайентист

Где и когда: онлайн с июля (продолжительность — 5 месяцев)

Стоимость: 60 000 рублей

Создание архитектуры нейросетей и предсказательных моделей, разбор алгоритмов машинного обучения и интерпретация результатов исследований — серия интенсивных вебинаров пригодится тем, кто хочет овладеть востребованной профессией дата-сайентиста.

Машинное обучение и анализ данных

Организатор: «Яндекс», МФТИ

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 41 600–69 600 рублей

Курс начинается с азов — фундаментальной математики и программирования на Python. Затем преподаватели расскажут, как использовать алгоритмы для конкретных бизнес-задач, например прогнозов спроса на товар или расчетов вероятности клика по рекламе. В конце обучения студенты создадут собственный проект по анализу данных для социальных сетей, электронной коммерции и др. Для выпускников доступна программа трудоустройства.

Data Science. Уровень 1

Организатор: МГТУ им. Баумана

Где и когда: онлайн или очно в Москве с 5 мая (продолжительность — 24 ак. часа)

Стоимость: 15 990–61 200 рублей

Студенты научатся решать задачи по большим данным с помощью языка R, строить аналитические модели, оценивать их качество и визуализировать результаты в Excel. Курс подойдет тем, кто уже знаком с математической статистикой, языками SQL и R.

Hadoop.Система для обработки больших объемов данных

Организатор: Mail.Ru Group

Где и когда: онлайн в любое время (продолжительность — 29 часов)

Hadoop — одна из самых популярных систем для обработки больших данных. В этом онлайн-курсе объяснят, как ей пользоваться. Для участия очень желательно знание языков программирования.

Основы программирования на Python

Организатор: НИУ ВШЭ

Где и когда: онлайн в любое время (продолжительность — 9 недель)

Стоимость: бесплатно, сертификат — 1901 рубль

Python — один из самых популярных языков программирования, который пригодится и для анализа больших данных, и для написания программ. Курс поможет освоить язык на базовом уровне.

Специализация: Большие данные

Где и когда: онлайн в любое время (продолжительность — 8 месяцев)

Стоимость: 3213 рублей в месяц

Большая онлайн-специализация, которая будет полезна всем, кто уже работает с большими данными. На курсах расскажут об основах Hadoop, MapReduce, Spark, обработке данных в реальном времени, крупномасштабном машинном обучении и т. д.

Визуализация данных

Организатор: Гарвардский университет

Где и когда: онлайн в любое время (продолжительность — 8 недель)

Стоимость: бесплатно, сертификат — $49

Как визуализировать исследования больших данных, расскажут в 8-недельном гарвардском курсе. Студенты освоят пакет визуализации ggplot2 для языка статистического программирования R.

Наука о данных для менеджеров

Организатор: Федеральная политехническая школа Лозанны

Где и когда: Лозанна, с 3 июня (продолжительность — 5 дней)

Стоимость: 3400–4200 CHF

Пятидневная программа в Лозанне будет полезна менеджерам, которые хотят использовать большие данные для стратегического планирования в бизнесе. На курсе расскажут об основах науки о данных и популярных методах исследования в здравоохранении, машиностроении, финансах, телекоммуникациях, городском развитии и т. д.

Прикладная наука о данных

Организатор: Мичиганский университет

Где и когда: осенью, онлайн (продолжительность — 1–3 года)

Стоимость: $31 688–42 262 (больше половины студентов получат стипендию)

Магистерская онлайн-программа Мичиганского университета подойдет всем, кто всерьез задумывается о карьере дата-сайентиста. Диапазон тем — от практических навыков программирования и анализа данных до профессиональной этики. От претендентов ожидают наличие базовых знаний в области статистики и языка Python.

Сертификат IBM в области науки о данных

Где и когда: онлайн в любое время (продолжительность — 2 месяца)

Стоимость: 2557 рублей в месяц

Python, SQL, машинное обучение и визуализация — онлайн-программа повышения квалификации от IBM пригодится всем, кто хочет улучшить свои навыки работы с большими данными.

Наука данных от Microsoft

Где и когда: онлайн в любое время (продолжительность — 160–320 ак. часов)

Большая специализация по большим данным от Microsoft подойдет как тем, кто хочет освоить новую профессию, так и тем, кому необходимо улучшить конкретный навык — от сторителлинга (чтобы лучше презентовать свои исследования) до аналитики в Excel.

Наука данных для практических целей

Где и когда: онлайн, с 30 апреля (продолжительность — 3 месяца)

Сегодня большие данные необходимы почти везде — от кибербезопасности и здравоохранения до финансов и индустрии развлечений. Этот курс поможет увидеть реальные перспективы для применения своих знаний тем, кто уже освоил азы статистики и программирования.

Как работать в Data Science без ученой степени

Размышления и рекомендации от Data Scientist Джейсона Юнга

Введение

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Чем занимается Data Scientist?

Пропустите этот пункт, если вы это уже знаете.

Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data. Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.

Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования. Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных. Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.

Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.

Что нужно, чтобы стать data scientist (без траты средств)

Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.

Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.

1 этап: детство

Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:

  • Университетский курс введения в computer science (в моем случае это был С++).
  • Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
  • Университетский курс введения в статистику и вероятности поможет разобраться с R.

Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:

  • Математика: Многовариантные исчисления, дифференциальные уравнения, линейная алгебра от Khan Academy.
  • Статистика: Статистика в R и введение в Data Science: Специализация по Data Science от Университета Джонса Хопкинса на Coursera.
  • Python: CodeAcademy.com для общего программирования в Python.

Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.

К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.

2 этап: отрочество

Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов. Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision
— рассматривает все гораздо глубже.

На этом этапе пройдите курсы:

  • Машинное обучение: Andrew Ng’s Machine Learning Course на Coursera. Я прошел этот курс, но не стал платить за сертификат, потому что домашняя работа не подразумевала использование Python или R. Но он все равно очень полезен для понимания основ машинного обучения.
  • Машинное обучение: Stanford CS229 Machine Learning Course. Это старые, но все еще очень актуальные лекции Эндрю Ына.
  • Текстовая аналитика: Прикладной анализ текстов с Python на Coursera. Я не проходил этот курс, но как Data Scientist вам очень желательно обладать навыками текстовой аналитики и обработки естественного языка (Natural Language Processing, NLP).
  • PySpark: Введение в PySpark от DataCamp. PySpark это Python-версия Spark фреймворка для распределенной обработки данных. Проще говоря, он позволяет вам использовать Python с Very Large Data Bases (VLDB). Я пользуюсь им как минимум раз в неделю.
  • Deep Learning: Курс DeepLearning.ai от Andrew Ng на Coursera. Я оплатил сертификат, потому что там очень хорошая домашка. Это не очень дорого, так что я бы рекомендовал заплатить.
  • Компьютерное зрение: Курс Стэндфорда CS231n: Сверточные нейронные сети для визуального распознавания.
  • Обработка естественного языка (NLP): Курс Стэндфорда CS224n: Глубокое Обучение в Обработке Естественного Языка.

Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.

3 этап: юность

На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.

Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю. Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.

Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе. Здесь Leetcode.com можно потренироваться в SQL и программировании.

Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).

Заключение

Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.

Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!

Мастер Йода рекомендует:  Свойство CSS text-align-last
Добавить комментарий