6 шагов, которые помогут стать специалистом по Data Science


Оглавление (нажмите, чтобы открыть):

Как эффективно начать карьеру в Data Science?

Итак, у меня есть огромное желание связать свою деятельность с Data Science в области финансов, и я хотел бы получить совет от опытных людей, как можно сделать это наиболее эффективно.

Про бэкграунд коротко:

  • высшее инженерное, но так получилось, не буду вдаваться в детали, что уже достаточно долго и, надо сказать, достаточно успешно я занимаюсь UI/UX дизайном
  • есть небольшой опыт в написании web-приложений (Backbone + MarionetteJS, RequireJS)
  • есть опыт написания расширений для Chrome на Angular
  • в универе познакомился с Asm, C/C++, C#, Java, JS, PHP, Lisp (нет, это не опечатка), а также с разработкой под Android и iOS
  • знаю английский

Относительно недавно я всё-таки решился сменить карьеру и составил для себя список необходимых минимальных навыков, чтобы получить первую работу:

  1. Python (+ SciPy, NumPy, Pandas);
  2. Проштудировать матан, линейку, тервер и статистику;
  3. Сделать пару небольших проектов, чтобы ходить на собесы не с голым задом, извиняюсь.

Уже недели три как я максимально погрузился в чтение Лутца, и в штудирование математики.

Был бы рад, если бы кто-то из этой сферы помог мне скорректировать план, если необходимо, и, возможно, дал бы совет, как двигаться наиболее эффективно. Хочется приступить к реальной работе в максимально короткие сроки.

Важное примечание: первая цель — устроиться на такую работу, с которой я смог бы оплачивать минимальную жизнь в столице. А поскольку я прекрасно знаю, сколько там стоит жизнь регионала, поэтому отталкиваюсь от суммы 60к/мес. Хочу понять, что мне для этого необходимо сделать и какими знаниями обладать.

Благодарю всех, кто дочитал, и надеюсь услышать что-то конструктивное.

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Пошаговая инструкция для тех, кто не знает, с чего начать

Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.

О чем речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

• об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

• пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

• ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

• ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

• ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть:

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

  • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
  • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

Как составить индивидуальную программу и изучить data science

Сегодня data science — одно из самых востребованных ИТ-направлений, но возможность изучить «науку о данных» есть не у всех. Фанат машинного обучения Харрисон Янсма уверен, что даже несмотря на отсутствие средств, главное — энтузиазм и настрой на успех. В статье на Medium он поделился советами, как составить индивидуальную программу изучения науки о данных, и инструментами, которые помогут сделать первые шаги на этом пути. dev.by опубликовал перевод статьи.

Под «data science» я имею в виду инструменты для обработки информации с целью применить её в прикладных решениях. Сюда относятся машинное обучение, технологии баз данных, статистика, программирование и специализированные технологии.

С чего начать

Интернет — это безграничный океан неструктурированной информации, и сориентироваться в ней бывает непросто. Но есть ресурсы, которые предлагают выжимку наиболее полезных материалов, например Dataquest, DataCampили Udacity. Каждый сайт имеет готовые учебные программы, последовательно охватывающие различные темы. Проблема в том, что не все желающие могут их себе позволить, к тому же они не учат применять понятия в рабочих проектах. Также студенты должны придерживаться установленного плана и не могут переключиться на то, что им кажется более интересным.

Но есть бесплатные альтернативы вроде edX и coursera, которые предоставляют единичные курсы по конкретным темам. Они подойдут тем, кто хорошо усваивает информацию в формате видео или лекций.

На этом сайте можно найти список доступных курсов по науке о данных. Есть также бесплатные учебные планы, например в статье Дэвида Вентури, или же более традиционная программа обучения на Open Source DS Masters.

Если вам удобнее читать, книга «Data Science Наука о данных с нуля» Джоэла Граса содержит полноценную программу, которую можно дополнить онлайн-ресурсами. Книгу можно бесплатно скачать в формате pdf.

Это лишь некоторые ресурсы. Есть много других. В следующей части я приведу общую программу обучения, чтобы вы хорошо понимали, какие навыки вам нужно приобрести.

Учебная программа

Программирование на Python

Программирование — главный навык специалиста по обработке данных. Освойте синтаксис Python, разберитесь, какими разными способами можно запускать программу на этом языке: через блокнот Jupyter, командную строку, IDE.

Примерно за месяц я прошёл руководство по Python, вот этот «путеводитель» по Python, и сложности программирования на этом языке на CodeSignal.

Подсказка: собирайте распространённые методы (алгоритмы) решения задач, которыми пользуются программисты.

Статистика и линейная алгебра

Это фундамент для машинного обучения и обработки данных. Если у вас уже есть глубокое знание этих дисциплин, отведите пару недель, чтобы повторить ключевые понятия.

Сделайте особый акцент на описательную статистику: умение понимать датасет стоит дороже золота.

Numpy, Pandas, & Matplotlib

Научитесь загружать, визуализировать данные и проводить над ними различные операции. Владение этими библиотеками будет для вас бесценно в будущих проектах.

Подсказка: не нужно зубрить название каждого метода или функции — это придёт с опытом. Если что-то забыли — загуглите.

Мастер Йода рекомендует:  Вероятность встретить машину на пустынном шоссе

Изучите руководства по Pandas, Numpy и Matplotlib. Не ограничивайтесь этими ресурсами: возможно, вам попадётся что-то более интересное.

И помните: единственный способ освоить библиотеки — использовать их практике.

Машинное обучение

Изучите теорию по алгоритмам машинного обучения и как применять их. Отрабатывайте изучаемые методы на реальных данных, которые вам интересны.

Большинство новичков начинает с тренировочных датасетов из репозитория по машинному обучению от UCI. Экспериментируйте с данными и пользуйтесь пошаговыми руководствами.

В документации Scikit-learn есть отличные уроки по применению распространённых алгоритмов. Вот этот бесплатный образовательный подкаст содержит полезную теорию по машинному обучению. Его можно слушать в пути или во время тренировок.

Производственные системы

Получив должность специалиста по данным, вы будете применять данные об окружающем мире в прикладных решениях. Вам придётся научиться использовать вычислительные ресурсы компании для добычи, преобразования и обработки данных.

Объяснению этой части программы по науке о данных уделяют меньше всего внимания, в основном потому, что в каждой отрасли применяют определённые проблемно-ориентированные инструменты.

Однако навык управления базами данных является обязательным. Работе с базами данных с помощью кода можно научиться на ModeAnalytics или Codecademy. За небольшую сумму можно реализовать свою базу данных на DigitalOcean.

Ещё один навык, без которого часто нельзя обойтись — управление версиями. Для этого можно создать аккаунт на GitHub и делать ежедневные коммиты через командную строку.

Выбирая, какие технологии изучить, важно прислушиваться к себе и к тому, что вам самому хотелось бы узнать. Например, если вам нравится веб-разработка, беритесь за инструменты, которые используют компании в этой отрасли.

Советы по прохождению программы

1. Новая информация будет поступать быстрее, чем вы сможете её «переваривать».

Существуют тысячи сайтов и форумов, посвящённых популярным инструментам по обработке данных. Поэтому одна из проблем онлайн-обучения — вы начинаете быстро отвлекаться на постороннее.

Начиная разбирать ту или иную тему, не отступайте от намеченной цели, иначе будете перескакивать на любую попавшуюся на глаза ссылку.

Сохраняйте и систематизируйте интересующие вас веб-ресурсы. Так вы не потеряете материалы, которые нужно посмотреть позже, и сможете сосредоточиться на теме, которая наиболее важна в данный момент.

Если всё делать правильно, вы выстроите последовательную программу самообучения, которая поможет вам придерживаться правильного курса. Вы не будете распыляться, и процесс пойдёт быстрее.

Ваш список материалов к прочтению очень скоро вырастет до сотен. Так и должно быть, поэтому

2. Не паникуйте. Это долгий путь, а не лёгкая прогулка.

Самообучение — это погружение в бездонный колодец знаний. Если вы действительно хотите стать профессионалом в обработке данных, вам придётся учиться всю жизнь. Но помните, что это не самоцель, и главное — процесс обучения.

На пути к знаниям вы будете всё больше открывать и себя и понимать, к чему у вас лежит душа. И чем лучше вы будете понимать себя, тем больше удовольствия станете получать от обучения.

3. Выучили — применили — закрепили.

Нельзя просто выучить одно новое понятие и сразу же браться за другое. И «выучить» здесь значит научиться применять его на практике.

Не обязательно делать отдельный проект по каждому понятию, но нужно справедливо оценивать свои способности и помнить, что вы учитесь для того, чтобы создать что-то важное для остального мира.

4. Соберите портфолио: по нему о ваших умениях будут судит другие люди.

Сомнения — одно из самых трудных для преодоления препятствий в изучении науки о данных. Сомневаться в вас могут как окружающие, так и вы сами. Портфолио — визитная карточка, которая демонстрирует миру ваши способности и уверенность в своих навыках.

Насыщенное портфолио поможет вам получить работу и придаст уверенность в своей компетентности, и это — самое важное, чем вам нужно заняться в процессе обучения.

Наполните его проектами, которыми вы гордитесь, будь то построенное с нуля веб-приложение, ваш собственный аналог IMDB или любопытный анализ медицинских данных.

Подготовьте к ним чёткое описание, хорошо задокументируйте код. И само портфолио должно быть аккуратным. Вот моё портфолио.

Или можно создать репозиторий на GitHub с хорошим ReadMe-файлом (краткое резюме) и соответствующими файлами по проектам.

Вот пример симпатичного и простого портфолио на GitHub. Можно даже сделать отдельную страницу на GitHub.io.

5. Наука о данных + _________________ = карьера моей мечты.

Пропуск заполните сами.

Data science позволяет создавать инструменты, которые изменяют мир. Одни специалисты по данным строят системы машинного зрения для анализа медицинских снимков, другие — обрабатывают миллиарды единиц информации, чтобы найти закономерности в поведении пользователей сайтов. Из всего множества вариантов применения науки о данных найдите то, что будет «зажигать» вас.

Когда тема вам кажется увлекательной, вы будете больше выкладываться, чтобы проект получился как можно лучше. Пока учитесь, ищите проекты или идеи, которые будут разжигать ваш энтузиазм.

Ищите общее в проектах, над которыми работаете с удовольствием. Не поленитесь изучить отрасли, которые связаны с такими проектами. Когда вы найдёте правильную отрасль, сосредоточьтесь на технических знаниях и навыках, необходимых конкретно в ней.

Тогда все вложенные в обучение силы и упорство станут основой успешной карьеры в деле, которое приносит вам настоящее удовольствие.

Заключение

Если вам нравится познавать мир и вы увлекаетесь искусственным интеллектом, дверь в науку о данных для вас открыта, в каком бы положении вы ни находились.


Будет непросто, и вам потребуется целеустремлённость и самодисциплина. Если вы способны заставить себя развиваться, то вполне сможете изучить всё самостоятельно. Ведь это и есть качества специалиста по данным: пытливый ум, мотивация и стремление найти ответы на свои вопросы.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Основы работы с большими данными (Data Science)

Программирование и СУБД

Бизнес-аналитика

Этот курс в нашем Центре
успешно закончили
1278 человек!

Data Science Fundamentals

Предлагаем Вам погрузиться в Data Science, чтобы познакомиться с Big Data! На нашем курсе Вы соприкоснетесь с самой популярной в IT концепцией.

Компании, которые игнорируют Big Data, отстают от конкурентов и теряют прибыль. Тем временем компании, работающие с большими данными, показывают высокие результаты в клиентском сервисе, операционной эффективности и риск-менеджменте.

Компаний, внедряющих Big Data, становится все больше. Растет спрос на специалистов, которые могут комплексно работать с большими массивами данных: анализировать, обрабатывать и визуализировать их. Аналитик больших данных, решая бизнес-задачи, развивается одновременно в IT и бизнесе.

Наш курс «Основы работы с большими данными: Data Science Orientation» позволит Вам «подружиться» с Big Data (большими данными).

В курсе рассматриваются вопросы:

  • источники информации: структурированные и неструктурированные;
  • основные характеристики больших данных и способы их анализа;
  • элементы классификации данных и машинного обучения;
  • основы статистического анализа, построение регрессионных зависимостей;
  • визуализация «больших данных»;
  • обзор классов задач, решаемых инструментами машинного обучения и ИИ: распознавание образов, звуков, текста, прогностика, анализ соцсетей;
  • обзор математических инструментов решения: нейронные сети, графы, нечеткие и К-значные логики;
  • обзор прикладных инструментов: AWS, Azure AI, machine learning c демонстрацией применения;
  • специальности в области «больших данных» и формирование команд: аналитики данных, «ученые по данным», программисты по «большим данным», менеджеры по «большим данным» (CDO).
  • методы реорганизации работы компании при применении анализа «больших данных».

Предлагаемый курс позволит управляющему персоналу, менеджерам, разработчикам, другим сотрудникам, вовлеченным в аналитическую деятельность своей компании, ознакомиться с современными инструментами сбора, подготовки, обработки и анализа больших объемов разнородных данных.

По итогам курса Вы будете уверенно ориентироваться в мире «больших данных», машинного обучения и сможете организовывать команды для работы с «большими данными» и определите направление своего профессионального развития в этой области.

Спешите записаться на наш курс «Основы работы с большими данными: Data Science Orientation», чтобы освоить Big Data и вывести свою компанию в лидеры!

После окончания курса вы будете:

  • понимать концепцию больших данных (Big Data);
  • знать типовые задачи, для решения которых применяется машинное обучение: анализ трендов, социальных сетей; распознавание графических, видео- и аудио-образов, текста; прогностика действий (на примере покупок);
  • владеть базовыми математическими понятиями;
  • понимать основные методы обработки и анализа данных: регрессия, нейронные сети; графы, К-значные логики;
  • знать основные современные инструменты анализа данных;
  • понимать принципы организации и структуру команд по работе с бигдата.

Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы. Большинство выпускников наших курсов делают успешную карьеру и пользуются уважением работодателей.

Продолжительность курса — 16 ак. ч.

Преподаватели курса

Отзывы о курсе

Cлушатель: Селина Марина Викторовна

Cлушатель: Мурысёв Александр Алексеевич

Предварительная подготовка

Требуемая подготовка: Успешное окончание курса Microsoft Excel 2020/2020. Уровень 1. Работа с Excel 2020/2020 или эквивалентная подготовка.

Получить консультацию о необходимой предварительной подготовке по курсу Вы можете у наших менеджеров: +7 (495) 232-32-16.

Наличие предварительной подготовки является залогом Вашего успешного обучения. Предварительная подготовка указывается в виде названия других курсов Центра (Обязательная предварительная подготовка). Вам следует прочитать программу указанного курса и самостоятельно оценить, есть ли у Вас знания и опыт, эквивалентные данной программе. Если Вы обладаете знаниями менее 85-90% рекомендуемого курса, то Вы обязательно должны получить предварительную подготовку. Только после этого Вы сможете качественно обучиться на выбранном курсе.

Рекомендуемые курсы по специальности

Чтобы стать профессионалом, мы рекомендуем Вам вместе с этим курсом изучить:

Тестирование по курсу

Программа курса

Тема Ак. часов
Модуль 1. Область применения больших данных. Типовые задачи.
  • Цели курса
  • Определение основных понятий
  • История науки о данных
  • Выгоды от работы с большими данными
  • Типовые задачи: прогноз продаж, производства, спроса. Анализ поведения. Распознавание образов. Экспертные системы.
1 Модуль 2. Сбор и подготовка исходных данных. Методика CRISP-DM

  • С чего начать. Межотраслевая стандартная методика работы с данными CRISP-DM
  • Описательное и ассоциативное исследование исходных данных
  • Сегментирование и очистка данных (slice and dice). Примеры инструментов Excel
  • Визуализация данных в Excel. Как использовать сводные таблицы и диаграммы
  • Практическая работа. Сегментировать и очистить тестовый набор данных.
1 Модуль 3. Основы математической статистики. ANOVA. Надстройка Excel «Пакет анализа»

  • Описательная статистика
  • Среднее, наиболее вероятное, медиана
  • Дисперсия, стандартное отклонение, стандартная ошибка
  • Виды распределений
  • Пакет анализа данных Excel
  • Обзор других прикладных средств работы с данными (R, Python, Octave, MathLab, специализированные БД).
  • Практическая работа. Определить статистические характеристики выборки данных.
2 Модуль 4. Задача прогноза продаж. Понятие машинного обучения. Корреляция. Регрессионный анализ

  • Постановка задачи оценки взаимосвязи между различными факторами и построение прогноза
  • Корреляция. Коэффициент Пирсона
  • Критерий Стьюдента (T-анализ)
  • Основы машинного обучения
  • Регрессионный анализ
  • Критерий Фишера
  • Построение и анализ трендов в Excel
  • Практическая работа. Определить наличие корреляции и регрессионную зависимость между двумя выборками данных. Построить тренд.
3 Модуль 5. Задачи классификации и распознавания образов, видео, речи, текста. Понятие нейронных сетей. Примеры применения.

  • Задача сегментации дискретных данных на примере задач распознавания (графика, речь, текст)
  • Нейронные сети как инструмент решения задач классификации
  • Демонстрация на примерах Azure, AWS
  • Задачи классификации данных в социальных сетях и поиска оптимального решения (маршрута)
  • Графы как инструмент решения задач на социальных графах и прогнозирования поведения
  • Дерево решений
  • Разбиение на выборки (обучающую, тестовую, проверочную)
  • Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
  • Практическая работа: провести классификацию набора данных и его разбиение на сегменты.
3 Модуль 6. Задача исследования социальных сетей. Задача прогнозирования поведения пользователя. Социальные и направленные графы. Деревья решений. Примеры применения

  • Задача классификации данных в социальных сетях
  • Графы как инструмент решения задач на социальных графах и прогнозирования поведения
  • Разбиение на выборки (обучающую, тестовую, проверочную)
  • Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
3 Модуль 7. Продвинутые инструменты: глубокое машинное обучение, искусственный интеллект, нечеткие множества

  • Понятие Deep Machine Learning
  • Многофакторный бизнес анализ на примере нечетких логик
1 Модуль 8. Профориентация по специальностям в Data Science. Выводы и рекомендации по построению и организации работы команды

  • Роли специалистов по DS: аналитик данных, ученый по данным, программист, цифровой директор
  • Требования к компетенциям и взаимодействию сотрудников в области аналитики данных
  • Состав и требования к проектной команде для DS
  • Подготовка компании к применению «бигдата»
2 Аудиторная нагрузка в классе с преподавателем 16 +4
бесплатно
По окончании обучения на курсе проводится итоговая аттестация. Аттестация проводится в виде теста на последнем занятии или на основании оценок практических работ, выполняемых во время обучения на курсе.

По данному курсу бесплатно предоставляются дополнительные часы для самостоятельной работы в компьютерных классах Центра, где проводятся занятия. Вы можете закрепить полученные знания, выполнить домашние задания, проконсультироваться у специалистов Центра. Дополнительные часы предоставляются в дни занятий по предварительному согласованию с администратором комплекса.

  • утренним группам с 8:30 до 10:00
  • дневным группам — по 1 ак.ч. до и после занятий (13.15-14.00, 17.10-17.55)

Ближайшие группы

Данный курс вы можете пройти как в очном формате, так и дистанционно в режиме онлайн. Чтобы записаться на онлайн-обучение, в корзине измените тип обучения на «онлайн» и выберите удобную для вас группу.
Чем онлайн-обучение отличается от других видов обучения?

6 шагов, которые помогут стать специалистом по Data Science

16 модулей, 2 месяца


  • Введение в программирование на Python
  • Анализ данных в Pandas и NumPy
  • Визуализация, очистка данных и feature engineering
  • Работа c файлами, html-страницами и API

8 модулей, 2 месяца

  • Линейная алгебра
  • Матанализ и методы оптимизации
  • Основы статистики и теории вероятности
  • Анализ временных рядов и другие математические методы

9 модулей, 2 месяца

  • Введение в машинное обучение
  • Предобработка данных
  • Основные модели машинного обучения
  • Оценка качества алгоритмов

11 модулей, 3 месяца

  • Фреймворк TensorFlow, библиотека Keras и другие
  • Сверточные нейронные сети и компьютерное зрение
  • Рекуррентные нейронные сети
  • Анализ естественного языка и другие задачи DL

8 модулей, 2 месяца

  • Hadoop
  • Spark
  • ETL и BI
  • Облачные технологии AWS и Azure

4 модуля, 1 месяц

  • Data Science в production
  • Оценка эффективности моделей в реальных бизнес-задачах
  • Управление data science проектом и командой
  • Общение с заказчиками

Стоимость обучения
Если курс не подойдет, мы вернем вам деньги

currentPrice
basePrice
priceComment

Можно в рассрочку на 24 месяца
installmentPrice в месяц
Подробнее

С помощью обучающих алгоритмов машинного обучения можно научить программы делать что угодно:

1. Предлагать дополнительные товары, которые пользователь купит с наибольшей вероятностью, на основе его поведения на сайте и покупок. Таким образом увеличивать продажи и прибыль бизнеса.

2. Предсказывать события в клиентской базе. Таким образом можно заранее предпринять меры, которые сократят расходы или увеличат прибыль. Возьмем к примеру страховую компанию, которая предоставляет услуги ДМС. Если она научит программу предсказывать, кто из клиентов в ближайшее время обратится за дорогостоящей медицинской услугой, то сможет предпринять меры, чтобы сократить расходы по ДМС. Например, позвонить клиенту и предложить ему проконсультироваться с хорошим врачом, чтобы не допустить развитие болезни.

3. Формировать заказы на поставку для магазинов сети с учетом динамики продаж, сезона, прогноза погоды и других параметров. Таким образом не допускать, чтобы в торговых точках было затоваривание или нехватка товара.

4. Сегментировать клиентов, чтобы делать им подходящие предложения. Возьмем к примеру банк, который создал новый вид кредита. С помощью машинного обучения он может выявить в базе клиентов тех, кто вероятнее всего воспользуется таким кредитом.

5. По факту, области применения машинного обучения и Python практически безграничны: от контроля качества товаров до диагностики оборудования на производстве, от продаж до аналитики, от повышения персонализации до аудита. Вы сможете использовать возможности алгоритмов практически в любой сфере.

По версии кадрового агентства Glassdoor, профессия Data Scientist, напрямую связанная с машинным обучением, занимает первую строчку в рейтинге самых лучших профессий Америки.

Ценятся такие специалисты высоко. Журнал IncRussia пишет, что зарплата специалиста по машинному обучению составляет 130-300 тысяч рублей. Причина в том, что на рынке мало специалистов в области Data Science. Полученная квалификация в этой области поможет вам совершить рывок в текущей работе или запуске собственного проекта.

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

(С.Мальцева, В.Корнилов НИУ «ВШЭ»)

Профессия новая, актуальная и чрезвычайно перспективная. Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт ( 10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Массивы данных подразделяют на 3 вида:

структурированные (например, данные кассовых аппаратов в торговле);

полуструктурированные (сообщения E-mail);

неструктурированные (видеофайлы, изображения, фотографии).

Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

Особенности профессии

В работе с данными Data Scientist использует различные способы:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • приложения искусственного интеллекта для работы с данными;
  • методы проектирования и разработки баз данных.

Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

  • сбор данных из разных источников для последующей оперативной обработки;
  • анализ поведения потребителей;
  • моделирование клиентской базы и персонализация продуктов;
  • анализ эффективности внутренних процессов базы;
  • анализ различных рисков;
  • выявление возможного мошенничества по изучению сомнительных операций;
  • составление периодических отчетов с прогнозами и презентацией данных.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным — это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.

Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Место работы

Data Scientist занимают ключевые позиции в:

  • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
  • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицине (автоматическая диагностика болезней);
  • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
  • телекомпаниях;
  • крупных торговых сетях;
  • избирательных кампаниях.

Важные качества

  • аналитический склад ума;
  • трудолюбие;
  • настойчивость;
  • скрупулёзность, точность, внимательность;
  • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • коммуникабельность;
  • умение объяснить сложные вещи простыми словами;
  • бизнес-интуиция.

Профессиональные знания и навыки:

  • знание математики, матанализа, математической статистики, теории вероятностей;
  • знание английского языка;
  • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
  • главный базовый навык специалиста по data scientist — организация и администрация кластерных систем хранения больших массивов данных;
  • знание законов развития бизнеса;
  • экономические знания.

Обучение на Data Scientist-а (Образование)

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Курсы

  • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
  • МФТИ, Кафедра анализа данных.
  • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
  • Школа анализа данных Яндекс.
  • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
  • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Оплата труда

Зарплата на 06.11.2020

Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. — $140 тыс. в год.

По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Интересные факты о профессии

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ «BIG DATA» в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2020 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2020 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Как работать в Data Science без ученой степени

Размышления и рекомендации от Data Scientist Джейсона Юнга

Введение

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Чем занимается Data Scientist?

Пропустите этот пункт, если вы это уже знаете.

Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data. Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.

Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования. Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных. Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.

Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.

Что нужно, чтобы стать data scientist (без траты средств)

Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.

Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.

1 этап: детство

Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:

  • Университетский курс введения в computer science (в моем случае это был С++).
  • Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
  • Университетский курс введения в статистику и вероятности поможет разобраться с R.

Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:

  • Математика: Многовариантные исчисления, дифференциальные уравнения, линейная алгебра от Khan Academy.
  • Статистика: Статистика в R и введение в Data Science: Специализация по Data Science от Университета Джонса Хопкинса на Coursera.
  • Python: CodeAcademy.com для общего программирования в Python.

Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.

К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.

2 этап: отрочество

Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов. Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision
— рассматривает все гораздо глубже.

На этом этапе пройдите курсы:

  • Машинное обучение: Andrew Ng’s Machine Learning Course на Coursera. Я прошел этот курс, но не стал платить за сертификат, потому что домашняя работа не подразумевала использование Python или R. Но он все равно очень полезен для понимания основ машинного обучения.
  • Машинное обучение: Stanford CS229 Machine Learning Course. Это старые, но все еще очень актуальные лекции Эндрю Ына.
  • Текстовая аналитика: Прикладной анализ текстов с Python на Coursera. Я не проходил этот курс, но как Data Scientist вам очень желательно обладать навыками текстовой аналитики и обработки естественного языка (Natural Language Processing, NLP).
  • PySpark: Введение в PySpark от DataCamp. PySpark это Python-версия Spark фреймворка для распределенной обработки данных. Проще говоря, он позволяет вам использовать Python с Very Large Data Bases (VLDB). Я пользуюсь им как минимум раз в неделю.
  • Deep Learning: Курс DeepLearning.ai от Andrew Ng на Coursera. Я оплатил сертификат, потому что там очень хорошая домашка. Это не очень дорого, так что я бы рекомендовал заплатить.
  • Компьютерное зрение: Курс Стэндфорда CS231n: Сверточные нейронные сети для визуального распознавания.
  • Обработка естественного языка (NLP): Курс Стэндфорда CS224n: Глубокое Обучение в Обработке Естественного Языка.

Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.

3 этап: юность

На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.

Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю. Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.

Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе. Здесь Leetcode.com можно потренироваться в SQL и программировании.

Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).

Заключение

Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.

Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!

Как стать Data Scientist. Осваиваем новую перспективную профессию

Кто такой Data Scientist, или специалист по данным

Вокруг профессии Data Scientist ходит немало мифов, и многие толком не понимают, что это такое. Кому-то кажется, что специалист по данным или специалист по анализу данных — это что-то вроде программиста (по принципу: умеешь программировать, значит, умеешь работать с данными), кто-то считает эту профессию похожей на администратора баз данных, а кто-то вообще не знает, что это такое.

Забегая вперед, нужно сразу отметить, что специалист по анализу данных — это не программист и никак уж не администратор базы данных, хотя навыки программирования он иметь обязан.

Специалист по данным — это специалист, владеющий тремя группами навыков:

  • математика и статистика;
  • IT-навыки, в том числе программирование;
  • понимание бизнес-процессов в той или иной области.

Вакансии не всегда называются Data Scientist. Очень часто встречаются варианты: программист-аналитик, аналитик Big Data, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик и другие.
Среди обязанностей специалиста по данным можно выделить следующие:

  • сбор больших объемов данных и приведение их в удобный формат;
  • программирование на языках Python, R, SAS;
  • решение бизнес-задач с использованием методов обработки данных;
  • поиск скрытых связей и закономерностей в данных;
  • проведение статистических тестов.

Специалист по данным должен понимать бизнес-запросы своей организации, владеть аналитическими инструментами: машинным обучением и текстовой аналитикой.
По утверждению консалтинговой компании McKinsey Global Institute, уже в следующем году в США (только в США, не во всем мире!) понадобится целая армия специалистов по данным — от 140 до 190 тысяч.

Сколько зарабатывает специалист по данным

В США средняя зарплата специалиста по данным составляет более 138 тысяч долларов в год. В России можно претендовать на зарплату от 120 тысяч рублей в месяц (более 26 тысяч долларов в год).

Если сравнивать с профессией простого программиста, то в США средняя зарплата программиста составляет 65–80 тысяч долларов в год, а в России 60 тысяч рублей в месяц, или 13 тысяч долларов в год.

В любом случае, получив специальность специалиста по данным, можно зарабатывать больше программиста.

Как видишь, специалист по данным — очень перспективная профессия. Во-первых, зарплата у него выше, чем у обычного программиста. Во-вторых, специалистов по данным не так много и рынок испытывает дефицит специалистов, причем не только в России, но и во всем мире.

Освоить профессию Data Scientist можно в университете по подготовке и дополнительному обучению специалистов «Нетология».

Что дает курс обучения Data Scientist

Пройдя курс Data Scientist, ты научишься:

  • создавать рекомендательные системы и нейросети и обучать их, обрабатывать тексты на естественном языке;
  • понимать поставленную задачу и правильно подавать результаты своей работы заказчику (ты будешь практиковаться в формализации требований, визуализации данных, составлении отчетов и презентаций для заказчика).

После окончания курса ты получишь диплом о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению».

Нужно отметить, что половина времени курса отводится на практические знания и применение этих знаний в онлайн-маркетинге, e-commerce и других прикладных областях. На программу были отобраны преподаватели, каждый день работающие с большими данными, обучающие машины и решающие задачи по Big Data. Каждый преподаватель — не теоретик, а хорошо зарекомендовавший себя специалист в области анализа данных.

Программа занятий

Программа занятий состоит из 11 частей:

  1. Введение в Data Science, рассмотрение основных инструментов — ты узнаешь, что такое Data Science, Big Data и как это все работает.
  2. Базовые алгоритмы и понятия машинного обучения — здесь рассматриваются деревья решений, кластеризация, линейный классификатор, логическая регрессия и другие непонятные для обывателя вещи.
  3. Feature engineering — это проблемы качества и размерности данных, а также методы декомпозиции данных.
  4. Рекомендательные системы — введение в рекомендательные системы, неперсонализированные и персонализированные рекомендации.
  5. Распознавание изображений, машинное зрение — нейросети, рукописный ввод, детекция объектов на изображении.
  6. Обработка естественного языка — введение в обработку текста и обзор существующих библиотек, их использование и доработка.
  7. Анализ временных рядов, прогнозирование стоимости акций и других товаров — временные ряды, модели ARMA/ARIMA, модели прогнозирования.
  8. Общение с заказчиком — формализация требований, составление отчетов по исследованиям, визуализация данных, презентация проекта.
  9. Дополнительные инструменты, среды — инструменты HP и Google для работы с большими данными.
  10. Data Science в цифровом маркетинге и e-commerce-проектах: цели, задачи, решения и критерии успешности применения больших данных.
  11. Дипломная работа — разработка и внедрение собственного решения/проекта в области больших данных и машинного обучения.

Ознакомиться с полной программой можно здесь.

  • Месяцев обучения: 5
  • Часов в неделю: 9
  • Экспертов: 13
  • Часов практики: 100+

Требования к студентам

Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.

Курс подготовки

Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.

Сколько стоит

Базовая стоимость — 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.

Что в итоге

Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.

Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца.

Диплом государственного образца о профессиональной переподготовке по специальности

Data Science и Machine Learning — 6 лучших онлайн-курсов в рунете

Data Science, Machine Learning, Big Data, нейросети и искусственный интеллект — всё это слова, связанные с самым растущим направлением бизнеса — анализом больших данных. Об этом уже выпущено много бесплатных англоязычных курсов на Coursera и EdX. Это статья про 6 лучших онлайн-курсов для начинающих обучение «науке о данных» с нуля до первых стажировок и трудоустройства.

Почему это направление такое растущее? Потому что современные системы аналитики собирают огромное количество данных о бизнесе, на основе которых принимаются судьбоносные решения о развитии отдельных направлений и всего бизнеса. Специалисты, которые умеют работать с данными: собирать, обрабатывать и интерпретировать ценятся на вес золота и спрос на них только растёт, поэтому есть смысл внимательнее присмотреться к получению профессии Data Scientist.

1. Онлайн-курс практический Machine Learning

SkillFactory – один из самых заметных игроков на рынке русскоязычных курсов по машинному обучению. Преподаватели-практики с опытом в Data Science готовы сделать из вас специалиста по данным за 11 недель. За это время вы изучите основные модели машинного обучения, научитесь оценивать качество алгоритмов, разберётесь в глубоком обучении с помощью нейросетей, изучите Feature Engineering, рекомендательные системы, кластеризацию, распознавание изображений и текстов с помощью нейросетей, а также сами большие данные. В конце курса вас ждёт хакатон – командное соревнование практических решений на основе полученных знаний.

Выпускники получают сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость от 35900 до 51900. В зависимости от даты брони места на курсе и количества свободных мест. Как читатель блога igaryoh.ru вы можете получить 10% скидку на курс, сообщив менеджеру кодовое слово igaryoh после регистрации. Полную программу курса, а также подробный план развития в Data Science вы можете получить по этой ссылке .

2. Специализация Data Sciense

Вы пройдете полный цикл обучения, начиная с изучения языка Python для анализа данных, классического машинного обучения, самого востребованного направления в области машинного обучения — нейросетей и deep learning, и заканчивая основами data engineering и применением data science на практике. Для прохождения этого курса вам не потребуется специальных знаний, выходящих за рамки школьной программы по математике.

Выпускники получат сертификаты и помощь со стажировкой или трудоустройством. Обучение на курсе доступно из любой точки мира. Стоимость обучения от 120 000 до 150 000. В зависимости от даты брони места на курсе и количества свободных мест. Подробности и программа по ссылке.

3. Python для анализа данных

Тем, кто решил прокачаться в анализе больших данных, необходимо уметь использовать язык программирования Питон. SkillFactory вместе с Константином Башевым, программистом-аналитиком Яндекс.Маркета готовы научить вас применять этот язык по назначению с нуля за 6 недель.

Это стартовая база, для тех кто хочет понять что такое машинное обучение. Курс хорош для всех кто работает с данными — от бизнес-аналитиков и финансистов, до маркетологов и продуктовых аналитиков. Он заточен для тех, кто не умеет программировать. Здесь вас научат не программировать, а использовать язык Питон и библиотеку Pandas для анализа данных. 13 модулей, экзамен в конце курса, тусовка с полезными знакомствами, сертификат, а также помощь со стажировкой и трудоустройством.

Стоимость от 29900 до 37900 в зависимости от даты брони места на курсе и количества свободных мест. Получите 10% скидку, сообщив менеджеру кодовое слово igaryoh после оформления заявки. Читайте подробности о программе и записывайтесь на курс по этой ссылке.

4. Профессия Data Scientist от Skillbox

Масштабная программа обучения Data Science с гарантией трудоустройства. Здесь вы будете последовательно идти от изучения основ анализа данных к наиболее интересным лично вам специализациям. Вы погрузитесь в профессию и даем задачи, которые приближены к жизненным ситуациям. Так вы получите опыт, близкий к работе в IT-компании, пройдёте путь с нуля до специалиста по Data Science middle-уровня. Узнайте подробности и записывайтесь на курс по этой ссылке.

5. Data Scientist с нуля до PRO

После прохождения базового курса вы сможете выбрать специализацию: аналитика или машинное обучение. Домашние задания содержат настоящие данные, то есть после курса вы фактически будете иметь за плечами год практики. Возможность стажировки в топовых компаниях России, а также помощь в трудоустройстве и прохождении собеседований. Преподаватели из Facebook, IVI.ru, Skillbox и Высшей школы экономики. Регистрация здесь.

6. Профессия Data Scientist от Нетологии

Онлайн-университет «Нетология» запустила, пожалуй, самый масштабный в России курс по науке о данных. Лучшие эксперты по Data Science сначала в онлайне, а затем в кампусе Нетологии (в Москве) будут вести вас от первых шагов в данных до собственной Machine-Learning-разработки и хакатона (конкурса практических решений). Преподаватели: ivi, Яндекс, Сбербанк, ВШЭ и др. Участники курса получают гарантированную стажировку или трудоустройство. Подробности и регистрация по этой ссылке.

Автор: Игорь Селезнёв, интернет-предприниматель, основатель проекта «RELANCE».

Развиваю онлайн-бизнес и себя, путешествую, кайфую от жизни и исполняю мечты, помогаю строить удалённую карьеру. 🙂

Подпишись на наше сообщество во ВКонтакте и канал в Телеграме и строй удалённую карьеру вместе с нами! 🙂

Добавить комментарий