Основные концепции статистики для data scientist’ов


Оглавление (нажмите, чтобы открыть):

Чек-листы по математики для Data Science?

Решил прокачать математический бэкграунд для data science.

Выделил такие области:

  1. Дискретная математика
  2. Теория графов
  3. Теория алгоритмов
  4. Статистика
  5. Теория вероятностей (. не одной вероятности, а много вероятностей)

(совершенно верно, вероятностей, просто я безграмотно перевел английский вариант Probability Theory)

помогите составить чек-лист для каждой области, тех вещей, понятий, которые нужно точно усвоить в разрезе практической применимости для data science и тех, которые не очень практичны.

Теория графов — алгоритм Дейкстры, в дискретной математике — в матлогику не стоит углубляться и т.д.

+ (но это космос, понимаю) практические критерии по которым эти знания можно оценить (задачники какие-нибудь)

Кто такой Data Scientist и как им стать. Часть 3: советы от InData Labs

Серия успешных сделок белорусских стартапов в области компьютерного зрения и машинного обучения подтолкнула dev.by к запуску цикла материалов о том, как стать специалистом в этих областях. В первом материале этой серии советы нынешним и будущим специалистам давала «Яндекс», во втором высказалась Wargaming, а сегодня опытом поделится специалист компании InData Labs. Слово — руководителю отдела Data Science Денису Пирштуку.

Задачи Data Scientist’ов в InData Labs

В InData Labs накопился богатый опыт в Natural Language Processing (NLP). Типичные приложения такого рода — анализ текстов в социальных сетях, социодемографические предсказания относительно их авторов, категоризация текстов и определение сентимента. NLP — одна из областей, где находят широкое применение нейронные сети, в том числе и у нас в компании. Они позволяют нам строить модели, которые «понимают» семантику текстов.

Мы используем нейронные сети в собственных исследованиях в области компьютерного зрения и некоторых других задачах, но только там, где они сейчас действительно полезны. Отдельно выделю продвинутую аналитику. Бизнес уже освоил инструменты описательной (что произошло?) и диагностической аналитики (почему это произошло?). Это так называемое прошлое Business Intelligence, в том числе на больших данных. Мы же стараемся отвечать на два дополнительных вопроса: что произойдёт и почему это произойдёт.

Типичные задачи в такой работе: скоринговые модели, анализ оттока клиентов, сегментация. Направления не новые, но с увеличением объёма и разнообразия данных открылось много возможностей для анализа клиентских баз. Есть также кейс с построением рекомендательных систем.

Объём данных в наших задачах может быть от десятка или сотни мегабайт (как, например, в вопросах кредитного скоринга) до десятков терабайт в случае анализа текстов в социальных сетях.

С чего начать: курс от OpenDataScience и Mail.ru

Начинать знакомство с миром Data Science нужно с классических методов машинного обучения. Для начала отлично подойдёт курс от сообщества OpenDataScience. Особой подготовки для него не требуется, достаточно основ математической статистики и программирования на Python. Также на Coursera есть достаточно неплохая специализация «Машинное обучение и анализ данных» от МФТИ и «Яндекса».

Мне очень нравится курс по машинному обучению от Техносферы Mail.ru и его продолжение. Курс нельзя назвать простым, но фундаментальные знания машинного обучения у Data Scientist’а быть должны. К слову, упоминаются там и нейронные сети. Как альтернативу я часто советую курс Data Mining in Action от МФТИ. В обоих случаях пользователи получат хорошую комбинацию математики, примеров и прикладных советов.

Из книг я бы отметил недавнюю Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, где красиво объединено изложение основ машинного обучения с учителем и введением в архитектуры современных нейронных сетей с обучением, подкреплением и пр. Мне книга нравится, но изложение в ней и без того сжатое, поэтому читать через строчку не рекомендую.

В Минске есть очно-заочный филиал Школы анализа данных (ШАД), которую я сам закончил в 2014 году. Там большая двухлетняя академическая программа, очень хорошие преподаватели и полезные домашние задания.

«Стараемся брать тех, кто любит математику»

С одной стороны, для начала достаточно крепких знаний из ВУЗа по теории алгоритмов, теории вероятностей, математической статистике, численным методам. Но с другой, решение сложных задач в области искусственного интеллекта порой требует очень хорошей фундаментальной математической культуры и знаний теоретических основ информатики. Чего именно — зависит от задачи. Поэтому стараемся брать к себе тех, кто любит математику и информатику так же, как мы.

Чтобы разобраться в математических принципах, лежащих в основе нейронных сетей, рекомендую свежую книгу Fundamentals of Deep Learning: Designing Next-Generation Machine Intelligence Algorithms. Мне она очень нравится: объяснение идей и математических принципов хорошо гармонирует с примерами и листингами кода на Tensorflow. При этом высокий уровень подготовки для её изучения не нужен.

Самой большой и наиболее фундаментальной книгой про математические принципы нейронных сетей является Deep Learning от трёх всемирно известных исследователей в этой области. Однако эта книга уже требует хорошей математической подготовки и не содержит листингов кода.

Фреймворки и языки программирования

Основной язык программирования — это Python, в нём сформирована целая Data Science-экосистема. Основные библиотеки: Pandas, Scikit-Learn, XGBoost/LightGBM, различные библиотеки для визуализации и манипуляций с данными. Для обработки текстов используются NLTK, SpaCy, Gensim.

Компьютерное зрение должно начинаться с библиотек scikit-image и OpenCV. Для глубокого обучения наиболее интересными являются библиотека Keras (самая простая), фреймворки TensorFlow и PyTorch. В качестве математических основ компьютерного зрения я бы обратил внимание на старую версию курса «Введение в компьютерное зрение» Антона Конушина (ВМК МГУ, ВШЭ, ШАД) или «Анализ видео и изображений» Натальи Васильевой (старшего научного сотрудника HP Labs и руководителя HP Labs Russia).

Возможно, будет интересно посмотреть «Язык Python» от Школы анализа данных. Но основные концепции программирования обычно предварительно изучают вместе с C++, как, например, в курсе от Mail.ru. Про то, что такое хороший поддерживаемый код на Python, можно прочитать в книге Effective Python от ведущего разработчика Google. Есть и перевод.

Главный инструмент современного компьютерного зрения и NLP — это нейронные сети, но не только сверточные. Они совершили настоящую революцию в области в последние 5 лет. Одним из лучших курсов в мире считается стэнфордский CS231n: Convolutional Neural Networks for Visual Recognition, видеозаписи и материалы курса доступны. На русском языке можно посмотреть новую версию спецкурса Антона Конушина «Введение в компьютерное зрение и глубокое обучение».

Про глубокое обучение в задачах обработки текстов можно посмотреть видеозаписи стэнфордского CS224d: Deep Learning for Natural Language Processing. Или почитать Yoav Goldberg A Primer on Neural Network Models for Natural Language Processing.

Подводные камни профессии и курсовые по Data Science

Типичные трудности нашей работы — это, например, недостаток наборов данных или некорректная постановка задачи. Надо учиться понимать бизнес-запросы, концепцию продукта и как «выжать» максимум из имеющихся данных или предложить менеджеру какую-то альтернативу.

Кроме того, нужно уметь придумывать, как обходиться доступным набором данных — например, за счёт fine tuning’а модели, предобученной на публичной информации. И, конечно, как только речь идёт об эксплуатации в продакшене и высоких нагрузках, очень востребованными оказываются знания о том, что такое хороший код, оптимизация, как эффективно работать с разными СУБД и обрабатывать много данных. В идеале Data Scientist должен быть хорошим инженером.

В некоторой степени наши ВУЗы уже готовят таких специалистов, в том числе с участием молодых преподавателей из ИT-отрасли. Например, Я вместе с коллегой веду в БГУ обзорный курс по анализу данных. С каждым годом все больше студентов берут в качестве курсовых, дипломных работ и магистерских диссертаций темы, связанные с Data Science. Основы машинного обучения с этого года будут читать во всех двухлетних магистратурах ФПМИ БГУ.

InData Labs также помогает углубить знания и получить необходимую практику в области Data Science. Мы успешно провели три цикла собственной Data Science-лаборатории. А недавно расширили программу и запустили совместно с Wargaming образовательный проект WG Forge, где выступаем менторами направления Data Science. Набор закончился 1 октября, и мы получили более 300 заявок. Отмечу, что и в ШАД, и к нам могут приходить не только студенты — ограничений нет.

Властелин мира и магический ящик

Перспектив и возможностей у Data Scientist’ов не много, а очень много. Один из самый известных Data Scientist’ов, профессор Стэнфорда и сооснователь Coursera Эндрю Ын, назвал ИИ «новым электричеством». А президент России недавно заявил, что ИИ — это «будущее не только России, но и всего человечества». Здесь колоссальные возможности и трудно прогнозируемые на сегодня угрозы. Но тот, кто станет лидером в этой сфере, будет «властелином мира».

Мы живем в век цифровых технологий, умных систем и вещей, а в будущем нас ждет ещё и умная одежда. Всё вокруг нас будет собирать данные, обмениваться ими, анализировать, что-то предсказывать, коммуницировать. Всё это — огромное количество потенциальной работы для Data Scientist’ов. Должен ли будет каждый программист уметь работать с нейронными сетями? — нет, не должен. Чтобы сделать сложную технологию, нужны люди с разными навыками и компетенциями. А вот знать основы машинного обучения и ИИ будет полезно, чтобы некоторые компоненты сложных систем не казались магическим ящиком.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык


4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Брюс, Брюс: Практическая статистика для специалистов Data Science. 50 важнейших понятий

Practical Statistics for Data Scientists. 50 Essential Concepts

Мы пришлем письмо о полученном бонусе, как только кто-то воспользуется вашей подборкой. Проверить баланс всегда можно в «Личном пространстве»

Мы пришлем письмо о полученном бонусе, как только кто-то воспользуется вашей ссылкой. Проверить баланс всегда можно в «Личном пространстве»

Аннотация к книге «Практическая статистика для специалистов Data Science. 50 важнейших понятий»

Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя.
Для аналитиков данных.

Что такое Data scientist?

Люди всё чаще задаются вопросом «реально ли создать настоящий искусственный интеллект?», компании используют модную фразу «artificial intelligence» в рекламе, а крупные корпорации пытаются предсказывать всё возможное, чтобы повысить прибыль. Но до искусственного разума уровня научной фантастики человечество ещё не доросло, а вот технологии поддержки принятия решений и методы прогнозирования с высокой долей вероятности уже существуют, и создают их обычные люди — аналитики данных, или data scientists.

Множество различных понятий используются в качестве синонимов: data scientist, data miner, data analyst, data engineer, big data analyst — попробуем разобраться, чем они отличаются, а заодно — с сутью науки о данных.

Нет времени читать, а есть желание сразу узнать где профессию Data scientist’a можно освоить? Загляните в онлайн-школу SkillFactory, здесь уже скоро стартует «Специализация Data Science».

Мастер Йода рекомендует:  Поисковая оптимизация для блогов

Фактически история науки о данных началась со времен появления статистики и поиска методов обработки информации с целью извлечь из нее осмысленные закономерности. В 1962 году Джон В. Туки впервые употребил термин «анализ данных» в своем труде «Будущее анализа данных». Человечество стало впервые использовать возможности компьютера для решения статистических задач. Затем был период разработки методов извлечения знаний из баз данных (knowledge discovery in databases), и в 1996 году мир познакомился с понятием «data science» на конференции International Federation of Classification Societies (IFCS).

За последние десятилетия появились и другие понятия, например data mining и big data. Наравне с «наукой о данных» использовался термин «анализ данных» и «бизнес-анализ данных» (data analysis, BI analysis). Все перечисленные названия различных аспектов data science часто используют как синонимы, что не всегда верно: data mining больше относится к обработке и анализу текстовых данных, а BI analysis тесно связан с развитием бизнеса и применением ПО для изучения эффективности бизнес-процессов.

Единственное значимое различие data science и big data — объём обрабатываемых данных: грубо говоря, исследователи данных работают с данными до нескольких миллионов объектов максимум, а big data аналитики имеют дело с сотнями миллионов и даже с миллиардами записей в датасете (таблице данных).

Современный data scientist — Супермен на стыке трёх миров: науки, бизнеса и IT-индустрии. Хороший специалист в этой сфере должен сочетать в себе отличное знание математики (статистики, теории вероятности, методов оптимизации), умение писать качественный код для расчётов и моделей, а также способность быстро погрузиться в предметную область, разобраться в её законах, найти проблему и обозначить пути решения.

Дрю Конвей, 2010 г.

От решений аналитика данных — сделанных выводов, найденных ответов — зависит развитие бизнеса (или той отрасли, в которой он работает). Для такого специалиста важно не только умение обрабатывать данные и извлекать из них полезную информацию, но и способность наглядно и понятно продемонстрировать результат, а затем убедить руководящий состав в эффективности предлагаемых путей развития.

Майкл Лукидс, автор книги «What is Data Science?», считает: «Аналитики данных совмещают в себе предприимчивость и терпение, готовность к итеративной работе над проектом. Они междисциплинарны в своей сути. Они могут работать над всеми аспектами проблемы, от первоначального сбора данных и их обработки до предоставления выводов. Они думают нестандартно, чтобы придумать новые решения проблемы, увидеть её с других сторон, или для работы над абстрактной задачей типа „У нас есть много данных, что вы можете с ними сделать?“»

Конкретные общепринятые навыки и умения, которыми должен обладать современный аналитик данных, можно разделить по вышеперечисленным категориям. Рассмотрим их:

  1. Область математики и статистики включает такие фундаментальные дисциплины:
  • математический анализ;
  • статистика;
  • теория вероятности;
  • методы оптимизации (и иногда — теория игр).

Как минимум, без общих знаний по этим наукам крайне сложно получить важные практические навыки:

  • создавать и анализировать статистические модели;
  • знать и понимать методы машинного обучения;
  • оптимизировать уже имеющиеся математические модели для решения конкретных задач.

2. Область программирования. Для воплощения моделей на компьютере и прогнозирования результат с их помощью аналитику жизненно важно уметь закодировать математическую модель программным языком. Для этого необходимы следующие навыки и знания:

  • знание основ информатики;
  • знание скриптовых языков: Python (библиотеки NumPy, Pandas, SciPy, Scikit-learn, matplotlib, seaborn и др.), R (библиотеки, схожие с библиотеками Python);
  • реляционные базы данных (проектирование и запросы SQL), будет плюсом работа с NoSQL базами данных;
  • навыки работы с MapReduce, Hadoop, Spark;
  • навыки работы с GPU и CUDA;
  • умение работать в Linux/Unix операционных системах.

3. С точки зрения бизнеса, аналитику необходимо грамотно и понятно толковать результаты своих исследований, представлять их визуально и системно, наглядно объясняя обнаруженные закономерности. Специалист должен:

  • уметь грамотно и лаконично излагать свои суждения;
  • понятно интерпретировать результаты моделей и на их основе предлагать решения и действия, благоприятные для компании;
  • уметь строить всевозможные графики (в этом помогут библиотеки языков Python, R);
  • знать инструменты визуализации (Tableau, D3.js, Google Visualize и др.).

Все эти знания, навыки и умения data scientist использует на разных этапах работы над проектом.

  1. Постановка задачи. Далеко не всегда чётко ясна цель и возможные результаты работы. Аналитику нужно систематизировать всю информацию, полученную от заказчика и в ходе анализа, и прийти к чёткому пониманию проблемы и возможных путей поиска её решения.
  2. Сбор и предобработка данных. Здесь data scientist имеет дело с базами данных, серверами и бесконечными текстовыми или графическими данными, которые сначала нужно извлечь, собрать и систематизировать, а затем — очистить и привести к надлежащему виду (проверить на ошибки, пропущенные значения, удалить неинформативные объекты).
  3. Изучение данных и построение статистических моделей. На данном этапе исследователь данных работает в качестве хорошего статистика и программиста: сначала изучает данные, визуализирует их и считает различные метрики, а затем программирует статистические модели, модели машинного обучения, исследует результаты и, при необходимости, улучшает что-то в моделях или возвращается к началу и снова изучает данные с точки зрения математика.
  4. Интерпретация и визуализация результатов. Для завершения проекта аналитику нужно представить полученные данные в терминах предметной области и дать ясный ответ на вопрос, сформулированный на начальном этапе проекта. Эффективная коммуникация и свободное владение средствами визуализации и презентации — фундамент удачного завершения проекта в рамках data science.

Важно отметить, что это описание — лишь обобщённые требования к исследователю данных, и в каждой отрасли, где применяются методы ИИ, есть специфические требования. Поэтому современный data scientist — это человек, способный постоянно самообучаться и решать творческие задачи. На нашем портале мы предлагаем вам сделать шаг навстречу одной из самых привлекательных профессий 21 века и пройти курсы по data science.

Дата-сайентисты – редкая порода профессионалов

Многие работодатели сегодня находятся в активных поисках дата-сайентистов. При этом они заинтересованы в привлечении тех «ученых», у которых есть соответствующее образование. При этом нужно учитывать всю дезинформацию, которой полнится рынок. Мы расскажем вам о самых главных заблуждениях относительно Data Science и дата-сайентистов, о навыках, которыми должны они обладать, а также о том, кем же на самом деле являются представители этой редкой породы.

Наука о данных (Data Science) является разделом информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объемов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Рассматривается как академическая дисциплина. С начала 2010-х годов позиционируется как практическая межотраслевая сфера деятельности. Специализация «ученый по данным» с начала 2010-х годов считается одной из самых высокооплачиваемых, привлекательных и перспективных профессий.

Data Science заблуждения

1. Big data – это статистика и бизнес-аналитика с большим количеством данных. Здесь нет ничего нового

Такого мнения придерживаются преимущественно те люди, которые обладают ограниченным опытом разработки программного обеспечения, или не отягощены вообще никаким опытом. Хотите аналогию? Пожалуйста. Возьмем в качестве примера лед. Его можно назвать ну очень холодной водой. Что тут нового? Тем не менее, охлаждение воды меняет не только ее температуру, но решительным образом изменяет ее качественные характеристики, преобразовывая жидкость в твердое вещество. То же самое может быть сказано и относительно большого количества данных. Большие массивы данных, в конечном счете, ломают старые парадигмы вычислений, расчетов и выкладок. При использовании традиционных методов бизнес-аналитики на проведение тех или иных расчетов могут уйти годы. Распараллеливание и распределенные вычисления являются очевидными ответами на вопрос о масштабировании. Но это не всегда оказывается так легко, даже в случае такого простого статистического инструмента, как логистический регрессионный анализ. Распределенные статистические вычисления настолько же отличаются от традиционной бизнес-аналитики, насколько лед от воды.

2. Дата-сайентисты – те же инженеры-программисты после ребрендинга

Иногда инженеры с большим опытом разработки программного обеспечения проходят переквалификацию и становятся дата-сайентистами с целью повышения заработной платы. Однако такая практика зачастую приводит к неудовлетворительным результатам. Ведь в сфере big data отладка ошибок статистики даже на самом простом уровне представляется довольно сложной задачей. Инженеры обучены обнаруживать и устранять программные ошибки. Но без твердых знаний по теории вероятности и статистике даже крутому программисту вряд ли удастся успешно устранить несложную статистическую ошибку.

Инженеры более высокого уровня умеют строить простые дискретные модели, основанные на правилах. Но такие модели не подходят для получения более тонких инсайтов из данных. Отсюда и упущенная финансовая выгода. Потому для получения ответов на «big data вопросы» нужны высококвалифицированные и узкоспециализированные кадры, которые будут фундаментом предиктивного моделирования следующего поколения.

3. Дата-сайентистам не нужно понимать бизнес – им все расскажут данные

Люди, которые имеют за плечами образование и опыт работы программиста, зачастую поддаются этому соблазну. И, правда, зачем им разбираться в бизнесе, если у них настолько мощная база? Мощная, но не всемогущая. Поиск всех возможных корреляций невероятно трудоемкий и затратный по времени, не говоря уже о статистической проблематике. Дата-сайентисты просто обязаны руководствоваться бизнес-интуицией, чтобы успешно различать ложные и реальные корреляции. Отсутствие экспертных знаний в той или иной сфере может приводить к необоснованным выводам. Как вам это? Увеличение количества полицейских приводит к росту преступности – значит, необходимо сократить число правоохранителей в районах с неблагоприятной криминогенной обстановкой. Наконец, наличие деловой интуиции также важно для убеждения основных заинтересованных сторон: рассуждая о корреляциях на языке, который понимают бизнесмены, специалист по данным будет более успешен, чем его коллега, не обладающий бизнес-чутьем.


Большие данные и наука о данных – это знания о том, как построить оптимальную модель, в которой будут сочетаться правильный инжиниринг, статистические и деловые навыки. Без этого дата-сайентист не сможет достигнуть всего того, что он намеревается сделать.

Так кто же такие дата-сайентисты?

Ученые по данным представляют собой продукт эволюции бизнес- и дата-аналитиков. Формально обучение таких специалистов включает информатику, статистику, аналитику и математику. Что отличает первоклассного дата-сайентиста? Сильная деловая хватка в сочетании со способностью общаться с бизнес- и IT-руководителями в таком формате, который помогает влиять на развитие компании. Анджул Бамбра, вице-президент отдела big data в компании IBM, утверждает, что ученые по данным – это «частично аналитики, а частично художники». Это очень любознательные люди, которые могут смотреть на данные и определять тенденции. Их можно сравнить с художниками эпохи Возрождения, которые хотели не просто учиться, но и изменять окружающий их мир.

В то время как традиционный аналитик анализирует данные из одного источника (например, системы CRM), дата-сайентист обязательно изучает данные из нескольких разнородных источников. Он будет настойчиво просеивать все входящие данные с целью обнаружения ранее скрытых инсайтов, которые могут обеспечить конкурентное преимущество. Дата-сайентист не просто собирает и анализирует данные, но смотрит на них под разными углами и анализирует в разных контекстах, определяет то, что значат те или иные данные для бренда, а затем дает рекомендации относительно применения наличествующей информации.

Дата-сайентисты – это люди, которые постоянно исследуют, задают миллионы вопросов, проводят «а что, если…» анализ, подвергают сомнению существующие предположения и процессы, определяют богатые источники данных и присоединяют к ним бедные массивы… В конкурентной среде, где задачи постоянно меняются, а бурное течение данных никогда не иссякает, дата-сайентисты помогают руководству принимать решения. И это самое ценное их качество.

Почему «ученые»?

Многие утверждают, что называть специалиста по данным ученым весьма и весьма претенциозно. Однако если постараться смотреть в корень, то такая формулировка обретает смысл. Например, физики-экспериментаторы должны сами разрабатывать и создавать оборудование, собирать данные, проводить эксперименты и обобщать все полученные сведения в отчетах. То же самое делают и дата-сайентисты. Потому самыми высококвалифицированными учеными по данным считаются люди с ученой степенью по физике или общественным (социальным) наукам.

Лучшими на планете дата-сайентистами являются ученые со степенью доктора наук в таких эзотерических областях, как экология и системная биология. Яркий пример – Джордж Румелиотис, возглавляющий команду дата-сайентистов компании Intuit в Силиконовой долине. Он получил докторскую степень в области астрофизики. Многие дата-сайентисты являются обладателями ученых степеней по информатике, математике и экономике. Но, как бы там ни было, хороший специалист, специализирующийся на анализе данных, может выйти из любой области.

Основные навыки, без которых не обойтись дата-сайентисту

Базовые инструменты. Независимо от того, какие задачи ставит компания, ученый по данным должен знать, как использовать базовые инструменты: язык программирования R для статистической обработки данных и работы с графикой, высокоуровневый язык программирования Python, ориентированный на повышение производительности разработчика и читаемости кода, язык структурированных запросов, такой как SQL, применяемый для создания, модификации и управления данными в произвольной реляционной базе данных.

Базовая статистика. Понимание статистики является жизненно необходимым для дата-сайентиста. Не секрет, что многие специалисты не в состоянии определить даже P-значение – величину, используемую при тестировании статистических гипотез. Дата-сайентист просто обязан быть знаком со статистическими тестами, распределениями, оценками максимального правдоподобия и т.д. Статистика важна для разных сфер бизнеса, особенно для data-driven компаний

Машинное обучение. Если дата-сайентист работает в крупной компании с огромными объемами данных, он должен быть знаком с методами машинного обучения. Конечно, многие из этих методов могут быть реализованы при помощи библиотек R или Python, потому здесь не нужно быть ведущим мировым экспертом, чтобы разобраться в том, как работают алгоритмы. Гораздо важнее понимать, когда использование тех или иных методов будет наиболее целесообразным.

Многовариантные расчеты и линейная алгебра. Эти дисциплины образуют основу многих методов машинного обучения.

Подготовка данных к анализу. Зачастую анализируемые данные бывают довольно «грязными», значительно усложняя работу с ними. Потому очень важно знать, как бороться со всеми недостатками данных. В качестве примера несовершенства data можно привести такое противоречивое форматирование строк, как «New York» — «new york» — «ny», или даты «2014-01-01» – «01/01/2014», или использование системы UNIX-время и последовательности Timestamp.

Визуализация данных и коммуникация. Это невероятно важные моменты, особенно если речь идет о молодых data-driven компаниях, или же о тех компаниях, в которых дата-сайентисты воспринимаются как люди, помогающие принимать data-driven решения. Очень пригодятся знания ggplot (расширение языка R) и JavaScript-библиотеки для обработки и визуализации данных D3.js.

Программирование. Дата-сайентисты, как правило, ответственны за обработку большого количества регистрационных данных и data-driven продуктов.

Думать как дата-сайентист. Работодатель всегда хочет видеть в дата-сайентисте человека, который решает проблемы. «Ученый» всегда должен знать, что является важным на данном этапе, а что не представляет особой ценности. Он обязан взаимодействовать с проектировщиками и менеджерами, отвечающими за развитие продукта.

Издание Harvard Business Review утверждает, что дата-сайентист – самая сексуальная профессия 21 века. И с этим сложно не согласиться. Наука о данных только развивается, и всех современных дата-сайентистов можно смело назвать пионерами. И если вы можете сказать, что являетесь лучшим IT-специалистом среди статистиков и лучшим статистиком среди IT-специалистов, тогда вы настоящий дата-сайентист.

Топ-9 примеров использования Data Science в банковской сфере

Использование Data Science в банковской сфере — это больше, чем тенденция, поэтому стало необходимостью идти в ногу с конкурентами. Банки должны понимать, что технологии big data могут помочь им эффективно распределить свои ресурсы, принять более разумные решения и повысить производительность.

Ниже представлен список примеров использования data science в области банковской деятельности, которые мы объединили, чтобы дать вам представление о том, как вы можете работать с большими объемами информации и как эффективно использовать их.

Обнаружение мошенничества

Machine learning имеет решающее значение для эффективного обнаружения и предотвращения мошенничества в использовании кредитных карт, в бухгалтерском учете, в страховании и т. д. Заблаговременное обнаружение мошенничества в банковской сфере имеет важное значение для обеспечения безопасности клиентов и сотрудников. Чем раньше банк обнаруживает мошенничество, тем быстрее он может ограничить доступ к банковскому счету, чтобы минимизировать потери. Внедряя ряд схем обнаружения мошенничества, банки могут обеспечить необходимую защиту и избежать значительных потерь.

К ключевым моментам обнаружения мошенничества относятся:

  • Получение выборок данных для оценки модели и предварительного тестирования;
  • Оценка модели;
  • Стадия тестирования;

Поскольку наборы данных всегда разные, каждый требует индивидуальной подготовки и корректировки Data scientist’ами. Преобразование глубоких теоретических знаний в практическое применение требует опыта в методах интеллектуального анализа данных, таких как объединение, кластеризация, прогнозирование и классификация.

Наглядным примером обнаружения мошенничества с помощью использования Data Science является случай, когда осуществляются большие транзакции, и система предотвращения мошенничества банка настроена на то, чтобы приостановить их, пока владелец счета не подтвердит сделку. Для новых учетных записей данная система может исследовать нетипично дорогие покупки популярных товаров или несколько учетных записей, открытых за короткий период с аналогичными данными.

Управление данными клиента

Банки вынуждены собирать, анализировать и хранить огромные объемы данных. Но вместо того, чтобы рассматривать это как обязательное условие для выполнения банковских операций, средства машинного обучения и сбора данных могут превратить это в возможность узнать больше о своих клиентах, чтобы стимулировать новые возможности получения дохода.

Мастер Йода рекомендует:  Сервера Twitter переедут в собственный дата-центр

В настоящее время банковское обслуживание в электронной форме становится все более популярным и широко используемым. Это создает терабайты данных о клиентах, поэтому первым шагом Data scientist’ов является выделение необходимых данных. После этого, имея информацию о поведении пользователя и его предпочтениях, Data scientist’ы с помощью точных моделей машинного обучения могут открыть новые возможности получения доходов для банков, изолируя и обрабатывая конкретно эту информацию для принятия бизнес-решений.

Моделирование рисков для инвестиционных банков

Моделирование рисков является приоритетом для инвестиционных банков, поскольку оно помогает регулировать финансовую деятельность и играет самую важную роль при определении тарифов финансовых инструментов. Инвестиционно-банковская деятельность оценивает стоимость компаний для создания капитала корпоративного финансирования, содействия слияниям и поглощениям, проведения корпоративной реструктуризации или реорганизации, а также в инвестиционных целях.

Вот почему моделирование рисков представляется чрезвычайно важным аспектом для банков и лучше всего осуществляется при наличии большего объема информации и информационных инструментов. Теперь, благодаря способностям Big Data, новаторы в банковской деятельности используют новые технологии для эффективного моделирования рисков и, следовательно, принимают более взвешенные решения.

Персонализированный маркетинг

Ключом к успеху в маркетинге является создание индивидуального предложения, которое соответствует потребностям и предпочтениям конкретного клиента. Аналитика данных позволяет создавать персонализированный маркетинг, который предлагает нужный продукт нужному человеку в нужное время на нужном устройстве. Работа с данными широко используется для целевого отбора с намерением определить потенциальных клиентов для нового продукта.

Data scientist’ы используют поведенческие, демографические и исторические данные о приобретении товара с целью создания модели, которая прогнозирует ту или иную реакцию клиента на продвижение или предложение. Таким образом, банки могут совершить эффективную персонализированную работу с информацией о клиентах и, тем самым, улучшить свои отношения с ними.

Прогноз продолжительности жизни

Величина жизненного цикла клиентов (CLV) является прогнозом показателя прибыли, которую получит бизнес в результате взаимодействия с пользователями на протяжении жизни. Важность данной величины быстро растет, так как она помогает создавать и поддерживать выгодные отношения с отдельными клиентами, что повышает прибыльность и рост бизнеса.

Привлечение и удержание прибыльных клиентов является все более острой проблемой для банков. По мере усиления конкуренции, банки теперь нуждаются во всестороннем представлении каждого клиента, чтобы эффективно концентрировать свои ресурсы. Вот где вступает в действие data science. Поскольку необходимо учитывать, что требуется проанализировать большой объем данных, таких как: обзор новых и ушедших клиентах, использование разнообразных банковских продуктов и услуг, их объем и окупаемость, а также другие характеристики, включая географические, демографические и рыночные показатели.

Кроме того, требуются постоянное обновление, сортировка и прочие манипуляции с этими данными, чтобы они сохраняли свою значимость и актуальность. В арсенале data scientist’ов есть много инструментов и подходов для разработки модели CLV, такой как обобщенные линейные модели (GLM), поэтапная регрессия, классификация и деревья регрессии (CART). Создание прогностической модели для определения будущих маркетинговых стратегий на основе CLV — бесценный процесс, в результате которого банкам удается добиться поддержания прочных отношений с клиентами в течение всего жизненного цикла, что приводит, опять же, к повышению прибыльности и росту банка.

Аналитика в режиме реального времени и прогноза

Растущее значение аналитики в банковской сфере нельзя недооценивать. Алгоритмы машинного обучения и приемы data science могут значительно улучшить стратегию развития банка, поскольку каждая банковская операция тесно связана с аналитикой данных. Так как доступность и разнообразие информации быстро растут, аналитика становится более сложной и скрупулезной.

Потенциальная ценность имеющейся информации поразительна: количество значимых данных, отражающих конкретные факты, существенно выросло за последние несколько лет, в то время как затраты на их переработку снижаются. Отличие действительно релевантных данных от прочей информации способствует эффективному решению проблем и принятию более разумных стратегических решений. Аналитика в реальном времени помогает понять проблему, которая удерживает бизнес, в то время как интеллектуальная аналитика помогает в выборе правильной техники для ее решения. Значительно лучшие результаты могут быть достигнуты путем интеграции аналитики в рабочий процесс банка, чтобы заранее избежать потенциальных проблем.

Сегментация клиентов

Сегментация означает выделение групп клиентов на основе их поведения (для поведенческой сегментации) или конкретных характеристик (например, региона, возраста, дохода для демографической сегментации). В арсенале data scientist’ов есть множество методов, таких как кластеризация, деревья решений, логистическая регрессия и т.д., которые помогают изучать CLV каждого сегмента клиентов и выявлять наиболее и наименее ценные из них.

Нет необходимости доказывать, что такая сегментация пользователей позволяет эффективно распределять маркетинговые ресурсы и подбирать индивидуальный подход к каждой группе клиентов. Стоит помнить, что сегментация клиентов призвана улучшить их обслуживание и помочь в формировании лояльности и удержании, что так необходимо для банковского сектора.

Cистемы рекомендаций

Инструменты data science и machine learning могут создавать простые алгоритмы, которые анализируют и фильтруют деятельность пользователя, чтобы сделать наиболее актуальное для него предложение. Такие механизмы с рекомендациями демонстрируют элементы, которые могут заинтересовать пользователя, даже до того, как он сам его искал. Чтобы создать механизм рекомендаций, data scientist’ы анализируют и обрабатывают много информации, идентифицируют профили клиентов и охватывают данные, показывающие их взаимодействия, чтобы избежать повторения предложений.

Тип рекомендуемых систем зависит от метода фильтрации алгоритма. Совместные методы фильтрации могут быть основаны либо на пользователе, либо на элементах, и работать с поведением клиента для анализа предпочтений других пользователей, а затем давать рекомендации новому клиенту. Основная трудность применения метода совместной фильтрации заключается в использовании огромного количества данных, что создает проблему сложности вычислений и увеличения затрат.

Фильтрация на основе контента работает с более простыми алгоритмами, которые рекомендуют аналогичные элементы тем, с которыми пользователь взаимодействовал в предыдущей деятельности. Эти методы могут терпеть неудачу в случае сложного поведения или неясных связей. Существует также гибридный тип систем, сочетающий совместную и контентную фильтрацию.

Никакой метод не является универсальным, у каждого из них есть свои плюсы и минусы, и правильный выбор зависит от целей и обстоятельств.

Служба поддержки

Выдающаяся служба поддержки — это ключ к сохранению продуктивных долгосрочных отношений с клиентами. В рамках обслуживания пользователей, поддержка является важной, но общей концепцией в банковской сфере. Фактически, все банки являются сервисными предприятиями, поэтому большая часть их деятельности включает в себя элементы обслуживания, что представляет собой подробные и своевременные ответы на вопросы и жалобы клиентов, а также взаимодействие с ними.

Data science делает этот процесс более автоматизированным, точным, продуктивным и менее затратным в отношении рабочего времени сотрудников.

Вывод


Этот список вариантов использования Data science в банковской сфере может расширяться каждый день благодаря динамично развивающейся области научных исследований и возможности применять модели машинного обучения к реальным данным, получая все более точные результаты.

Чтобы получить конкурентное преимущество, банки должны признать решающее значение Data Science, интегрировать ее в процесс принятия решений и разработать стратегии, основанные на анализе информации, полученной от своих клиентов. Начните с небольших шагов, чтобы включить аналитику Big Data в свои рабочие модели и быть впереди конкурентов!

Программа «Data Science для бизнеса»

В последние годы Data Science стало привлекать к себе всё больше внимания. Ведь с помощью методов машинного обучения и анализа данных могут быть решены различные задачи бизнеса: прогнозирование спроса, увеличение продаж с помощью рекомендаций товаров, удержание клиентов, прогнозирование динамики цен и оптимизации производства. Наша программа посвящена основам машинного обучения и искусственного интеллекта и задачам, которые данная технология позволяет решать.

На лекциях и семинарах мы расскажем о том, как оценить задачу, выбрать правильную метрику, нужно ли нанимать аналитиков в штат или дешевле купить коробочное решение под данную задачу. Как найти связь с экономическим эффектом, эффективно проводить офлайн и онлайн тестирование моделей. Кроме того, будут затронуты темы планирования реализации и внедрения моделей, расставления приоритетов при выборе задач, управления жизненным циклом моделей. Также во время семинаров будут рассмотрены кейсы практического применения анализа данных в различных областях.

Навыки программирования для освоения программы не требуются.

Расписание занятий

С 1 октября по 5 ноября 2020 года
по вторникам и четвергам с 19:00 до 22:00.

Начальные требования

Законченное высшее или среднее профессиональное образование. Слушателями также могут стать студенты, получающие высшее образование.

Документы для зачисления

академических часа

рублей

Преподаватели

Элен Теванян

Head of Big Data Team в Азбуке Вкуса.

Преподаватель факультета компьютерных наук, эксперт Центра непрерывного образования, аспирант департамента больших данных и информационного поиска НИУ ВШЭ. Ведёт лекции и тренинги для менеджеров по DS, AI, ML. Работала в Х5 Retail Group, Альфа-Банке и ФРИИ.

Окончила факультет компьютерных наук НИУ ВШЭ по специальности «Прикладная математика и информатика».

Анна Чувилина
Автор и менеджер программы по аналитике в Яндекс.Практикуме. Преподаватель факультета компьютерных наук НИУ ВШЭ.

Основные темы программы

  • Введение в машинное обучение и анализ данных. Основные термины и понятия. Различные инструменты для анализа данных: их плюсы и минусы. Рынок данных и юридические аспекты их использования.
  • Постановка задачи и особенности управления проектами в Data Science. Типы задач. Выбор метрик. Управление ожиданиями по качеству. Анализ сценариев использования моделей. Валидация задачи и данных. Экономический эффект.
  • Оценка качества проектов в Data Science. Метрики классификации. Метрики регрессии. Метрики ранжирования. Как и зачем мерять качество. A/B тестирование. Статистическая значимость и чувствительность. Примеры онлайн и оффлайн тестов.
  • Построение моделей. Предобработка данных. Планирование экспериментов. Валидация и тестирование в процессе.
  • Подготовка технического задания и управление проектом. Разбор кейсов

Что будет на занятиях

Каждая лекция — это разбор проекта от момента постановки задачи и взаимодействия с заказчиком до тестирования и внедрения.

Что в результате? Мы разберём такие темы, как:

  • процесс ведения проектов в DS;
  • оценка необходимости и эффективности внедрения DS решений;
  • организация работы команды;
  • тестирование моделей и внедрение;
  • что происходит после внедрения и как оценивать эффект.

На практических занятиях слушатели будут работать в Jupyter Notebook и освоят Python, чтобы:

  • манипулировать табличными данными;
  • считать аналитику;
  • визуализировать данные;
  • собирать аналитику и визуализацию в презентации в JN.

Также на практических занятиях слушатели закрепят знания основ машинного обучения и выбора подходящих метрик для своих задач.

Отзывы

Дмитрий Орлов, ООО «Транснефть финанс»:
Data science в наши дни уже далеко не роскошь, а неотъемлемая часть жизни любой организации, претендующей на звание эффективной. Данная программа — отличная возможность для современных управленцев познакомиться с основами науки о данных, понять, как общаться с командой data-сайентистов, управлять проектами в этой области, а главное – попробовать свои силы в работе с данными.

Дмитрий Орлов

Ксения Жукова
В рамках моей работы мне приходится выбирать решения и подрядчиков в области Data science. Курс был очень полезным для меня, как ИТ-менеджера и заказчика. Теперь я лучше понимаю, какие вообще бывают решения, как правильно формулировать требования, на что обращать внимание, какие модели в каких случаях лучше применять. Отдельное спасибо за практическую часть всегда хорошо самому «пощупать руками» то, что планируется внедрять, чтобы разобраться ещё глубже и говорить с исполнителями на одном языке. Опять же, лично мне, как менеджеру, последние лет 10, приятно было вспомнить программистское прошлое. Мне кажется, в современном мире каждый человек должен быть хоть немного программистом.

50 вопросов для проверки знаний по data science

Мы здесь науку о данных будем указывать как «data science». Предлагаем рассмотреть 3 части вопросов, которые помогут проверить знания специалиста по данным (дата-учёного, data scientist). Источник.

Часть I

1. Что такое жизненный цикл проекта в области data science?

2. Как вы оцениваете продуктивность (по сравнению с исходным) результатов нового или усовершенствованного алгоритма и архитектуры?

3. Что такое кросс-валидация (перекрёстная проверка)? Как её сделать правильно?

4. Лучше разрабатывать надёжные (робастные) или точные алгоритмы?

5. Вы писали код? Прототипировали алгоритм? Доказывали концепцию?

6. С каким самым большим объёмом данных Вы работали?

7. Назовите несколько известных API (например, Гугл Поиска).

8. Как эффективно собирать веб-данные или собирать миллионы твитов?

9. Как оптимизировать алгоритмы (параллельной обработки и / или более быстрый алгоритм: приведите примеры)?

11. Как Вы очищаете данные?

12. Как Вы определяете/выбираете метрики? Разрабатывали или использовали сложные метрики?

13. Приведите примеры хорошей и плохой визулизации.

14. Вы принимали участие — в качестве консультанта или архитектора — в разработке панелей мониторинга или сигнализации?

15. Как часто алгоритм должен обновляться?


16. Приведите пример взаимодействия машина-машина.

17. Приведите примеры, где можно автоматизировать повторяющиеся аналитические задачи.

18. Как Вы оцениваете статистическую значимость инсайтов?

19. Как преобразовать неструктурированные данные в структурированные?

20. Как очень эффективно разбить на кластеры 100 миллиардов веб-страниц, например, с помощью тегов или алгоритма индексации?

Часть II

1. Что такое регуляризация и почему она полезна? Каковы преимущества и недостатки конкретных методов, таких как гребневая регрессия и LASSO?

2. Что такое локальный оптимум и почему это важно в определённом контексте, например в методе к-средних (кластеризация)? Какие существуют конкретные способы определения проблемы локального оптимума? Как можно избежать локального оптимума?

3. Предположим, Вам нужно создать прогностическую модель количественного результата некоторой переменной с использованием множественной регрессии. Объясните, как Вы намерены проверить/валидировать эту модель.

4. Объясните, что такое точность и полнота. Как они соотносятся с кривой ROC?

5. Объясните, что такое распределение с длинным хвостом и приведите 3 примера такого распределения. Почему оно играет важную роль в вопросах классификации и прогнозирования?

6. Что такое скрытая семантическая индексация? Для чего её используют? Каковы конкретные ограничения метода?

7. Объясните суть центральной предельной теоремы. Почему она так важна? В каких случаях она не работает?

8. Что такое статистическая мощность?

9. Объясните суть методов повторной выборки и для чего они используются. Какие у них ограничения?

10. Объясните разницу между искусственными нейронными сетями с SoftMax активацией, логистической регрессии и классификатором максимума энтропии.

11. Объясните суть систематической ошибки отбора (в отношении набора данных, а не переменных выбора). Почему это важно? Как процедуры управления данными, такие как обработка потерянных данных, могут только ухудшить работу?

12. Приведите простой пример того, как планирование эксперимента может помочь ответить на вопрос о поведении. Например, объясните, как планирование эксперимента может быть использовано для оптимизации веб-страницы. Как экспериментальные данные сопоставляются с данными наблюдений?

13. Объясните разницу между «длинным» и «широким» форматом данных. Почему Вы используете тот или иной формат?

14. Является ли среднее вменение недостающих данных приемлемой практикой? Почему да или почему нет?

15. Опишите концепцию “графического хлама” Эдварда Тафти.

16. Что такое выброс? Объясните, как можно изобразить/показать выбросы в данных и что Вы будете делать, если обнаружите выбросы в наборе данных. Аналогично, расскажите про вбросы в данных, как их показать и что делать при их обнаружении.

17. Что такое анализ главных компонент (РСА)? Укажите виды задач, в которых используется данный анализ. Какие ограничения есть у этого метода?

18. Предположим, у вас есть данные о продолжительности звонков в колл-центр. Опишите алгоритм/план, как Вы будете анализировать эти данные. Объясните вероятный сценарий того, как может выглядеть распределение этих данных. Как Вы могли бы проверить (даже графически), что ваши ожидания оправдались?

19. Что такое ошибка первого рода (ложно-положительный результат) и ошибка второго рода (ложно-отрицательный результат)? Почему так важно, отделять их друг от друга? Приведите примеры ситуаций, в которых (1) ложно-положительный является более важным, чем ложно-отрицательный, (2) ложно-отрицательный является более важным, чем ложно-положительный, и (3) эти два типа ошибок примерно одинаково важны.

20. Объясните возможные различия между административными наборами данных и наборами данных, полученных в результате экспериментальных исследований. Каковы возможные проблемы, связанные с административными данными? Как экспериментальные методы помогают решать эти проблемы? К каким проблемам они приводят?

Часть III

1. Золотой стандарт в науке о данных.

2. Чем отличается обучение с учителем от обучения без учителя? Приведите конкретные примеры.

3. Для чего нужно НЛП (NLP)?

4. Напишите программу, которая считает количество слов в документе, используя любой язык программирования.

5. Что такое признаковое описание объекта (векторы признака)?

6. В каких случаях Вы бы использовали метод опорных векторов (Support Vector Machine) вместо Случайного Леса (Randon Forest)?

7. Дайте определение большим данным и с каким максимальным объёмом данных Вам приходилось работать? Вы распараллеливали код?

8. Как Вы работаете с большими массивами данных?

9. Напишите mapper-функцию для подсчёта частоты слов (пусть это будет псевдокод).

10. Напишите reducer-функцию для подсчёта частоты слов (пусть это будет псевдокод).

Для некоторых вопросов ответы можно найти на нашем портале (они выделены ссылками, обновляется по мере наполнения). Кроме того, ответы на некоторые из этих вопросов можно найти здесь.

Что такое Data Science? Руководство для начинающих

Когда мир вошел в эпоху больших данных, потребность в их хранении также выросла. Это была основная задача и проблема для предприятий отрасли до 2010 года. Основное внимание было уделено созданию решений для хранения данных. Теперь, когда Hadoop и другие структуры успешно решили проблему хранения, фокус сместился на обработку этих данных. Data Science — это секретный соус. Все идеи, которые вы видите в голливудских научно-фантастических фильмах, действительно могут стать реальностью благодаря Data Science. Наука о данных — это будущее искусственного интеллекта. Поэтому очень важно понять, что такое Data Science и как она может повысить ценность вашего бизнеса.

Мастер Йода рекомендует:  Функции веб-программиста

В этом блоге я расскажу о следующих темах.

  • Необходимость в Data Science.
  • Что такое Data Science?
  • Чем она отличается от Business Intelligence (бизнес-аналитики BI) и анализа данных (Data Analysis)?
  • Жизненный цикл Data Science с примерами.

В конце этого блога вы сможете понять, что такое Data Science и ее роль в извлечении значимых идей из сложных и больших наборов данных по всему миру.

Давайте поймем зачем нам нужна Data Science

Традиционно данные, которые у нас были, являлись в основном структурированными и небольшими по размеру, их можно было проанализировать с помощью простых инструментов BI. В отличие от структурированных данных в традиционных системах, сегодня большая часть данных неструктурирована или полуструктурирована. Давайте посмотрим на тенденции данных в приведенном ниже графике, который показывает, что к 2020 году более 80% данных будут неструктурированы.

Эти данные генерируются из разных источников, таких как финансовые журналы, текстовые файлы, мультимедиа, датчики и инструменты. Простые инструменты BI не способны обрабатывать этот огромный объем и разнообразие данных. Вот почему нам нужны более сложные и передовые аналитические инструменты и алгоритмы для обработки, анализа и отображения значимых идей.
Это не единственная причина, по которой технология Data Science стала настолько популярной. Давайте углубимся и посмотрим, как она используется в разных областях.

  • Как насчет того, сможете ли вы понять точные требования своих клиентов к существующим данным, таким как история просмотра посетителей, история покупок, возраст и доход. Без сомнения, у вас были все эти данные ранее, но теперь с огромным количеством и разнообразием их вы можете более эффективно обучать модели и рекомендовать продукт своим клиентам с большей точностью. Разве это не удивительно, поскольку это принесет больше преимуществ вашей организации?
  • Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, если ваш автомобиль использовал элементы ИИ чтобы отвезти вас домой? Автопилот собирает данные от датчиков, радаров, камер и лазеров, чтобы создать карту окружения. Основываясь на этих данных, он принимает решения, например, когда ускоряться, когда нужно обгонять, где нужно сделать чередование с использованием передовых алгоритмов машинного обучения.
  • Давайте посмотрим, как Data Science может использоваться в интеллектуальной аналитике. Рассмотрим пример прогнозирования погоды. Данные о кораблях, самолетах, радарах, спутниках могут собираться и анализироваться для создания моделей. Эти модели не только прогнозируют погоду, но также помогают прогнозировать возникновение любых стихийных бедствий. Это поможет вам заранее принять необходимые меры и спасти много драгоценных жизней.

Посмотрим на нижеприведенную инфографику, чтобы увидеть все области, где Data Science производит впечатляющие результаты.

В каких областях Data Science поражает воображение

Теперь, когда вы поняли необходимость в Data Science, давайте поймем, что это такое.

Что такое Data Science?

Использование термина Data Science становится все более распространенным явлением, но что оно означает? Какие навыки вам нужны, чтобы стать Data Scientist’ом? В чем разница между BI и Data Science? Как принимаются решения и прогнозы в области Data Science? Вот некоторые из вопросов, на которые будет дан ответ.

Во-первых, давайте посмотрим, что такое Data Science.

Data Science — это сочетание различных инструментов, алгоритмов и принципов машинного обучения с целью обнаружения скрытых шаблонов из необработанных данных. Как это отличается от того, что статистики делают в течение многих лет?


Ответ заключается в различии между объяснением и предсказанием.

Различия Data Scientist и Data Analyst

Как видно из приведенного выше графика, аналитик данных обычно объясняет, что происходит, обрабатывая историю данных. С другой стороны, Data Scientist не только делает анализ, но и использует различные усовершенствованные алгоритмы машинного обучения, чтобы идентифицировать появление конкретного события в будущем. Data Scientist будет рассматривать данные со многих точек зрения, иногда таких, которые ранее не были известны.

Таким образом, наука о данных в основном используется для принятия решений и прогнозов с использованием predictive causal analytics, prescriptive analytics (прогноз и принятие решений) и машинного обучения.

Модели в Data Science

Predictive causal analytics. Если вы хотите модель, которая может предсказать возможности конкретного события в будущем, вам необходимо применить предиктивную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты будут оплачивать платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете создать модель, которая может выполнять аналитику в истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.

Prescriptive analytics. Если вам нужна модель, которая обладает интеллектом принятия собственных решений и возможностью изменять ее с помощью динамических параметров, для этого вам, безусловно необходимо аналитическое прогнозирование. Это относительно новое поле деятельности — предоставление консультаций. Другими словами, оно не только прогнозирует, но и предлагает ряд предписанных действий и связанных с ними результатов.

Лучший пример для этого — автомобиль с автопилотом от Google, о котором я уже говорил ранее. Данные, собранные на транспортных средствах, могут использоваться для обучения автомобилей с самообслуживанием. Вы можете запускать алгоритмы на этих данных, чтобы использовать ИИ. Это позволит вашему автомобилю принимать решения, например, когда нужно повернуть, какое взять направление, когда замедлить или ускорить ход.

Machine learning for making predictions. Если у вас есть транзакционные данные финансовой компании и вам нужно построить модель для определения будущей тенденции, то наилучшим вариантом будут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Оно называется с учителем, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.

Machine learning for pattern discovery. Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно выяснить скрытые шаблоны в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как обучение без учителя, поскольку у вас нет предопределенных категорий для группировки. Наиболее распространенным алгоритмом, используемым для обнаружения паттернов, является кластеризация.

Допустим, вы работаете в телефонной компании, и вам нужно создать сеть, разместив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те вышки, которые гарантируют, что все пользователи получат оптимальную мощность сигнала.

Отличия подходов в Data Analysis и Data Science

Давайте посмотрим, как соотношение вышеописанных подходов отличается для Data Analysis, а также для Data Science. Как вы можете видеть на изображении ниже, анализ данных включает описательную аналитику и прогнозирование. С другой стороны, Data Science — это больше о Predictive Causal Analytics и машинном обучении.

Отличия в подходах Data Analysis и Data Science

Я уверен, что вы, возможно, слышали и о Business Intelligence (BI). Часто наука о данных смешивается с BI. Я сформулирую несколько кратких и четких различий между ними, которые помогут вам лучше их понять.

Бизнес-аналитика (BI) и наука о данных

  • В BI в основном анализируют предыдущие данные, чтобы найти ответ задним числом и используют интуицию для описания тенденций бизнеса. BI позволяет вам принимать данные из внешних и внутренних источников, обрабатывать их, делать запросы и создавать информационные панели для ответа на такие вопросы, как ежеквартальный анализ доходов или бизнес-проблем. BI может оценить влияние определенных событий в ближайшем будущем.
  • Что такое Data Science? это более перспективный подход, исследовательский подход с уделением особого внимания анализу прошлых или текущих данных и прогнозированию будущих результатов с целью принятия обоснованных решений. Он отвечает на открытые вопросы о событиях «что» и «как».
    Давайте посмотрим на некоторые различия.
Features Business Intelligence (BI) Data Science
Data Sources Structured
(Usually SQL, often Data Warehouse)
Both Structured and Unstructured( logs, cloud data, SQL, NoSQL, text)
Approach Statistics and Visualization Statistics, Machine Learning, Graph Analysis, Neuro- linguistic Programming (NLP)
Focus Past and Present Present and Future Tools Pentaho, Microsoft BI, QlikView, R RapidMiner, BigML, Weka, R

Это все о том, что такое Data Science, теперь давайте рассмотрим жизненный цикл Data Science.

Общая ошибка, допущенная в проектах Data Science, это работа над сбором и анализом данных, не понимая требований без правильного определения бизнес-проблемы. Поэтому для вас очень важно следить за всеми этапами жизненного цикла Data Science, чтобы обеспечить бесперебойную работу проекта.

Жизненный цикл Data Science

Ниже приведен краткий обзор основных этапов жизненного цикла, который позволяет ответить на вопрос о том, что такое Data Science?:

Жизненный цикл Data Science

  • Фаза 1 — Открытие: перед началом проекта важно понять различные спецификации, требования, приоритеты и необходимый бюджет. Вы должны обладать способностью задавать правильные вопросы. Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологии, времени и данных для поддержки проекта. На этом этапе вам также необходимо создать бизнес-задачу и сформулировать первоначальные гипотезы (IH) для тестирования.
  • Фаза 2 — Подготовка данных: на этом этапе вам нужна аналитическая «песочница», в которой вы можете выполнять аналитику на протяжении всего проекта. Перед моделированием вам необходимо исследовать и предварительно обработать данные. Кроме того, вы будете выполнять ETLT (extract, transform, load and transform), чтобы получить данные в песочнице. Давайте посмотрим на порядок статистического анализа ниже.

Статистический анализ

Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам выявить выбросы и установить связь между переменными. После того, как вы очистили и подготовили данные, пришло время сделать исследовательскую аналитику. Давайте посмотрим, как вы можете этого достичь.

  • Фаза 3 — Планирование модели: Здесь вы определяете методы и техники для выявления отношений между переменными. Эти отношения задают основу для алгоритмов, которые вы будете реализовывать на следующем этапе. Вы будете применять Explorative Data Analytics (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

Инструменты для моделирования в Data Science

R имеет полный набор возможностей моделирования и обеспечивает хорошую среду для создания интерпретирующих моделей.
Службы SQL Analysis могут выполнять аналитику в базе данных, используя общие функции интеллектуального анализа данных и основные интеллектуальные модели.
SAS / ACCESS можно использовать для доступа к данным из Hadoop и для создания повторяемых и многоразовых диаграмм потоков.
Хотя на рынке присутствует множество инструментов, R или Python являются наиболее часто используемыми инструментами.

Теперь, когда вы получили представление о характере ваших данных и решили использовать алгоритмы. На следующем этапе вы примените алгоритм и создадите модель.

  • Фаза 4 — Создание модели: На этом этапе вы разрабатывайте наборы данных для целей обучения и тестирования. Рассматривайте, достаточно ли ваших существующих инструментов для запуска моделей, или для этого потребуется более надежная среда (например, быстрая и параллельная обработка). Будете анализировать различные методы обучения, такие как классификация, ассоциация и кластеризация, чтобы построить модель.

Вы можете добиться создания модели с помощью следующих инструментов.

Инструменты для создания моделей

  • Фаза 5 — Реализация: На этом этапе вы предоставляете окончательные отчеты, брифинги, коды и технические документы. Кроме того, иногда экспериментальный проект также реализуется в производственной среде в режиме реального времени. Это обеспечит вам четкое представление о производительности и других связанных ограничениях в малом масштабе перед полным развертыванием.
  • Фаза 6 — Информирование о результатах: Теперь важно оценить, удалось ли достичь своей цели, которую вы планировали на первом этапе. Итак, на последнем этапе вы делаете все основные выводы, сообщаете заинтересованным сторонам и определяете, являются ли результаты проекта успешными или неудачными на основе критериев, разработанных на первом этапе.

Теперь я возьму пример из практики, чтобы объяснить вам различные этапы, описанных выше.

Пример: профилактика диабета

Что, если мы сможем предсказать возникновение диабета и предпринять соответствующие меры заранее, чтобы предотвратить его?
В этом случае мы прогнозируем появление диабета, используя весь жизненный цикл, о котором мы говорили ранее. Давайте рассмотрим различные шаги.

Шаг 1:

Во-первых, мы собираем данные на основе истории болезни пациента, как описано в Фазе 1. Вы можете обратиться к приведенным ниже примерам.

Как вы можете видеть, у нас есть различные атрибуты, как указано ниже.
Атрибуты:

npreg — Количество беременности
glucose — Концентрация глюкозы в плазме
bp — Кровяное давление
skin — Толщина кожи трицепса
bmi — Индекс массы тела
ped — Функция родословной диабета
age — Возраст
income — Доход

Шаг 2:

Теперь, как только у нас появились данные, нам необходимо очистить и подготовить их для анализа.
Эти данные имеют множество несоответствий, таких как отсутствующие значения, пустые столбцы, неожиданные значения и неправильный формат данных, которые необходимо очистить.
Здесь мы организовали данные в одну таблицу под разными атрибутами, что делает ее более структурированной.
Давайте посмотрим на примеры ниже.

Эти данные имеют много несоответствий.

В столбце npreg слово «one» написано словами, тогда как оно должно быть в числовой форме.
В столбце bp одно из значений — 6600, что невозможно (по крайней мере для людей), поскольку bp не может доходить до такого огромного значения.
Как вы можете видеть, столбец «income» пуст, в этом случае не имеет смысла прогнозировать диабет. Поэтому иметь его здесь избыточно и это нужно удалить из таблицы.
Таким образом, мы очистим и обработаем данные, удалив выбросы, заполнив нулевые значения и нормализуя типы данных. Если вы помните, это наш второй этап, который представляет собой предварительную обработку данных.
Наконец, мы получаем чистые данные, как показано ниже, которые можно использовать для анализа.

Шаг 3:

Теперь давайте сделаем некоторый анализ, как обсуждалось ранее в Фазе 3.

Сначала мы загрузим данные в аналитическую песочницу и применим к ней различные статистические функции. Например, R имеет такие функции, как describe, которое дает нам количество отсутствующих значений и уникальных значений. Мы также можем использовать summary функцию, которая даст нам статистическую информацию, такую как средние, медианные, диапазонные, минимальные и максимальные значения.
Затем мы используем методы визуализации, такие как гистограммы, линейные графики, полевые диаграммы (histograms, line graphs, box plots), чтобы получить представление о распределении данных.

Data Science визуализация

Шаг 4:

Теперь, основываясь на представлениях, полученных на предыдущем шаге, наилучшим образом подходит для этой проблемы — дерево решений (decision tree).

Поскольку у нас уже есть основные атрибуты для анализа, такие как npreg, bmi и т. Д., Поэтому мы будем использовать метод обучения с учителем для создания модели.
Кроме того, мы использовали дерево решений, потому что оно учитывает все атрибуты за один раз, например, те, которые имеют линейную связь, а также те, которые имеют нелинейную взаимосвязь. В нашем случае мы имеем линейную зависимость между npreg и age, тогда как существует нелинейная связь между npreg и ped.
Модели дерева решений очень надежны, так как мы можем использовать различную комбинацию атрибутов для создания различных деревьев, а затем, наконец, реализовать ту, которая имеет максимальную эффективность.
Давайте посмотрим на наше дерево решений.

Здесь самым важным параметром является уровень глюкозы, поэтому это наш корневой узел. Теперь текущий узел и его значение определяют следующий важный параметр. Это продолжается до тех пор, пока мы не получим результат в терминах pos или neg. Pos означает, что тенденция к диабету является положительной, а neg отрицательной.

Шаг 5:

На этом этапе мы проведем небольшой пилотный проект, чтобы проверить, соответствуют ли между собой наши результаты. Мы также будем искать ограничения производительности, если таковые имеются. Если результаты неточны, нам нужно перепланировать и перестроить модель.

Шаг 6:

Как только мы выполним проект успешно, мы будем делиться результатами для полного развертывания.

Data Scientist’у проще сказать, чем сделать. Итак, давайте посмотрим, что вам нужно, чтобы быть им. Data Science требует навыков в основном из трех основных областей, как показано ниже.

Data Science умения и навыки

Как вы можете видеть на приведенном выше графике, вам нужно приобрести различные умения и навыки. Вы должны хорошо разбираться в статистике и математике для анализа и визуализации данных.

Выводы

Машинное обучение формирует стержень науки о данных и требует от вас быть разбирающимся в этой области. Вам необходимо иметь четкое представление о сфере, в которой вы работаете для четкого понимания бизнес-задач. Ваша задача здесь не заканчивается. Вы должны быть способны реализовать различные алгоритмы, которые требуют хороших навыков программирования. Наконец, после того, как вы приняли определенные ключевые решения, вам важно передать их заинтересованным сторонам. Таким образом, хорошая коммуникация, безусловно, добавит очков к вашим навыкам.

В конце концов, не будет ошибкой говорить, что будущее принадлежит Data Scientist’ам. Прогнозируется, что к концу 2020 года потребуется около миллиона специалистов в этой области. Все больше и больше данных предоставят возможности для принятия ключевых бизнес-решений. Скоро мы изменим то, как мы смотрим на мир, наполненный данными вокруг нас. Поэтому Data Scientist должен быть высококвалифицированным и мотивированным специалистом, чтобы решать самые сложные задачи.

Перевод статьи «Что такое Data Science?» Hemant Sharma «What Is Data Science? A Beginner’s Guide To Data Science» (Edureka)

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Добавить комментарий