Big Data как устроены большие данные и где они сейчас применяются


Оглавление (нажмите, чтобы открыть):

Как биг-дата управляет миром: на примере магазинов

Ино­гда стоя на пере­крёст­ке мож­но уви­деть вокруг несколь­ко мага­зи­нов одной и той же сети: «Пятё­роч­ки», «Дик­си» или любые дру­гие. Неко­то­рые дума­ют, что в этом нет ника­ко­го смыс­ла: зачем стро­ить новый мага­зин, когда через доро­гу есть точ­но такой же?

На самом деле смысл есть — всё дело в пра­виль­ном исполь­зо­ва­нии биг-даты и ана­ли­ти­ки (по край­ней мере, нам хочет­ся в это верить).

В этой ста­тье пока­жем, как сбор и ана­лиз дан­ных помо­га­ет при­ни­мать важ­ные биз­не­со­вые реше­ния.

Важ­ная ого­вор­ка: мы наме­рен­но упро­ща­ем часть про­цес­сов, что­бы было про­ще понять прин­цип. Неко­то­рые момен­ты могут пока­зать­ся пол­ной экзо­ти­кой и эко­но­ми­че­ски невы­год­ны­ми — это тоже сде­ла­но спе­ци­аль­но. В жиз­ни всё про­ис­хо­дит слож­нее, доль­ше и не так без­оши­боч­но.

Карта пешеходных маршрутов

Мага­зин типа «Пятё­роч­ки» надо откры­вать там, где ходят люди. Никто спе­ци­аль­но не поедет в сосед­ний рай­он ради про­дук­то­во­го мага­зи­на, поэто­му для нача­ла нуж­но отве­тить на такие вопро­сы:

Где в этом рай­оне ходят люди?
По каким марш­ру­там?
Сколь­ко их в раз­ное вре­мя?
А где точ­но не ходят?

Что­бы это узнать, мож­но вос­поль­зо­вать­ся биг-датой: собрать её или запо­лу­чить. При­ме­ры:

У сото­во­го опе­ра­то­ра. Мож­но полу­чить инфор­ма­цию о гео­по­зи­ции устройств и их при­мер­ном пере­ме­ще­нии у опе­ра­то­ра сото­вой свя­зи. Это обез­ли­чен­ные дан­ные без при­вяз­ки к фами­лии или номе­ру: толь­ко инфор­ма­ция о пути пере­дви­же­ния устройств в кон­крет­ном рай­оне. Это доро­го, но эффек­тив­но.

Дан­ные соби­ра­ют­ся с сото­вых базо­вых стан­ций — это устрой­ства, к кото­рым под­клю­ча­ют­ся ваши теле­фо­ны, что­бы быть на свя­зи. В горо­дах базо­вые стан­ции сто­ят доволь­но плот­но, и по уров­ню сиг­на­ла с них мож­но доволь­но точ­но опре­де­лить поло­же­ние всех бли­жай­ших або­нен­тов.

Поста­вить Wi-Fi- и Bluetooth-точки в раз­ных местах нуж­но­го рай­о­на. Они собе­рут инфор­ма­цию о про­хо­дя­щих мимо людях через их же теле­фо­ны. Прин­цип такой: точ­ка ска­ни­ру­ет про­стран­ство и ищет мобиль­ни­ки с вклю­чён­ным вай­фа­ем. Как толь­ко нашла — начи­на­ет его отсле­жи­вать до тех пор, пока чело­век не вый­дет из зоны дей­ствия. При доста­точ­ном коли­че­стве таких точек мож­но полу­чить доволь­но неплохую кар­ту пере­ме­ще­ний.

Поста­вить каме­ры с рас­по­зна­ва­ни­ем лиц. Тут всё отно­си­тель­но про­сто — рас­по­ла­га­ем каме­ры в авто­мо­би­лях или на зда­ни­ях, запо­ми­на­ем лицо каж­до­го про­хо­дя­ще­го и путь, по кото­ро­му он про­шёл. Потом накла­ды­ва­ем это на кар­ту мест­но­сти и полу­ча­ем пеше­ход­ные марш­ру­ты. Рас­по­зна­ва­ние лиц уже настоль­ко рас­про­стра­нён­ная тех­но­ло­гия, что это может сде­лать кто угод­но.

После того как мы полу­чи­ли кар­ту пере­ме­ще­ний, её нуж­но про­ана­ли­зи­ро­вать и най­ти те точ­ки, где полу­ча­ет­ся мак­си­маль­ная про­хо­ди­мость. В иде­а­ле — най­ти такие места, где пеше­ход­ный поток не захо­дит в мага­зи­ны кон­ку­рен­тов или где их вооб­ще нет. Для это­го про­сто соби­ра­ем ста­ти­сти­че­ские дан­ные, сов­ме­ща­ем их с кар­та­ми и исполь­зу­ем ана­ли­ти­че­ские при­ё­мы, что­бы сде­лать выво­ды.

Ассортимент

У каж­дой круп­ной роз­нич­ной сети все­гда ведёт­ся такая ста­ти­сти­ка:

  • что поку­па­ют в мага­зи­нах чаще все­го;
  • как про­да­жи раз­ных това­ров зави­сят от пло­ща­ди мага­зи­на;
  • как поку­па­те­ли ходят внут­ри мага­зи­на;
  • какие про­дук­ты нуж­но ста­вить рядом с дру­ги­ми про­дук­та­ми, что­бы они луч­ше про­да­ва­лись;
  • как зави­сит ассор­ти­мент от про­хо­ди­мо­сти за день.

Всё это соби­ра­ет­ся по каж­до­му мага­зи­ну, зано­сит­ся в еди­ную боль­шую базу. На выхо­де дата-сайентисты полу­ча­ют кар­ти­ну необ­хо­ди­мо­го ассор­ти­мен­та для нуж­ной пло­ща­ди. Ана­лиз боль­ших дан­ных выдаст нам имен­но те това­ры, кото­рые будут про­да­вать­ся в нашем мага­зине луч­ше все­го.

Второй магазин

Зада­ча роз­нич­ной сети — полу­чить как мож­но боль­ше при­бы­ли с каж­до­го рай­о­на в горо­де. Это зна­чит — открыть столь­ко мага­зи­нов, сколь­ко это физи­че­ски воз­мож­но и при­быль­но.

Допу­стим, мы уже откры­ли мно­го мага­зи­нов в каж­дом рай­оне горо­да. Наша зада­ча — спу­стить­ся с уров­ня горо­да на уро­вень жило­го квар­та­ла. Кажет­ся, что если один мага­зин уже сто­ит во дво­ре, то на сосед­ней ули­це нет смыс­ла откры­вать такой же — доста­точ­но перей­ти через доро­гу. Но это не все­гда так.

Через неко­то­рое вре­мя после откры­тия пер­во­го мага­зи­на мы сно­ва начи­на­ем смот­реть на пеше­ход­ные пото­ки — как они изме­ни­лись. Ино­гда мы пред­по­ла­га­ем, что люди будут пере­хо­дит через доро­гу, что­бы зай­ти в наш мага­зин, но на деле это часто не так. Обыч­но быва­ет, что мага­зин при­тя­ги­ва­ет одну часть пеше­хо­дов, а дру­гая ходит сама по себе. Мож­но ли эту часть пере­ма­нить?

На этом эта­пе наша зада­ча — най­ти место на дру­гой сто­роне ули­цы, где боль­ше все­го про­хо­дит тех людей, кто не захо­дит в наш пер­вый мага­зин. Сно­ва соби­ра­ем мно­го дан­ных, ана­ли­зи­ру­ем их и нахо­дим нуж­ное место.

Ино­гда может так полу­чить­ся, что с одно­го пере­крёст­ка вид­но сра­зу несколь­ко таких оди­на­ко­вых мага­зи­нов. Это зна­чит, что в этом рай­оне есть несколь­ко неза­ви­си­мых основ­ных пеше­ход­ных марш­ру­тов. И те, кто ходит в «Пятё­роч­ку» за углом, обыч­но не ходят в «Пятё­роч­ку» у све­то­фо­ра — это доль­ше и совсем не по пути.

Главный принцип

До биг-даты про­ек­ти­ров­щи­ки и эко­но­ми­сты исхо­ди­ли из сво­их пред­по­ло­же­ний: «Навер­ное, если открыть тут мага­зин, то люди будут в него захо­дить. Ведь это логич­но!» Теперь же у нас есть спо­со­бы соби­рать дан­ные о под­лин­ном пове­де­нии поку­па­те­лей. В каком мага­зине нуж­но про­да­вать спе­лые аво­ка­до, а в каком — вод­ку? Где нужен отдел кули­на­рии, а где нужен акцент на сырую кар­тош­ку и тушён­ку? Где люди пере­ста­ли захо­дить в мага­зи­ны, а где про­сто кас­си­ры вору­ют? Теперь не нуж­но гадать — мож­но про­сто посмот­реть в дан­ные.

В сле­ду­ю­щей части уви­дим, как мага­зи­ны рабо­та­ют с ассор­ти­мен­том и выклад­кой това­ра, что­бы полу­чить боль­ше при­бы­ли. Вкрат­це: ещё боль­ше биг-даты и ана­ли­за пове­де­ния поку­па­те­лей.

Big data: Как и где применяются большие данные

Про большие данные или big data. Только ленивый не говорит об этом, а вот что это и как работает, понимают немногие. Если совсем простым языком: Big data – это различные методы обработки информации для того, чтобы использовать их для конкретных задач и целей. В будущем анализ больших данных позволит нам с вами экономить до 30 процентов семейного бюджета. Как именно и где большие данные применяются сегодня, выяснял Дмитрий Тарасов.

Реклама

Впервые работать с большими данными начали в 2000-х. Сейчас рынок этих технологий оценивают в 200 миллиардов долларов. Анализ больших данных сегодня успешно применяют в ритейле, автомобилестроении и фармацевтики. По данным консалтингового агентства KPMG, почти 70 процентов российских компаний уже внедрили эти технологии. В частности, для оптимизации производства, в том числе за счет сокращения сотрудников.

Екатерина Гудкова, директор департамента операционного менеджмента и информационных сервисов BIOCAD:

Другое преимущество технологий big data – с их помощью можно прогнозировать риски бизнеса. Например, запуск новой точки теперь невозможен без советов робота. Машина анализирует средний чек в районах городах и дает совет ритейлу: открывать или не открывать там магазин. Точность прогноза может достигать 80 процентов, все зависит от качества и количества собранной информации.

Елена Чернышева, продукт-менеджер компании «Яндекс»:

Но big data может работать не только на благо бизнеса. Технология приходит, например, и в здравоохранение. Сегодня с помощью анализа больших данных можно предсказать исход сложных операций. Робота также научили собирать анамнез и выявлять редкие заболевания.

Варвара Цурко, старший научный сотрудник ИПУ РАН:

Однако внедрению big data мешает два фактора. Для мелких и средних компаний –это долгий и дорогой процесс сбора данных. А некоторая информация и вовсе относится к персональной – ее сбор без согласия гражданина запрещен.

Подписывайтесь на нас в «Яндекс.Новостях», Instagram и «ВКонтакте».

Big Data — что такое системы больших данных? Развитие технологий Big Data

Содержание статьи:

Большие данные — определение

Под термином «большие данные» буквально понимают огромный объем хранящейся на каком-либо носителе информации. Причем данный объем настолько велик, что обрабатывать его с помощью привычных программных или аппаратных средств нецелесообразно, а в некоторых случаях и вовсе невозможно.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие ее обработки и разнообразие сведений, хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value, что обозначает ценность информации. То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

Источники больших данных

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

История появления и развития Big Data

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

Техники и методы анализа и обработки больших данных

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

Перспективы и тенденции развития Big data

В 2020 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

  • Blockchain.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2020 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Большие данные в маркетинге и бизнесе

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Проблемы Big Data

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

Рынок технологий больших данных в России и мире

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Лучшие книги по Big Data

«The Human Face of Big Data», Рик Смолан и Дженнифер Эрвитт

Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

«Python Machine Learning», Себастьян Рашка

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

Что такое большие данные и для чего они нужны

Большие данные

Большие данные – направление, о котором все говорят, но мало кто хорошо в нём разбирается. Гиганты электронной коммерции, промышленные компании и информационные корпорации инвестируют в эту технологию миллиарды. Что же такое Big Data, какие перспективы они предлагают и где используются?

Что такое большие данные

Большие данные – современное технологическое направление, связанное с обработкой крупных массивов данных, которые постоянно растут. Big Data – это сама информация, методы её обработки и аналитики. Перспективы, которые может принести Big Data интересны бизнесу, маркетингу, науке и государству.

В первую очередь большие данные – это всё-таки информация. Настолько большая, что ей сложно оперировать с помощью обычных программных средств. Она бывает структурированной (обработанной), и неструктурированной (разрозненной). Вот некоторые её примеры:

• Данные с сейсмологических станций по всей Земле.
• База пользовательских аккаунтов Facebook.
• Геолокационная информация всех фотографий, выложенных за сегодня в Instagram.
• Базы данных операторов мобильной связи.

Для Big Data разрабатываются свои алгоритмы, программные инструменты и даже машины. Чтобы придумать средство обработки, постоянно растущей информации, необходимо создавать новые, инновационные решения. Именно поэтому большие данные стали отдельным направлением в технологической сфере.

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Для чего необходимы большие данные

Главная цель работы с большими данными – обуздать их (проанализировать) и направить. Человечество научилось производить и извлекать огромные массивы информации, а с их управлением ещё есть проблемы.

Прямо сейчас большие данные помогают в решении таких задач:

• повышение производительности труда;
• точная реклама и оптимизация продаж;
• прогнозирование ситуаций на внутренних и глобальных рынках;
• совершенствование товаров и услуг;
• улучшение логистики;
• качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Где используются больше данные

• Облачные хранилища. Хранить всё на локальных компьютерах, дисках и серверах неудобно и затратно. Крупные облачные data-центры становятся надёжным способом хранения информации, доступной в любой момент.

• Блокчейн. Революционная технология, сотрясающая мир в последние годы, упрощает транзакции, делает их безопаснее, а, главное, хорошо справляется с обработкой операций между гигантским количеством контрагентов за счёт своего математического алгоритма.

• Самообслуживание. Роботизация и промышленная автоматизация снижают расходы на ведение бизнеса и уменьшают стоимость товаров или услуг.

• Искусственный интеллект и глубокое обучение. Подражание мышлению головного мозга помогает делать отзывчивые системы, эффективные в науке и бизнесе.

Эти сферы создаются и прогрессируют благодаря сбору и анализу данных. Пионерами в области таких разработок являются: поисковые системы, мобильные операторы, гиганты онлайн-коммерции, банки.

Big Data будет неотъемлемой частью Индустрии 4.0 и интернета вещей, когда сложные системы из огромного числа устройств работают, как единое целое. Вот простые, уже не футуристические, примеры этого:

• Автоматизированный завод сам изменяет линейку продукции, ориентируясь на анализ спроса, поставок, себестоимости и рыночной ситуации.

• Умный дом даёт рекомендации о том, как одеться по погоде и по какому маршруту быстрее всего добраться до работы утром.

• Компания анализирует производство и каналы сбыта с учётом изменений реальной обстановки на рынке.

• Дорожная безопасность повышается за счёт сбора данных о стиле вождения и нарушениях отдельных водителей, а также состояния их машин.

Кто использует большие данные

Наибольший прогресс отрасли наблюдается в США и Европе. Вот крупнейшие иностранные компании и ведомства, которые используют Big Data:

• HSBC повышает безопасность клиентов пластиковых карт. Компания утверждает, что в 10 раз улучшила распознавание мошеннических операций и в 3 раза – защиту от мошенничества в целом.

• Суперкомпьютер Watson, разработанный IBM, анализирует финансовые транзакции в режиме реального времени. Это позволяет сократить частоту ложных срабатываний системы безопасности на 50% и выявить на 15% больше мошеннических действий.

• Procter&Gamble проводит с использованием Big Data маркетинговые исследования, более точно прогнозируя желания клиентов и спрос новых продуктов.

• Министерство труда Германии добивается целевого расхода средств, анализируя большие данные при обработке заявок на пособия. Это помогает направить деньги тем, кто действительно в них нуждается (оказалось, что 20% пособий выплачивались нецелесообразно). Министерство утверждает, что инструменты Big Data сокращают затраты на €10 млрд.

Среди российских компаний стоит отметить следующие:

• Яндекс. Это корпорация, которая управляет одним из самых популярных поисковиков и делает цифровые продукты едва ли не для каждой сферы жизни. Для Яндекс Big Data – не инновация, а обязанность, продиктованная собственными нуждами. В компании работают алгоритмы таргетинга рекламы, прогноза пробок, оптимизации поисковой выдачи, музыкальных рекомендаций, фильтрации спама.

Мастер Йода рекомендует:  Криптовалютная биржа BitGrail потеряла 170 миллионов долларов

• Мегафон. Телекоммуникационный гигант обратил внимание на большие данные примерно пять лет назад. Работа над геоаналитикой привела к созданию готовых решений анализа пассажироперевозок. В этой области у Мегафон есть сотрудничество с РЖД.

• Билайн. Этот мобильный оператор анализирует массивы информации для борьбы со спамом и мошенничеством, оптимизации линейки продуктов, прогнозирования проблем у клиентов. Известно, что корпорация сотрудничает с банками – оператор помогает анонимно оценивать кредитоспособность абонентов.

• Сбербанк. В крупнейшем банке России супермассивы анализируются для оптимизации затрат, грамотного управления рисками, борьбы с мошенничеством, а также расчёта премий и бонусов для сотрудников. Похожие задачи с помощью Big Data решают конкуренты: Альфа-банк, ВТБ24, Тинькофф-банк, Газпромбанк.

И за границей, и в России организации в основном пользуются сторонними разработками, а не создают инструменты для Big Data сами. В этой сфере популярны технологии Oracle, Teradata, SAS, Impala, Apache, Zettaset, IBM, Vowpal.

История больших данных (Big Data) – часть 2

В первой части статьи мы рассказали об истории появления больших данных и дали определение этому термину, теперь рассмотрим примеры и области применения, а также поговорим о технологиях, которые используются в Big Data.

Вступление

Доклад о проблемах, связанных с 3V, вышел в свет неспроста. Уже в конце 90-х годов такие индустрии, как поисковые системы, анализирующие и улучшающие свои алгоритмы; маркетинговые компании, начинающие собирать все возрастающий объем данных о поведенческой модели своих потенциальных покупателей; исследовательские агентства, такие как NASA, консолидирующие информацию с тысяч своих устройств, столкнулись с описанными в этом докладе трудностями. Существующих решений уже не хватало, чтобы справиться с увеличивающимися потоками данных, которые все чаще выходили далеко за пределы оперативной памяти отдельных решений, поэтому подход с вертикальным масштабированием больше не обеспечивал нужды бизнеса. Требовались новые подходы, и мир нуждался в новых технологиях хранения и анализа информации. Технологиях отказоустойчивых и хорошо масштабируемых горизонтально. И они не заставили себя долго ждать.

MapReduce и GFS

В 2004 году корпорация Google в лице Джеффри Дина и Санжая Гемавата представила миру на удивление простой, но невероятно действенный подход к обработке огромного количества информации. По сути, данный алгоритм позволял работать с неограниченным объемом данных при условии возможности наращивания новых кластерных нод пропорционально увеличению количества обрабатываемой информации.

Как можно понять из названия, алгоритм сводился к разбиению процесса обработки на две простые функции – Map и Reduce, причем единую задачу мы можем разбить на бесконечно большое количество малых подзадач, которые будут выполняться параллельно друг с другом, а потом просто сложить полученный результат. Каждую часть одной большой задачи можно отдать на обработку одному из узлов единого кластера и все, что нам останется при увеличении объемов информации, – это расширить кластер до необходимых нашей задаче размеров.

Давайте попробуем понять подход MapReduce на простейшем примере. Допустим, нам нужно посчитать все упоминания Ивана Иванова, Петра Петрова и Андрея Андреева на всех страницах в Интернете. Потребуется проанализировать огромнейший объем информации, и для одного узла такая задача просто непосильна. Но используя подход MapReduce, мы можем разделить все страницы на части и распределить их анализ на разные ноды нашего кластера.

На первом шаге данные со страниц будут отданы в функцию Map, которая при наличии совпадения вернет нам пары «ключ – значение». В нашем примере это будет (Андрей Андреев, 1), (Петр Петров, 1), (Иван Иванов, 1). То есть при каждом нахождении упоминания нужных людей, мы будем получать от функции Map ключ (Имя Фамилию в нашем случае) и значение, которое в нашем примере свидетельствует об обнаружении упоминания. В итоге мы можем получить следующую картину:

* (Андрей Андреев, 1)

* (Андрей Андреев, 1)

Отлично! Мы отделили зерна от плевел и теперь готовы саккумулировать полученную информацию путем передачи ее в функцию Reduce, которая так же вернет нам на выходе пары «ключ – значение», но уже в обработанном виде:

* (Андрей Андреев, 2)

Готово! На входе мы можем получить терабайты информации, раздробить ее обработку на узлы нашего кластера и с помощью алгоритма MapReduce получить нужные данные.

Эта технология стала отправной точкой для создания систем, работающих с Большими Данными и стала чем-то вроде стандарта de facto при разработке решений в области Big Data. Такой подход помог компании Google повысить эффективность своего поискового ресурса и распараллеливать линейные задачи при работе с петабайтами данных. На своей заре MapReduce использовался Google как средство оптимизации индексирования данных для поисковых запросов. Но как хранить эти данные, а главное – как их быстро находить и обращаться к ним, если они размещены на тысячи серверов?

Для этих целей Google использовал свою же разработку – распределенную файловую систему GFS (Google File System), которая в качестве единицы хранения использовала так называемые чанки, имеющие определенный размер и несущие в себе информацию. Все серверы, входящие в кластер GFS, можно представить как один большой жесткий диск, в отличие от которого, информация о расположении того или иного блока данных (чанка) хранится на отдельных мастер-серверах, постоянно держащих в оперативной памяти метаданные, что позволяет оперативно обращаться именно к нужной части кластера. Для достижения избыточности копия одного чанка хранится на нескольких серверах, а мастер-сервер рассылает снимки своей оперативной памяти на подчиненные серверы, в любой момент готовые развернуть снимок в своем пространстве и перехватить роль мастера.

Данный подход имел и узкое место. Им являлся мастер-сервер, ведь с ростом количества информации и введением в работу новых сервисов, далеко выходивших за рамки задачи поисковика и требующих околонулевые задержки при работе с данными, мастер-сервер мог упереться в порог своего вертикального роста. Google решила данную проблему с выходом GFS 2.0 под кодовым названием Colossus, сделав сервер метаданных распределенным. Это было особенно актуально ввиду уменьшения размера чанка и увеличения из-за этого объема метаданных на мастер-серверах.

Несмотря на то что мы крайне поверхностно затронули эти технологии, мы все же можем представить общую картину, которую нарисовал нам Google в 2003–2004 году и которую можно в полной мере назвать Big Data. На этой картине присутствуют тысячи серверов, хранящие петабайты данных, расположенных в виде чанков на файловой системе, единой для всего совокупного пространства серверов, с возможностью молниеносного поиска чанка с необходимой информацией через мастер-серверы. А дальше в бой вступают работники Map, действующие параллельно, получающие из данных «ключ – значение» и отдающих их труженикам Reduce, которые сводят полученную информацию в единое целое.


Такой подход дал быстрый старт развитию технологий, связанных с большими данными. После поисковых систем эстафету стали перенимать социальные сети, интернет вещей, банковский и научно-исследовательский сектор, а также все сферы бизнеса, в которых внедрение технологий Big Data давало ощутимые преимущества над конкурентами.

Hadoop

Как мы упомянули выше, разработанная Google концепция быстро подстегнула интерес сообщества к распределенному хранению и анализу информации. Несмотря на то что Google не раскрыла никакой точной информации о работе своих технологий, вскоре стали появляться аналогичные реализации данного подхода, и главной из них, без сомнения, является Hadoop, разработка которого началась практически сразу после доклада Google о вычислительной модели MapReduce. Работа над проектом изначально велась силами всего двух разработчиков: Дугом Каттингом и Майком Кафареллом. Предтечей Hadoop был проект Nutch, в котором Дуг Каттинг пытался решить проблему больших данных в сфере поисковых систем, но его архитектура не позволила этого сделать.

Глотком свежего воздуха для Каттинга и послужил доклад об алгоритме MapReduce. В 2006 году его пригласили возглавить команду разработчиков в Yahoo для реализации системы распределенных вычислений, в результате чего и появился проект Hadoop, названный так в честь игрушечного слоненка сынишки Дуга Каттинга. Через два года Hadoop управлял распределенной поисковой системой, развернувшийся на 10 000 процессорных ядрах. Тогда же Hadoop вошел в состав Apache Software Foundation. Основой Hadoop, как и в случае с Google, является распределенная файловая система HDFS и алгоритм распределенных вычислений Hadoop MapReduce.

После явного успеха поисковой системы Yahoo, основанной на Hadoop, технологию стали применять такие компании, как Amazon, Facebook, NewYork Time, Ebay и многие другие. Успех Hadoop был настолько ошеломляющим, что его бросились коммерциализировать как основные, так и новые игроки рынка. Первой золотую жилу начала осваивать компания Cloudera (куда позже перешел Каттинг), за ней подтянулись MapR, IBM, Oracle, EMC, Intel и другие. Yahoo вывела отдел разработки в отдельную компанию Hortonworks, позже писавшую реализацию Hadoop для Microsoft. Решение проблем литеры V сдвинулось с мертвой точки.

Но не все так красиво на практике, как может показаться на бумаге. У классической реализации MapReduce есть один очень существенный нюанс: вся цепочка результатов работ воркеров Map-Reduce сохраняется в дисковую подсистему. А так как данный процесс намного сложнее, чем мы описали в нашем примере, операций чтения-записи будет действительно много, что не может положительно сказаться на времени работы алгоритма. Эти проблемы частично устранили такие решения, как Spark, переводящие бОльшую часть вычислений в оперативную память. После появления данной концепции многие пользователи Hadoop начали активно ее использовать, уходя от узкого места производительности дисковых подсистем.

На примере Spark становится ясно, что MapReduce, являясь первопроходцем в алгоритмах распределенного вычисления, стал уступать позиции другим подходам в этой области. Еще один подход, под названием Tez, использующий графы, разработала вышеупомянутая Hartonworks.

SQL or NO?

Ложка хороша к обеду. Именно так можно кратко ответить на споры по поводу выбора модели баз данных. Если не вдаваться в подробности, то SQL-модель, или реляционная, организует хранение данных в плоских таблицах, каждая строка в которой заполнена свойствами. Она хорошо структурирована, мы заранее определяем схему хранения, и данные в рамках этой схемы однотипны.

В NoSQL подход иной. С первого взгляда она хаотична, ведь рядом с текстом в ней могут находиться картинки, ключи, значения и прочие разнотипные данные. Нам не нужно заранее создавать и определять схему хранения, чтобы заносить в базу данных информацию. Ее структура либо динамична, либо полностью отсутствует.

Решения всегда подбираются исходя из задач и очень часто комбинируются исходя из типов данных, которые необходимо хранить, скорости и объема их прироста, структурированности, требований к дальнейшей их обработке и других критериев.

В экосистеме Hadoop из SQL-решений встречаются следующие: Hive, в котором в итоге отказались от парадигмы MapReduce в пользу вышеуказанного Tez; Spark SQL, Impala, тоже не использующий разработку от Google, но, в отличие от Hive, изначально реализующий собственную разработку алгоритма распределенных вычислений.

Из NoSQL – HBase. Это децентрализованная база данных позволяет добиться огромного профита производительности за счет своего метода работы. Она собирает данные в оперативной памяти по достижении определенного лимита и только затем пишет данные на HDFS.

Но не hadoop’ом единым… Спектр технологий, которые можно смело отнести к Big Data, сейчас настолько широк, что проблематично даже в двух словах рассказать о каждом из них. Это и SAP Hana, которая ввела в оборот новое выражение – NewSQL – и использует в своем арсенале подход in-memory. Это и log-аналитики типа Splunk и InTrust. Это Яндекс clickhouse, который показал, насколько быстрой может быть обработка данных. Druid, HP Vertica, Calpont и десятки других технологических продуктов помогают управлять большими данными в различных задачах.

Ареал обитания Big Data

Опустим описание альма-матер больших данных – поисковых систем, кроме них сегодня трудно встретить отрасль, где использование технологий Big Data в том или ином виде не принесет положительный результат. В коммерческом секторе эти системы зачастую выполняют роль создателя портрета потенциального клиента с целью персонализировать, таргетировать рекламу. Вряд ли пентхаусы в центре Москвы заинтересуют 18-летнего студента без постоянного дохода или краска для волос вдохновит на покупку лысеющего инженера 50 лет. Big Data вывела информированность бизнеса о людях на один уровень со спецслужбами. Благодаря этому уже не секрет, какое молоко вы покупаете, как часто ходите в магазин, какой средний чек, где отдыхаете, ваш примерный (поверьте, почти точный) уровень дохода и прочие мелочи, которые, попадая в аналитический котел систем Big Data, связывают неструктурированную информацию воедино и получают невероятно приближенный к действительности ваш портрет. А потом всего лишь останется в нужное время показать вам то, что вы так давно намеревались купить, но все не решались.

Но таргетированная реклама – далеко не единственный инструмент бизнеса по увеличению роста продаж. Благодаря технологиям Big Data компании проводят репутационный анализ, обрабатывая комментарии пользователей в социальных сетях, на торговых площадках, форумах и других ресурсах. Карточки потенциальных клиентов пополняются списком их активности на этих ресурсах, проводится поиск и сопоставление «левых» аккаунтов, анализируется негатив и многое другое. Большие данные стали в прямом смысле двигателем торговли.

Банковский сектор тоже активно использует аналитику больших данных в своих процессах для привлечения клиентов, а также в сфере информационной безопасности. С недавнего времени начали работать скоринговые системы, рассчитывающие риски при кредитовании. Сбербанк начал анализировать активность клиентов и на основе этих данных прогнозирует нагрузку на отделения, автоматизируя при этом управление персоналом.

Как мы упоминали в первой статье, интернет вещей сейчас выходит далеко за рамки умного дома. Это еще одна отрасль, которую изменила Big Data. Умные фабрики, умные склады, данные о пробках, анализ тысяч параметров на производстве и на точках добычи полезных ископаемых – все это часть IoT. В сельском хозяйстве большие данные позволяют быстрее выводить новые сорта, по загруженным фотографиям больных растений предотвращается гибель урожая, и это лишь пара примеров из множества.

Не обойдем мы вниманием и Илона Маска, чья Big Data собирает по 30 ГБ информации с каждой модели Tesla, в результате чего будет сформирована модель для обучения беспилотных автомобилей.

Здравоохранение – одна из перспективнейших отраслей для внедрения технологий Big Data. Уже сейчас поисковые системы на основе увеличения запросов по тем или иным болезням дают нам возможность предупредить эпидемию. Экспериментальные модели по диагностированию активно разрабатываются, и мы верим, что недалек тот день, когда постановка диагноза будет практически полностью автоматизирована.

Фундамент больших данных

Невозможно построить систему такой сложности без прочной опоры под ногами, которой традиционно выступают системы хранения данных и сопутствующие технологии.

Как же они помогают работать с большими данными? Ряд из них крайне эффективно помогает бороться с проблемами «литеры V», которые с ростом объемов информации не собираются уходить на второй план.

К примеру, для компании Healthcare Association инженеры из NetApp на базе линейки E-series развернули систему для работы с базой данных в 200 терабайт, производительность которой при работе алгоритма MapReduce на архитектуре Hadoop оказалась в два раза быстрее систем с локальным хранилищем. Система показала себя крайне устойчивой к отказам и легко поддающейся масштабированию, а уменьшение количества копий данных позволило высвободить большой объем полезного пространства. В результате отказа от локального хранения компания получит выгоду в размере 2,1 миллиона долларов.

Диагностическая информация в сфере здравоохранения занимает достаточно большой объем дискового пространства, и ее прирост все увеличивается за счет усовершенствования медицинского оборудования и методик диагностирования заболеваний. Прерывание потока обновленной информации может негативно сказаться на работоспособности медучреждения, и подобная беда могла случиться с бельгийской больницей AZ Groeninge, которой экстренно потребовалось расширение своих ленточных хранилищ после слияния ИТ-инфраструктуры с четырьмя другими учреждениями. Для выхода из ситуации был построен метрокластер на оборудовании NetApp для передачи 512 терабайт данных без прерывания работы основных узлов больницы. Данная задача была реализована с помощью технологии NetApp Swing Gear и временного хранилища для переноса уже наработанной информации, в то время как новые данные поступали напрямую. Управляла переносом система NetApp Oncommand, снабженная искусственным интеллектом, которая оптимизировала потоки данных. Работоспособность учреждения не была потеряна.

Это всего лишь пара примеров, когда технологии хранения помогают решить проблемы больших данных. Проблемы с производительностью, обеспечение надежности, миграции любого уровня, оптимизация хранения – вот неполный перечень вопросов, которые готовы решать системы нового поколения вроде NetApp StorageGRID SG, адаптированные под новый формат работы с данными и способные определить время для обеспечения комфортной работы с Big Data.

По версии IDC, к 2020 году общий объем мировых данных превысит 40 зетабайт. Для понимания подобного масштаба: 1 зетабайт примерно равен миллиарду терабайт и для размещения такого объема данных необходимо 83 миллиона дисков по 12 терабайт каждый. В «эпоху данных» крайне важно развивать инструменты для хранения информации в ногу с ростом ее объемов, иначе проблема V всегда будет стоять грозной тенью за спиной развития Big Data.

Вместо заключения

Надеюсь, у нас получилось рассказать вам, как мир IT-технологий пришел к необходимости появления технологии Big Data, и у вас сложилась ясная картина, как эти технологии работают и где применяются. Их перспективы просто огромны. Только представьте, какой прорыв можно сделать в медицине, автоматизировав разработку вакцин от новых штаммов вирусов, проводить и анализировать бесчисленное множество экспериментов по борьбе с неизлечимыми на данный момент болезнями. И это далеко не единственная научная деятельность, где технологии Big Data способны помочь совершить настоящий прорыв. Дальнейший полет фантазии мы оставим читателю. И помните, что данные – это новая нефть, а Большие Данные…

NetApp – лидер на рынке систем хранения данных и решений для хранения, управления и анализа информации как в локальных, так и в гибридных облачных средах. Мы предоставляем компаниям возможность управлять своими данными и обмениваться ими в локальных, частных и общедоступных облаках.

Большому строительству — большие данные: как big data меняет отрасль

С тех пор как человечество научилось обрабатывать огромные массивы информации, жизнь стремительно меняется. Big data сегодня применяют в разных сферах — от маркетинга до навигации. Не осталось в стороне и строительство.

В этом материале я расскажу, как зарубежные компании и партнёры «Trimble Solutions Россия» используют большие данные при возведении зданий и почему это приводит к сокращению сроков и бюджетов.

С каждым годом человечество производит всё больше информации: к 2025 году общий объём данных во всем мире составит 163 зеттабайта (ЗБ), прогнозирует аналитическая компания IDC. Для сравнения: в 2020 году на планете было в 10 раз меньше данных — 16 ЗБ, а 2006 году — всего 0,16 ЗБ.

При этом растёт доля информации, которую создают коммерческие предприятия. Аналитики IDC считают, что к 2025 году они будут генерировать 60% мировых данных (против трети в 2015 году).

Однако компании стремятся не только производить информацию, но и анализировать её. И с появлением big data перспективы этого направления впечатляют: искусственный интеллект способен обрабатывать огромные объёмы не только структурированных, но и разрозненных данных (например, публикации из соцсетей и комментарии к новостям).

Как big data меняет строительство

Ожидания застройщиков от big data выяснила компания Sage. Опрос показал, что 57% игроков рынка хотят получать последовательную, актуальную финансовую и проектную информацию, а 48% — предупреждения о возникновении значимых ситуаций.

41% предприятий надеется, что большие данные помогут прогнозировать события и избегать рисков. Наконец, 14% респондентов предпочитают узнавать, какие факторы влияют на рост и падение прибыли.

Аналитика больших данных может оправдать эти ожидания — технологию уже оценили застройщики и проектировщики со всего мира, в том числе и российские. Давайте рассмотрим, как большие данные меняют консервативную отрасль и что они привносят в привычный процесс создания объектов.

Эффективное управление информацией для экономии времени

Большинство крупных застройщиков реализует несколько проектов одновременно — в такой ситуации трудно собирать, сортировать и изучать огромный объём информации силами сотрудников.

Компания Informatica выяснила, что на это уходит около 60% рабочего времени. Сэкономить его помогут большие данные.

Технология позволяет обрабатывать огромные массивы информации с невероятной для человека скоростью. Программы способны взять на себя такие процессы, как управление базой данных и создание отчетов. Благодаря этому специалисты компании смогут сосредоточиться на более важных задачах, что поможет повысить эффективность бизнеса.

К примеру, по опыту Антона Мотовилова, главного эксперта «ГСИ-Гипрокаучук», в рамках его работы с одним из крупнейших заводов металлоконструкций, ему с коллегами удалось, используя большие данные, создать алгоритм, который формирует специфический отчёт по болтам.

В среднем конструктор тратит на этот документ от трёх до пяти дней, а искусственный интеллект — всего пару часов. Это не сложная, но трудоёмкая задача: работая в BIM-модели, нужно «перебрать» весь каркас, подсчитав число объектов и болтов, которые их соединяют.

Инженер вручную сравнивает один критерий с другим, делает вывод о том, как крепятся детали конструкции, и составляет отчёт. Искусственный интеллект делает то же самое, однако работает очень быстро и не совершает ошибок.

Что такое Big Data: характеристики, классификация, примеры

Что такое Big Data (дословно — большие данные)? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без машинного обучения.

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа: статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид ,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Примером такой категории Big Data является результат Гугл поиска:

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем. Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации. То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг: доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей: традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска, связанного с выпуском нового продукта или услуги.

Операционная эффективность: большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Big Data: выдержка из 2000 страниц

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Мастер Йода рекомендует:  Stack Overflow проводит масштабный опрос разработчиков до 26 января

Важно. Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • интернет-документы;
  • блоги и социальные сети;
  • аудио/видео источники;
  • измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity — достоверность/правдоподобность данных) и даже пятую V ( в некоторых вариантах это – viability — жизнеспособность, в других же это – value — ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии Маркетинг микса 4P (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

    Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.

Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;

  • Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  • Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.
  • Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

    • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
    • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
    • Узнать новую информацию о своих клиентах.

    И именно потому что технология big data дает следующие результаты, все с ней и носятся.

    Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

    1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
    2. Поиск популярных товаров и причин почему их покупают (и наоборот);
    3. Усовершенствование продукта или услуги;
    4. Улучшение уровня обслуживания;
    5. Повышение лояльности и клиентоориентированности;
    6. Предупреждение мошенничества (больше актуально для банковской сферы);
    7. Снижение лишних расходов.

    Самый распространенный пример, который приводится во всех источниках – это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

    Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

    Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

    Идём в будущее

    Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

    Это Илон Маск и его компания Tesla. Его главная мечта – сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и… засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

    Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

      В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.

    Всю – это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;

  • Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  • На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.
  • К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

    Но… Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

    Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

    Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

    Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

    Применение в России

    Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

    И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

    Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

    Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

    Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект ), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

    Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и… государственный сектор.

    Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

    Банки

    Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

    1. Сбербанк;
    2. Газпромбанк;
    3. ВТБ 24;
    4. Альфа Банк;
    5. Тинькофф банк.

    Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

    Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

    Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

    Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

    Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

    Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

    Недвижимость

    В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

    1. Большой объем текстовой документации;
    2. Открытые источники (частные спутники, передающие данные об изменениях земли);
    3. Огромный объем неконтролируемой информации в Интернет;
    4. Постоянные изменения в источниках и данных.

    И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

    У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

    Ну и на закуску

    Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

    А программное обеспечение, которое структурирует и анализирует данные – это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

    • Hadoop & MapReduce;
    • NoSQL базы данных;
    • Инструменты класса Data Discovery.

    Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

    Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

    То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

    Инструмент Биг дата

    Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

    Коротко о главном

    Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

    На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

    Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

    И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

    Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

    Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

    К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

    Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

    А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

    И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

    Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний – обязательно.

    Спасибо!

    Наш менеджер свяжется с Вами в ближайшее время!

    Что-то пошло не так

    Попробуйте повторить попытку


    «На данный момент мы делаем ребрендинг сайта и он станет активным в ближайшее время.

    Но Вам же нужно увеличение продаж уже сейчас?! Поэтому заполните форму справа и мы свяжемся с Вами для презентация услуги.»

    1. Общие положения

    1.1. Политика в отношении обработки персональных данных (далее — Политика) направлена на защиту прав и свобод физических лиц, персональные данные которых обрабатывает ИП Жестков Н. В. (далее — Оператор).
    1.2. Политика разработана в соответствии с п. 2 ч. 1 ст. 18.1 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» (далее — ФЗ О персональных данных»).
    1.3. Политика содержит сведения, подлежащие раскрытию в соответствии с ч. 1 ст. 14 ФЗ «Оперсональных данных», и является общедоступным документом.

    2. Сведения об операторе

    2.1. Оператор ведет свою деятельность по адресу 664009, г. Иркутск, ул. Ядринцева, 1/9, 70.
    2.2. Руководитель Жестков Никита Владимирович (телефон +7 (964) 111-8758) назначен ответственным за организацию обработки персональных данных.
    2.3. База данных информации, содержащей персональные данные граждан РоссийскойФедерации, находится по адресу: mailigen.ru, in-scale.bitrix24.ru, mail.yandex.ru, in-scale.ru, vk.com, facebook.com, manychat.com.

    3. Сведения об обработке персональных данных

    3.1. Оператор обрабатывает персональные данные на законной и справедливой основе для выполнения возложенных законодательством функций, полномочий и обязанностей, осуществления прав и законных интересов Оператора, работников Оператора и третьих лиц.
    3.2. Оператор получает персональные данные непосредственно у субъектов персональных данных.
    3.3. Оператор обрабатывает персональные данные автоматизированным и не автоматизированным способами, с использованием средств вычислительной техники и без использования таких средств.
    3.4. Действия по обработке персональных данных включают сбор, запись, систематизацию,накопление, хранение, уточнение (обновление, изменение), извлечение, использование,передачу (распространение, предоставление, доступ), обезличивание, блокирование,удаление и уничтожение.
    3.5. Базы данных информации, содержащей персональные данные граждан РоссийскойФедерации, находятся на территории Российской Федерации.

    4. Обработка персональных данных клиентов

    4.1. Оператор обрабатывает персональные данные клиентов в рамках правоотношений сОператором, урегулированных частью второй Гражданского Кодекса Российской Федерацииот 26 января 1996 г. № 14-ФЗ, (далее — клиентов).
    4.2. Оператор обрабатывает персональные данные клиентов в целях соблюдения норм законодательства РФ, а также с целью:
    — заключать и выполнять обязательства по договорам с клиентами;
    — осуществлять виды деятельности, предусмотренные учредительными документами ИПЖестков Н. В.;
    — информировать о новых продуктах, специальных акциях и предложениях;
    — информировать о новых статьях, видео и мероприятиях;
    — выявлять потребность в продуктах;
    — определять уровень удовлетворённости работы.
    4.3. Оператор обрабатывает персональные данные клиентов с их согласия,предоставляемого на срок действия заключенных с ними договоров. В случаях,предусмотренных ФЗ «О персональных данных», согласие предоставляется в письменном виде. В иных случаях согласие считается полученным при заключении договора или при совершении конклюдентных действий.
    4.4. Оператор обрабатывает персональные данные клиентов в течение сроков действия заключенных с ними договоров. Оператор может обрабатывать персональные данные клиентов после окончания сроков действия заключенных с ними договоров в течение срока,установленного п. 5 ч. 3 ст. 24 части первой НК РФ, ч. 1 ст. 29 ФЗ «О бухгалтерском учёте» и иными нормативными правовыми актами.
    4.5. Оператор обрабатывает следующие персональные данные клиентов:
    — Фамилия, имя, отчество;
    — Тип, серия и номер документа, удостоверяющего личность;
    — Дата выдачи документа, удостоверяющего личность, и информация о выдавшем его органе;
    — Год рождения;
    — Месяц рождения;
    — Дата рождения;
    — Место рождения;
    — Адрес;
    — Номер контактного телефона;
    — Адрес электронной почты;
    — Идентификационный номер налогоплательщика;
    — Номер страхового свидетельства государственного пенсионного страхования;
    — Должность;
    — Фотография.
    4.6. Для достижения целей обработки персональных данных и с согласия клиентов Оператор предоставляет персональные данные или поручает их обработку следующим лицам:
    — менеджер по продажам
    — руководитель проекта
    — менеджер проекта
    — маркетолог

    5. Сведения об обеспечении безопасности персональных данных

    5.1. Оператор назначает ответственного за организацию обработки персональных данных для выполнения обязанностей, предусмотренных ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.
    5.2. Оператор применяет комплекс правовых, организационных и технических мер по обеспечению безопасности персональных данных для обеспечения конфиденциальности персональных данных и их защиты от неправомерных действий:
    — обеспечивает неограниченный доступ к Политике, копия которой размещена по адресу нахождения Оператора, а также может быть размещена на сайте Оператора (при его наличии);
    — во исполнение Политики утверждает и приводит в действие документ «Положение об обработке персональных данных» (далее — Положение) и иные локальные акты;
    — производит ознакомление работников с положениями законодательства о персональных данных, а также с Политикой и Положением;
    — осуществляет допуск работников к персональным данным, обрабатываемым в информационной системе Оператора, а также к их материальным носителям только для выполнения трудовых обязанностей;
    — устанавливает правила доступа к персональным данным, обрабатываемым в информационной системе Оператора, а также обеспечивает регистрацию и учёт всех действий с ними;
    — производит оценку вреда, который может быть причинен субъектам персональных данных в случае нарушения ФЗ «О персональных данных»;
    — производит определение угроз безопасности персональных данных при их обработке в информационной системе Оператора;
    — применяет организационные и технические меры и использует средства защиты информации, необходимые для достижения установленного уровня защищенностиперсональных данных;
    — осуществляет обнаружение фактов несанкционированного доступа к персональным данным и принимает меры по реагированию, включая восстановление персональныхданных, модифицированных или уничтоженных вследствие несанкционированного доступак ним;
    — производит оценку эффективности принимаемых мер по обеспечению безопасностиперсональных данных до ввода в эксплуатацию информационной системы Оператора;
    — осуществляет внутренний контроль соответствия обработки персональных данных ФЗ «Оперсональных данных», принятым в соответствии с ним нормативным правовым актам,требованиям к защите персональных данных, Политике, Положению и иным локальнымактам, включающий контроль за принимаемыми мерами по обеспечению безопасностиперсональных данных и их уровня защищенности при обработке в информационнойсистеме Оператора.

    6. Права субъектов персональных данных

    6.1. Субъект персональных данных имеет право:
    — на получение персональных данных, относящихся к данному субъекту, и информации,касающейся их обработки;
    — на уточнение, блокирование или уничтожение его персональных данных в случае, еслиони являются неполными, устаревшими, неточными, незаконно полученными или неявляются необходимыми для заявленной цели обработки;
    — на отзыв данного им согласия на обработку персональных данных;
    — на защиту своих прав и законных интересов, в том числе на возмещение убытков икомпенсацию морального вреда в судебном порядке;
    — на обжалование действий или бездействия Оператора в уполномоченный орган позащите прав субъектов персональных данных или в судебном порядке.
    6.2. Для реализации своих прав и законных интересов субъекты персональных данныхимеют право обратиться к Оператору либо направить запрос лично или с помощьюпредставителя. Запрос должен содержать сведения, указанные в ч. 3 ст. 14 ФЗ «Оперсональных данных».

    УТВЕРЖДАЮ
    Н. В. Жестков
    29.06.2020

    Уважаемый пользователь. Любая информация, размещенная на сайте in-scale.ru, предназначена только для свободного изучения пользователями сайта. Администрация сайта прилагает все усилия для того, чтобы предоставить на этом сайте достоверную и полезную информацию, которая отвечает на вопросы пользователей сайта, но в то же время не исключает возникновения ошибок.

    Ни при каких обстоятельствах Администрация Сайта in-scale.ru не несет ответственности за какой-либо прямой, непрямой, особый или иной косвенный ущерб в результате использования информации на этом сайте или на любом другом сайте, на который имеется гиперссылка с нашего cайта, возникновение зависимости, снижения продуктивности, увольнения или прерывания трудовой активности, а равно и отчисления из учебных учреждений, за любую упущенную выгоду, приостановку хозяйственной деятельности, потерю программ или данных в Ваших информационных системах или иным образом, возникшие в связи с доступом, использованием или невозможностью использования Сайта, Содержимого или какого-либо связанного интернет-сайта, или неработоспособностью, ошибкой, упущением, перебоем, дефектом, простоем в работе или задержкой в передаче, компьютерным вирусом или системным сбоем, даже если администрация будет явно поставлена в известность о возможности такого ущерба.

    Вся информация предоставляется в исходном виде, без гарантий полноты или своевременности, и без иных, явно выраженных или подразумеваемых гарантий. Доступ к in-scale.ru, а также использование его содержимого осуществляется исключительно по вашему усмотрению и на ваш риск.

    Сайт in-scale.ru — это проект, работающий без заключения каких-либо договорённостей или договоров между вами, пользователями данного сайта, администрацией, владельцами серверов, на которых он размещён, либо кем-то ещё, любым образом связанными с этим или родственными ему проектами, которые (договора) могут стать предметом прямых претензий.

    Некоторые ссылки на in-scale.ru ведут к ресурсам, расположенным на сторонних сайтах. Данные ссылки размещены для удобства пользователей и не означают, что Администрация одобряет содержание других сайтов. Кроме этого, Администрация in-scale.ru не несет никакой ответственности за доступность этих ресурсов и за их контент. Это заявление относится ко всем ссылкам, представленным на in-scale.ru, и материалам всех веб-сайтов, доступных через баннеры и ссылки на веб-сайте по адресу in-scale.ru

    В обязанности Администрации не входит контроль легальности передаваемой информации (любой, включая, но не ограничиваясь, информацией, передаваемой между пользователями, внутренней пересылки в виде различных ссылок, текстов или архивов), определение прав собственности или законности передачи, приема или использования этой информации.

    In-scale.ru не гарантирует возможность приобретения или использования тех или иных товаров или услуг по ценам и/или на условиях, указываемых в рекламных блоках (текстах, баннерах).

    Вы соглашаетесь с тем, что in-scale.ru не несет никакой ответственности за возможные последствия (включая любой ущерб), возникшие в результате каких-либо отношений с рекламодателями и продуктами с in-scale.ru

    Администрация сайта in-scale.ru вправе отказать в доступе к сайту любому Пользователю, или группе Пользователей без объяснения причин своих действий и предварительного уведомления.

    Администрация вправе изменять либо удалять ссылки на информацию, графические, звуковые и прочие данные, размещенные Пользователями на in-scale.ru, без предварительного уведомления и объяснения причин своих действий.

    Любые торговые марки, знаки и названия товаров, служб и организаций, права на дизайн, авторские и смежные права, которые упоминаются, используются или цитируются на страницах in-scale.ru, принадлежат их законным владельцам и их использование здесь не дает вам право на любое другое использование. Если не указано иное, страницы in-scale.ru никак не связаны с правообладателями, и никто, кроме правообладателя, не может распоряжаться правами на использование материалов, защищенных авторским правом. Вы несете ответственность за использование этих и подобных материалов.

    Пользователь соглашается с тем, что все возможные споры будут разрешаться по нормам российского права.

    Бездействие со стороны Администрации в случае нарушения Пользователем либо группой Пользователей пользовательского соглашения не лишает Администрации права предпринять соответствующие действия в защиту интересов in-scale.ru позднее.

    Все права на материалы, находящиеся на in-scale.ru, охраняются в соответствии с законодательством ЕС и РФ, в том числе, об авторском праве и смежных правах.

    Если в соответствии с действующими законами какие-либо условия будут признаны недействительными, остальные условия остаются в полной силе.

    Все высказывания и примеры на сайте in-scale.ru по поводу увеличения, получения доходов, прибылей или/и результатов, уже размещенные или которые будут размещены на ресурсе, — всего лишь предположения по поводу предстоящих или текущих заработков, доходов, результатов поэтому не являются гарантией их получения. Если предположительное Вы считаете гарантированными, то также берете на себя все риски по их неполучению.

    Если указывается конкретная сумма заработка или конкретный результат у лица или лиц, которые занимаются бизнесом, то это не гарантирует лично Вам такого же дохода при организации аналогичного предпринимательства. Вы принимаете как факт, что можете не получить подобных сумм заработков или/и результатов.

    Все вопросы, размещенные на данном сайте и связанные с получением доходов и прибылей, не могут приравниваться к средним величинам.

    Не существует также гарантий, что чей-либо опыт, касающийся предпринимательской деятельности, заработков, доходов или/и результат, можно использовать как указание к действию, которое может дать желаемые финансовые результаты.

    Вся наша продукция и услуги созданы с образовательной и ознакомительной целями.

    Посетители нашего сайта, пользователи продукции или услуг опираются на свой опыт, здравый смысл и полностью рассчитывают на свои силы, принимая решение заниматься интернет-бизнесом или любым другим видом предпринимательской деятельности.

    Администрация in-scale.ru в любое время вправе внести изменения в Правила, которые вступают в силу немедленно. Продолжение пользования сайтом после внесения изменений означает ваше автоматическое согласие на соблюдение новых правил.

    Данный документ гласит о том, что вы даете свое согласие на то, что ИП “Жестков Н.В.”, команда ресурса in-scale и сам сайт in-scale.ru не несёт ответственность за ошибочно принятые Вами решения по поводу доходов, прибылей, способов ведения бизнеса, продукции тренинг-центра, предоставляемых услуг или других материалов, что размещаются на данном сайте: текстовой, аудио и видео информации.

    Заполняя форму подписки на сайте in-scale.ru, Вы соглашаетесь с политикой конфиденциальности проекта, а также с другими положениями:

    1. Подписчик дает бессрочное согласие на обработку всех персональных данных, предоставленных на домене in-scale.ru

    2. Подписчик не возражает против получения e-mail, смс уведомлений информационного и рекламного характера о предстоящих акциях, изменениях на проекте, иных событиях с домена in-scale.ru или от сообществ vk.com/in_scale, facebook.com/inscalerus

    3. Подписчик может отписаться от информационной рассылки проекта In-scale в любое время по своему желанию при помощи специальной гиперссылки, а также обратившись в службу поддержки по адресу info@in-scale.ru и попросив удалить его контакты адрес из нашей подписной базы.

    После получения администрацией сайта in-scale.ru такой просьбы, e-mail адрес или аккаунт в социальных сетях будет удален из базы в течение 72 часов, кроме выходных и праздничных дней.

    ИП “Жестков Н.В” гарантирует полный возврат средств за приобретенный цифровой продукт по первому требованию клиента.

    Срок гарантийного периода для всех цифровых продуктов составляет 7 календарных дней с момента оплаты.

    Для того, чтобы запросить возврат денежных средств за определенный продукт обратитесь на info@in-scale.ru . Все заявки рассматриваются в течении 72 часов, кроме выходных и праздничных дней.

    Возврат денежных средств осуществляется путём перевода необходимой суммы на один из электронных кошельков (WebMoney, Яндекс.Деньги), либо на карту VISA/MASTERCARD в пределах России. Длительность транзакции – от 1 до 5-х банковских дней после отправки денег.

    Что такое big data: просто о сложном

    Слышали фразу «Большой брат следит за тобой»? Это как раз про big data, или большие данные. Что это, чем полезно человечеству и как вообще работают большие данные — читаем и впечатляемся.

    Слежка не случайно выбрана первой ассоциацией к большим данным. Дело в том, как эти данные собираются. А происходит это без нашего согласия, незаметно и, скорее всего, мы никак не сможем с этим бороться. Похоже на теорию заговора, правда? Не переживайте: вы не скроетесь от big data, но если поймете, как это работает, будет проще принять происходящее. Вот несколько примеров с участием больших данных в обычной жизни:

    • книжный магазин, в котором вы только что зарегистрировались или авторизовались через соцсеть, присылает рекомендации. Удивительно, но большая часть книг вас заинтересовала;
    • подходят к концу запасы стирального порошка, который вы покупаете в супермаркете у дома, и очень кстати в рассылке приходит скидочный купон на покупку месячного запаса этого порошка. В купоне соседки этого предложения нет, да и вообще нет порошка, так как она пользуется услугами химчистки;
    • появились дополнительные поезда в нужном направлении. А ведь несколько дней назад билетов не было, и новых поездов в расписании не предвиделось.

    Чудесные совпадения? Божественное провидение? Нет, big data.

    Как работают большие данные

    Кажется, еще не поздно дать определение этим удивительным явлениям.

    Итак, big data — это большие массивы несортированных данных, а также набор инструментов для их обработки. Под большими данными понимают информацию о процессах, явлениях и действиях. Эта информация накапливается, анализируется (привет, суперкомпьютеры!) и позволяет делать вполне реалистичные выводы. И чем больше «учится» система, тем более правдоподобные у нее прогнозы (привет, машинное обучение!).

    Термин «большие данные» появился благодаря редактору журнала Nature Клиффорду Линчу в 2008 году.

    Принципы работы big data легко понять на примере социального рейтинга, который работает в Китае. Все действия граждан тщательно собираются: когда просыпаются и засыпают, как добираются на работу, какие покупки делают офлайн и в интернете, есть ли у них постоянные партнеры, на что тратят деньги. Любая мелочь — еще один штрих к цифровому портрету человека. Когда соберется минимальный объем данных, начнется самое интересное — они начнут влиять на дальнейшую жизнь этого гражданина: дадут ли кредит или визу, пригласят ли на важное мероприятие, насколько легко будет снять жилье или арендовать велосипед в парке. На эти решения повлияют big data — собранные и тщательно обработанные данные.

    Большие данные — это голосовые записи, изображения, видео и аудио, геолокация, машинные (автоматически генерируемые) данные, поисковые запросы и многое другое.

    Получается, что идея из сериала «Черное зеркало» стала реальной в отдельной взятой стране. К 2020 году планируется ее полномасштабное внедрение во все сферы жизни в Китае. Возможно, что дальше этот проект распространится на другие государства.

    Мастер Йода рекомендует:  Как руководителю не из IT-сферы управлять айтишниками в компании — отвечают эксперты

    Кто и как собирает большие данные

    У обычного человека такой возможности нет — нужны огромные ресурсы. Зато эти ресурсы есть у бизнеса и правительственных организаций. Ошибкой будет думать, что большие данные вас не касаются. Если пользуетесь интернетом и мобильной связью, делаете покупки в торговых сетях и предъявляете их карты лояльности, даже просто путешествуете, большие данные собираются о вас на каждом шагу.

    Big data появляются каждую милисекунду. Представьте, сколько запросов в Google генерируют его пользователи. А еще Instagram, YouTube и Facebook!

    Big data называют неструктурированными данными. Это значит, что их нельзя взять и занести в обычную базу данных, где все хранится упорядоченно. Представьте квартиру, в которой только что праздновали день рождения маленького именинника. Остатки еды, посуды, фантиков, украшения на стенах, подарки, рисунки — примерно так выглядят big data. Полный хаос без намека на структуру. Проанализировать эту информацию привычными инструментами или невозможно, или слишком дорого. Обычные компьютеры отметаем, оставляем вычислительные ресурсы дата-центров. Именно здесь будут обработаны огромные массивы данных и найдены закономерности, которые помогут сделать правильные выводы.

    Собирать, хранить и анализировать big data могут крупные компании и правительственные организации.

    Как обрабатываются большие данные

    Допустим, мы собрали много разнородной информации и придумали, где ее хранить. Что дальше? Существуют технологии, которые позволяют находить среди вороха данных нужную информацию. Сделать это нужно быстро, а результат должен быть максимально точным. Чем лучше это получается, тем успешнее бизнес, который эти данные собирает. По-прежнему нужны мощные вычислительные ресурсы и программные алгоритмы, которые строятся на принципах машинного обучения. Люди не работают с big data напрямую — это долго и дорого. Программа может зацепиться за один фрагмент (текст, движение, картинка, аудио и т. п. — абсолютно любые типы данных), затем за второй, третий и так далее. Она установит между ними взаимосвязь и спрогнозирует, какими будут следующие фрагменты.

    Примеры big data в бизнесе

    Как мы в обычной жизни сталкиваемся с большими данными, мы уже рассмотрели выше. Понятно, что за этим стоят крупные компании. А теперь ловите несколько кейсов, из которых понятно — big data полезны и нужны бизнесу намного больше, чем нам!

    Банки используют big data, чтобы оптимизировать затраты и уменьшить риски. Они борются с мошенничеством, оценивают платежеспособность клиентов, управляют персоналом, прогнозируют загруженность касс, отделений и терминалов.

    Производственные предприятия используют big data для оптимизации расхода материалов, формирования очереди на закупку сырья, прогнозирования скачков спроса и цены.

    Маркетинговые компании прогнозируют успешность рекламных объявлений для конкретных пользователей и предлагают ту рекламу, которая их точно заинтересует и поможет решиться на покупку товара или заказ услуги.

    Транспортные компании получают точные погодные прогнозы и оценивают риски простоев и задержек в пути, отслеживают состояние транспортных средств и принимаются за ремонт раньше, чем те выходят из строя. Логистические сервисы оптимизируют маршруты.

    СМИ выбирают лучшее время для публикации новостей — тех, которые получат максимум внимания и отклика у читателей.

    Образовательные учреждения благодаря сбору больших данных находят интересный и полезный обучающий контент. А учащиеся получают информацию в том виде — текстовом, видео, аудио, — в котором лучше ее усваивают. Так растет интерес к образованию и уровень вовлеченности в обучение.

    Полиция предотвращает правонарушения в потенциально опасных районах (за счет увеличения числа патрульных) и на мероприятиях, где могут произойти столкновения. Снижается уровень преступности.

    Инвесторы с помощью больших данных находят интересных и перспективных партнеров — компании и стартапы, которые принесут прибыль.

    Где угодно big data используются для оптимизации затрат на энергоресурсы, логистику, привлечение новых клиентов, обслуживание и ремонт оборудования, сокращение убытков.

    Big data — это плохо или хорошо?

    Точного ответа нет. Большие данные — всего лишь инструмент, и принесет он пользу или вред, зависит от того, в чьи руки он попадет. Вот несколько примеров, когда big data можно оценить по-разному.

    Хорошо: поиск преступников на основе данных, полученных с камер видеонаблюдения. Система распознает лица и вычисляет людей, которые ранее участвовали в драках, кражах или более серьезных преступлениях. А еще это глобальная автоматизация в принятии решений — в этом заинтересованы крупные компании. Им проще находить подход к клиентам, рассчитывать потребность в сырье, прогнозировать объемы производства и многое другое.

    Плохо: навязчивый сервис в любой сфере, отсутствие базовой анонимности. Допустим, раньше вы вели не очень правильный образ жизни, интересовались запрещенными веществами, совершали проступки. Большие данные сохранили эту информацию и сделали соответствующие выводы. Теперь вам не дают долгожданный кредит в банке, вы не можете стать, к примеру, донором. Это демотивирует, мешает человеку развиваться.

    Нейтрально: реклама товаров. Часто она кажется навязчивой, но! Лучше получать те предложения, которые действительно интересны, чем те, которыми вы никогда не воспользуетесь. Согласитесь, правильнее показывать рекламу гоночного автомобиля бизнесмену из списка Forbes, а не школьной учительнице. Еще один условно нейтральный пример — тот же социальный рейтинг. С одной стороны, такой подход вызывает ужас и возмущение. Но если посмотреть под другим углом, все не так страшно. Общество становится более прозрачным, в нем начинает действовать несовершенная, но хоть какая-то система справедливости.

    Что будет с big data в будущем?

    Очевидно, нам придется смириться, что мир развивается по своим законам, на которые один отдельный человек не может повлиять. А так как big data находятся на пике развития, стоит ожидать, что они еще больше будут влиять на нашу жизнь и принятие решений. Избежать этого не удастся, а вот смириться, адаптироваться и начать получать выгоду — вполне.

    Самое глубокое проникновение больших данных ожидается в тех сферах, где можно установить закономерности во внешних явлениях и поступках людей. Это продажи, медицина, наука, телеком, военное дело, транспорт, финансы. Чуть менее активно big data используются в обучении и государственном секторе. Появляется больше представителей малого и среднего бизнеса, которым тоже интересны результаты работы с большими данными, соответственно, развивается сфера услуг, связанная со сбором информации и внедрением инструментов для работы с технологией. А еще растет потребность в специалистах, которые работают с big data. Возможно, такие люди очень скоро появятся и в вашем окружении!

    Большие данные и умные города: как подготовиться к будущему?

    Это перевод статьи Big Data & Smart Cities: How can we prepare for them? Автор оригинала, Александр Гонфалоньери (Alexandre Gonfalonieri), пишет об ИИ, инновационных технологиях для бизнеса и общества.

    Каждую неделю в города перебираются 1,3 миллиона человек, и можно ожидать, что к 2040 году 65 % населения мира станет городским. Причем 90 % роста численности горожан придется на страны Азии и Африки.

    Последние несколько десятилетий эксперты пытаются повысить качество жизни в городах разными способами: от ввода платы за проезд по зонам с перегруженным движением до популяризации электровелосипедов (e-bikes).

    Разговоров об умных городах много, но что стоит за этим понятием?

    Умный город — тот, где с помощью передовых технологий расширен перечень доступных жителю услуг и оптимизирован каждый аспект городских мероприятий.

    Какова роль больших данных в этой формуле?

    Представьте: дисплей на приборной панели вашего автомобиля показывает предупреждение о том, что из-за погодных условий добраться до работы привычным путем будет трудно. Дальше программа перестраивает маршрут на основе показателей, которые отслеживает в реальном времени.

    Вот вы въехали на крытую автостоянку, и бортовой компьютер уже подсказывает свободное парковочное место. При этом он учитывает, откуда вам будет ближе идти к работе, исходя из статистики предыдущих поездок.

    Такой подход уже не будущее, а реальность. Большие данные (Big Data), интернет вещей (IoT) и распределенные датчики интенсивно внедряются в мегаполисах для реализации того, что многие называют городом будущего.

    Это проявляется и в развертывании систем коммуникации: местные оптоволоконные сети, муниципальный Wi-Fi, специализированные приложения для конкретных задач (умные парковки, уличное освещение, вывоз и переработка отходов).

    В нескольких крупных городах мира уже выбрали подход, при котором во главе угла не конкретные приложения, а данные как связующий элемент.

    Данные — кровь, которая бежит по венам умного города.

    Общий фундамент

    Чтобы стать умными, города должны отвечать одному общему требованию: собирать достоверную информацию (с датчиков), на основе которой можно вырабатывать решения на долгосрочную перспективу. Потому что данные — золото нашего времени.

    Если встроить датчики в городскую инфраструктуру и создать новые точки сбора данных — в том числе от горожан с их мобильными устройствами, — администрация умного города сможет анализировать большие данные, чтобы более точно отслеживать и прогнозировать происходящее.

    Пример датчика, полезного в управлении городом

    Большие данные — богатый источник возможностей для развития городских сервисов. Упрощенно говоря, Big Data — это огромный массив данных, анализ которого позволяет бизнесу принимать стратегические решения и получать лучшие результаты.

    Анализ больших данных незаменим, когда у вас горы информации и нужно отыскать в ней закономерности или неочевидные идеи, которые позволят сделать ценные выводы.

    Для развития умных городов очень важны информационно-коммуникационные технологии (ИКТ): они обеспечивают доступ к данным, собранным с помощью информационных систем. Механизм, который будет особенно полезен умным городам, известен как интернет вещей (IoT). Он основан на взаимодействии между устройствами, которые обмениваются данными через интернет, беспроводные и другие сети.

    Интернет вещей нужен умным городам, чтобы собирать и эффективно обрабатывать данные, которые затем можно применить в конкретной области. Городские датчики и другие подключенные к сети устройства получают данные из нескольких «перевалочных пунктов» и анализируют, чтобы упростить принятие решений.

    А еще на жизнедеятельность городов очень повлияют облачные платформы и аналитические приложения. Они предлагают экономичные средства управления данными и решениями, связанными с работой транспорта. Это создает основу для построения более безопасных и полезных маршрутов на уже существующих дорогах.

    Приложения машинного обучения принимают данные с подключенных устройств и в режиме реального времени передают их на смартфоны путешественников.

    Три уровня данных

    Первый уровень — технологическая основа, которая включает в себя критическую массу смартфонов и датчиков, подключенных к высокоскоростным каналам связи.

    Второй уровень — особые приложения, которые превратят сырые данные в предупреждения, идеи и действия. Тут за дело берутся разработчики и поставщики технологии.

    Третий уровень — использование городами, компаниями и населением. Многим приложениям для эффективной работы нужны массовое распространение и способность менять свое поведение.

    Проблемы управления городом

    Системные интеграторы города не могут собрать весь объем данных, который хранится по разрозненным базам и системам с ограничением прав доступа и использования.

    В наших городах уже накоплены тонны информации, но большая ее часть используется для решения отдельных задач и не встроена в общую систему управления городом. К таким данным относятся официальная статистика, карты, сведения о публичных торгах и закупках.

    Технологии способны произвести переворот по многим направлениям: сделать парковки удобнее, улучшить уличное освещение, оптимизировать транспортный поток, вывоз и сортировку мусора, задействовать умные системы безопасности, прогнозировать катастрофы. Но пока информация слишком фрагментарна. Нужно собрать все существующие стандарты на единой унифицированной платформе.

    Будет ли город умным, зависит от способности организаций обмениваться данными и анализировать их. Только обмен ключевой информацией в реальном времени позволит компаниям частного и социального сектора разрабатывать приложения для автоматизации задач и софт для инфраструктуры умного города.

    Проблема в том, что пока под каждый новый тип датчика зачастую нужна своя база данных, которую городу приходится закупать. Когда между сенсорами и БД нет эффективного и прозрачного взаимодействия, извлечь пользу из полученных данных практически невозможно.

    Наконец, большое значение имеет цена решений: именно в финансирование упираются многие инициативы по развитию умных городов. Одно из главных препятствий, мешающих сдвинуть подобные проекты с места — первоначальные затраты на установку минимально необходимого числа датчиков, без которого нет смысла и начинать.

    В реальных развивающихся городах действия не скоординированы, а данные до сих пор собираются вручную.

    Улучшаем город с помощью данных

    Проанализируем, как данные упрощают жизнь в городах мира.

    В бывшей столице Китая, городе Нанкин, датчики установлены на 10 000 такси, 7 000 автобусов и на миллионе частных машин. Данные, которую удается собрать таким образом, ежедневно поступают в Информационный Центр Нанкина. Там эксперты централизованно отслеживают и анализируют сведения о транспортных потоках, а затем отправляют обновления на смартфоны пассажиров. Это уже позволило властям города создать новые маршруты, которые улучшают транспортную ситуацию без строительства новых дорог.

    Трениталия, главная железнодорожная компания Италии, установила датчики на поезда и теперь мгновенно узнает об изменениях в техническом состоянии каждого состава. Компании стало проще планировать ремонт поездов и действовать на опережение, предотвращая происшествия. Благодаря технологическим инновациям путешественники получили надежный и удобный сервис, а города избегают серьезных проблем.

    В Лос-Анджелесе на протяжении 4,5 тысячи миль старое уличное освещение заменяют светодиодными лампами. Цель не только в том, чтобы стало светлее, но и в создании централизованной системы, которая будет информировать город о состоянии каждой лампочки. Когда одна из них перегорит, найти и заменить ее можно будет практически мгновенно. В перспективе можно будет управлять цветом освещения или заставить его мигать для оповещения горожан.

    Группы, объединяющие множество людей, генерируют тонны информации. Большие данные позволяют понять, когда, как и почему собираются толпы, а также предсказывать их поведение и перемещения.

    Миллионы датчиков уже работают в крупных городах. В ближайшем будущем их число будет расти — до тех пор, пока они не охватят все: от уличных фонарей и урн до энергопотребления и дорожной ситуации.

    Информационные вызовы

    Чтобы эффективно управлять данными, недостаточно их собирать и хранить. Нужно передавать и объединять — делать их доступными департаментам, организациям или всему обществу.

    В крупнейших городах США и других стран миллионы датчиков каждую миллисекунду, секунду, минуту, час и день создают невообразимый объем данных… Большая их часть никогда не используется.

    Умные города должны строиться на сетях, в которых возможен свободный обмен информацией.

    При развертывании умного города совместное пользование данными — это и обязательное требование, и ценная возможность. Ясно, что распределение данных между городскими департаментами и платформами — ключевой момент планирования.

    Возьмусь сделать прогноз: большинство городов внедрят совместное пользование данными как промежуточный этап на пути от интеграции данных к информационному обмену, а затем и к магазинам данных.

    Создание цифровой инфраструктуры

    Лучший способ организовать совместное пользование данными — применять открытые API. Вместе с рынками данных — или наряду с ними — они упрощают обмен информацией и позволяют включать в экосистему новых партнеров. Вот почему API — важнейший элемент любой платформы для умного города.

    Все чаще власти городов вкладывают в API, с помощью которого разработчики и общественные организации могут получать доступ к открытым данным.

    Чтобы создать хорошую платформу умного города, нужно следующее:

    Сети Собирают данные
    Полевые шлюзы Упрощают сбор и сжатие данных
    Облачный шлюз Гарантирует безопасную передачу данных
    Система потоковой обработки данных Сводит несколько потоков в озеро данных
    Озеро данных Хранит данные, ценность которых еще предстоит определить
    Хранилище данных Хранит очищенные и структурированные данные
    Аналитические системы Анализируют и визуализируют информацию с датчиков
    Машинное обучение Автоматизирует городские сервисы на основе долгосрочного анализа данных
    Пользовательские приложения Соединяют умные вещи и горожан

    Идеальная платформа для обмена данными

    Система совместного пользования данными должна обеспечивать обмен «в облаках». Это обеспечит лучшую переносимость, безопасность и конфиденциальность при передаче данных, а также ускорит разработку и тестирование приложений. Благодаря своей универсальности платформа обеспечит эти преимущества всем приложениям, в том числе специализированным. А значит весь городской софт будет опираться на актуальные технологии.

    Платформа должна поддерживать два режима обмена данными: публичный и приватный. Если в отдельных приложениях данные смешиваются, особенно важно отслеживать, как они используются, обеспечивать надежную систему безопасности и управления.

    Наконец, необходимо извлечь выводы из данных — привести их к виду, понятному людям, которые будут обрабатывать и использовать эти данные.

    Big Data — ключевой элемент в системах городского масштаба, всеохватных по числу подключенных устройств. Технологии обработки больших данных сыграют ведущую роль в развитии умного градостроения будущего.

    Это перевод статьи Big Data & Smart Cities: How can we prepare for them? Автор оригинала, Александр Гонфалоньери (Alexandre Gonfalonieri), пишет об ИИ, инновационных технологиях для бизнеса и общества.

    Каждую неделю в города перебираются 1,3 миллиона человек, и можно ожидать, что к 2040 году 65 % населения мира станет городским. Причем 90 % роста численности горожан придется на страны Азии и Африки.

    Последние несколько десятилетий эксперты пытаются повысить качество жизни в городах разными способами: от ввода платы за проезд по зонам с перегруженным движением до популяризации электровелосипедов (e-bikes).

    Разговоров об умных городах много, но что стоит за этим понятием?

    Умный город — тот, где с помощью передовых технологий расширен перечень доступных жителю услуг и оптимизирован каждый аспект городских мероприятий.

    Какова роль больших данных в этой формуле?

    Представьте: дисплей на приборной панели вашего автомобиля показывает предупреждение о том, что из-за погодных условий добраться до работы привычным путем будет трудно. Дальше программа перестраивает маршрут на основе показателей, которые отслеживает в реальном времени.

    Вот вы въехали на крытую автостоянку, и бортовой компьютер уже подсказывает свободное парковочное место. При этом он учитывает, откуда вам будет ближе идти к работе, исходя из статистики предыдущих поездок.

    Такой подход уже не будущее, а реальность. Большие данные (Big Data), интернет вещей (IoT) и распределенные датчики интенсивно внедряются в мегаполисах для реализации того, что многие называют городом будущего.

    Это проявляется и в развертывании систем коммуникации: местные оптоволоконные сети, муниципальный Wi-Fi, специализированные приложения для конкретных задач (умные парковки, уличное освещение, вывоз и переработка отходов).

    В нескольких крупных городах мира уже выбрали подход, при котором во главе угла не конкретные приложения, а данные как связующий элемент.

    Данные — кровь, которая бежит по венам умного города.

    Общий фундамент

    Чтобы стать умными, города должны отвечать одному общему требованию: собирать достоверную информацию (с датчиков), на основе которой можно вырабатывать решения на долгосрочную перспективу. Потому что данные — золото нашего времени.

    Если встроить датчики в городскую инфраструктуру и создать новые точки сбора данных — в том числе от горожан с их мобильными устройствами, — администрация умного города сможет анализировать большие данные, чтобы более точно отслеживать и прогнозировать происходящее.

    Пример датчика, полезного в управлении городом

    Большие данные — богатый источник возможностей для развития городских сервисов. Упрощенно говоря, Big Data — это огромный массив данных, анализ которого позволяет бизнесу принимать стратегические решения и получать лучшие результаты.

    Анализ больших данных незаменим, когда у вас горы информации и нужно отыскать в ней закономерности или неочевидные идеи, которые позволят сделать ценные выводы.

    Для развития умных городов очень важны информационно-коммуникационные технологии (ИКТ): они обеспечивают доступ к данным, собранным с помощью информационных систем. Механизм, который будет особенно полезен умным городам, известен как интернет вещей (IoT). Он основан на взаимодействии между устройствами, которые обмениваются данными через интернет, беспроводные и другие сети.

    Интернет вещей нужен умным городам, чтобы собирать и эффективно обрабатывать данные, которые затем можно применить в конкретной области. Городские датчики и другие подключенные к сети устройства получают данные из нескольких «перевалочных пунктов» и анализируют, чтобы упростить принятие решений.

    А еще на жизнедеятельность городов очень повлияют облачные платформы и аналитические приложения. Они предлагают экономичные средства управления данными и решениями, связанными с работой транспорта. Это создает основу для построения более безопасных и полезных маршрутов на уже существующих дорогах.

    Приложения машинного обучения принимают данные с подключенных устройств и в режиме реального времени передают их на смартфоны путешественников.

    Три уровня данных

    Первый уровень — технологическая основа, которая включает в себя критическую массу смартфонов и датчиков, подключенных к высокоскоростным каналам связи.

    Второй уровень — особые приложения, которые превратят сырые данные в предупреждения, идеи и действия. Тут за дело берутся разработчики и поставщики технологии.

    Третий уровень — использование городами, компаниями и населением. Многим приложениям для эффективной работы нужны массовое распространение и способность менять свое поведение.

    Проблемы управления городом

    Системные интеграторы города не могут собрать весь объем данных, который хранится по разрозненным базам и системам с ограничением прав доступа и использования.

    В наших городах уже накоплены тонны информации, но большая ее часть используется для решения отдельных задач и не встроена в общую систему управления городом. К таким данным относятся официальная статистика, карты, сведения о публичных торгах и закупках.

    Технологии способны произвести переворот по многим направлениям: сделать парковки удобнее, улучшить уличное освещение, оптимизировать транспортный поток, вывоз и сортировку мусора, задействовать умные системы безопасности, прогнозировать катастрофы. Но пока информация слишком фрагментарна. Нужно собрать все существующие стандарты на единой унифицированной платформе.

    Будет ли город умным, зависит от способности организаций обмениваться данными и анализировать их. Только обмен ключевой информацией в реальном времени позволит компаниям частного и социального сектора разрабатывать приложения для автоматизации задач и софт для инфраструктуры умного города.

    Проблема в том, что пока под каждый новый тип датчика зачастую нужна своя база данных, которую городу приходится закупать. Когда между сенсорами и БД нет эффективного и прозрачного взаимодействия, извлечь пользу из полученных данных практически невозможно.

    Наконец, большое значение имеет цена решений: именно в финансирование упираются многие инициативы по развитию умных городов. Одно из главных препятствий, мешающих сдвинуть подобные проекты с места — первоначальные затраты на установку минимально необходимого числа датчиков, без которого нет смысла и начинать.

    В реальных развивающихся городах действия не скоординированы, а данные до сих пор собираются вручную.

    Улучшаем город с помощью данных

    Проанализируем, как данные упрощают жизнь в городах мира.

    В бывшей столице Китая, городе Нанкин, датчики установлены на 10 000 такси, 7 000 автобусов и на миллионе частных машин. Данные, которую удается собрать таким образом, ежедневно поступают в Информационный Центр Нанкина. Там эксперты централизованно отслеживают и анализируют сведения о транспортных потоках, а затем отправляют обновления на смартфоны пассажиров. Это уже позволило властям города создать новые маршруты, которые улучшают транспортную ситуацию без строительства новых дорог.

    Трениталия, главная железнодорожная компания Италии, установила датчики на поезда и теперь мгновенно узнает об изменениях в техническом состоянии каждого состава. Компании стало проще планировать ремонт поездов и действовать на опережение, предотвращая происшествия. Благодаря технологическим инновациям путешественники получили надежный и удобный сервис, а города избегают серьезных проблем.

    В Лос-Анджелесе на протяжении 4,5 тысячи миль старое уличное освещение заменяют светодиодными лампами. Цель не только в том, чтобы стало светлее, но и в создании централизованной системы, которая будет информировать город о состоянии каждой лампочки. Когда одна из них перегорит, найти и заменить ее можно будет практически мгновенно. В перспективе можно будет управлять цветом освещения или заставить его мигать для оповещения горожан.

    Группы, объединяющие множество людей, генерируют тонны информации. Большие данные позволяют понять, когда, как и почему собираются толпы, а также предсказывать их поведение и перемещения.

    Миллионы датчиков уже работают в крупных городах. В ближайшем будущем их число будет расти — до тех пор, пока они не охватят все: от уличных фонарей и урн до энергопотребления и дорожной ситуации.

    Информационные вызовы

    Чтобы эффективно управлять данными, недостаточно их собирать и хранить. Нужно передавать и объединять — делать их доступными департаментам, организациям или всему обществу.

    В крупнейших городах США и других стран миллионы датчиков каждую миллисекунду, секунду, минуту, час и день создают невообразимый объем данных… Большая их часть никогда не используется.

    Умные города должны строиться на сетях, в которых возможен свободный обмен информацией.

    При развертывании умного города совместное пользование данными — это и обязательное требование, и ценная возможность. Ясно, что распределение данных между городскими департаментами и платформами — ключевой момент планирования.

    Возьмусь сделать прогноз: большинство городов внедрят совместное пользование данными как промежуточный этап на пути от интеграции данных к информационному обмену, а затем и к магазинам данных.

    Создание цифровой инфраструктуры

    Лучший способ организовать совместное пользование данными — применять открытые API. Вместе с рынками данных — или наряду с ними — они упрощают обмен информацией и позволяют включать в экосистему новых партнеров. Вот почему API — важнейший элемент любой платформы для умного города.

    Все чаще власти городов вкладывают в API, с помощью которого разработчики и общественные организации могут получать доступ к открытым данным.

    Чтобы создать хорошую платформу умного города, нужно следующее:

    Сети Собирают данные
    Полевые шлюзы Упрощают сбор и сжатие данных
    Облачный шлюз Гарантирует безопасную передачу данных
    Система потоковой обработки данных Сводит несколько потоков в озеро данных
    Озеро данных Хранит данные, ценность которых еще предстоит определить
    Хранилище данных Хранит очищенные и структурированные данные
    Аналитические системы Анализируют и визуализируют информацию с датчиков
    Машинное обучение Автоматизирует городские сервисы на основе долгосрочного анализа данных
    Пользовательские приложения Соединяют умные вещи и горожан

    Идеальная платформа для обмена данными

    Система совместного пользования данными должна обеспечивать обмен «в облаках». Это обеспечит лучшую переносимость, безопасность и конфиденциальность при передаче данных, а также ускорит разработку и тестирование приложений. Благодаря своей универсальности платформа обеспечит эти преимущества всем приложениям, в том числе специализированным. А значит весь городской софт будет опираться на актуальные технологии.

    Платформа должна поддерживать два режима обмена данными: публичный и приватный. Если в отдельных приложениях данные смешиваются, особенно важно отслеживать, как они используются, обеспечивать надежную систему безопасности и управления.

    Наконец, необходимо извлечь выводы из данных — привести их к виду, понятному людям, которые будут обрабатывать и использовать эти данные.

    Big Data — ключевой элемент в системах городского масштаба, всеохватных по числу подключенных устройств. Технологии обработки больших данных сыграют ведущую роль в развитии умного градостроения будущего.

    Добавить комментарий