...

Как управлять большими данными: роль баз данных и аналитики

SQL с нуля: как управлять базой данных

Развитие бизнеса и экономики всё больше опирается на теорию больших данных. С опытным специалистом, который умеет извлекать информацию по необходимым параметрам и анализировать, компания развивается, наращивает прибыль, занимает все большую долю рынка. Нет такого специалиста — нет опоры для развития.

В этой статье мы разберем, как научиться управлять базами данных с нуля и стать опорой роста дохода транснациональных корпораций, крупного бизнеса и даже интернет-магазина соседа, сверстанного за вечер.

Как устроен мир больших данных

Весь мир вокруг — данные (цифры, текст, фото, видео). Чтобы не потеряться в беспорядочном массиве информации, ее необходимо структурировать.

В мире больших данных на страже порядка стоят Базы Данных (БД). Здесь все удобно разложено по полочкам и можно в любой момент найти все что нужно.

Базы данных применяются везде, где хранится много информации: в соцсетях, интернет-магазинах, видеоиграх, аптеках, банках, такси, грузоперевозках и даже в вашем смартфоне.

Это необъятный мир со своими правилами, законами и алгоритмами. Но стоит только подобрать к нему ключ, он сразу становиться простым, как 2х2.

Этот ключ состоит всего из 3 букв — SQL.

Зачем нужен SQL

Это главный инструмент для специалиста, который работает с данными. С его помощью специалист получает необходимую информацию из огромного массива данных.

Например, нужно узнать аудиторию пользователей Вконтакте в 2022 году. Специалист прописывает команду и извлекает необходимые данные — 73,4 млн человек в месяц.

Задача усложняется. Среди этих пользователей нам необходимо выделить предпринимателей, чтобы настроить на них рекламу с промокодом на рекламный бюджет.

Если поместить эти данные в Excel, таблица займет десятки миллионов строк и тысячи столбцов! Поиск, аналитика таких данных будет крайне непростая. Именно поэтому для хранения информации используют базы данных, а SOL помогает быстро и удобно получать данные для конкретных целей, сортировать, структурировать, предоставить в простом понятном формате.

Разберем другой пример. Представьте мужчину, который выбирает кожаный кошелек в интернет-магазине среди 15 тысяч вариантов и хочет уложиться в 3 тысячи рублей. Изучение каталога займет 2-3 часа. Проще в фильтре выставить настройки по материалу, цене и сразу найти нужные модели. Такие фильтры работают на основе языка SQL.

Что еще важно знать? SQL — это:

  • язык запросов, а не программирования;
  • на нем невозможно написать сайт или приложение, но SQL используется при их создании;
  • прост для начинающих за счет своей предметности и упорядоченной структуры;
  • может обрабатывать любой объем информации;
  • дает возможность получать информацию по сложным запросам за считанные минуты;
  • с его помощью можно управлять доступом и защищать данные от взлома.

Где применяется?

SQL — первая необходимость аналитиков крупных компаний. Аэрофлот, Сбер и Тинькофф постоянно собирают и анализируют данные о своих пользователях. На основе этого разрабатывают новые продукты, востребованные на рынке, расширяя аудиторию и увеличивая прибыль.

Яндекс, Вконтакте, Одноклассники, Кинопоиск, ivi используют SQL, чтобы показывать пользователям рекомендации на основании их прошлых просмотров, тем самым повышают интерес к своим платформам.

Запросы, организованные по заданным параметрам, помогают маркетологам собрать информацию о потенциальных потребителях, проанализировать, создать релевантные гипотезы, провести тесты и удешевить стоимость 1 клиента.

Например, владелец компании по строительству домов хочет понять, как эффективнее выстроить стратегию продаж. Анализируя поведение его целевой аудитории, становится ясно, что 91% пользователей выбирает дома на сайтах-агрегаторах или в агентствах недвижимости, где можно сравнить объекты и отобрать по необходимым параметрам. Соответственно, чтобы продать дом, собственнику первым делом необходимо разместить объявления на сайтах-агрегаторах и заключить партнерское соглашение с агентствами недвижимости.

SQL-запросы нужны тестировщикам программного обеспечения при проверке результатов теста на базах данных. Широкая выборка помогает определить наличие багов на разных устройствах и скорректировать все неисправности.

Навык задавать параметры базам данных особенно необходим аналитикам для изучения необходимых параметров за длительный период времени. Это помогает сделать точные прогнозы.

Например, аналитик агропредприятия изучает урожайность, погоду за последние 10 лет. Это помогает ему сделать прогноз на текущий год и спланировать сбыт продовольства.

Язык SQL отвечает на основополагающие вопросы бизнеса:

Как вырос доход за последний месяц? А в разрезе по неделям и дням?
Какие каналы продаж принесли компании больше прибыли? А в разрезе по дистрибьюторам?
Какие решения по проектам были убыточными? Какие из проектов сменили падение на рост? Какова текущая динамика за последние три недели?

Зачем SQL финансисту или бухгалтеру?

Страшно представить массив данных, с которыми работают финансисты и бухгалтеры. Под их чутким влиянием огромные полотна цифр, собранные за годы существования компании.

Представьте, что бухгалтеру нужно создать нестандартный отчет по зарплатам 250 инженеров за последние полгода… А у него только Excel! Поиск необходимых сотрудников, выборка нужных данных и формирование отчета займет несколько дней. А SQL с этим справится за 2-3 минуты.

К тому же, компании готовы повышать зарплату сотруднику с новыми навыками, ведь это им выгодно — не нужны дополнительные кадры, а,значит, и расходы на зарплату, налоги и рабочее место.

Перспективы

На момент написания статьи, сентябрь 2022 года, только в России на hh.ru 8 301 вакансия “Аналитик” с требованием знаний SQL и зарплатой 100 000 ₽ — 400 000 ₽ и выше.

HR-аналитики исследовали миллионы вакансий со всего мира и сделали вывод, что язык SQL стал более востребованным, чем Python, Java и JavaScript. Причина — в незаменимости управления базами данных во многих компаниях.

Легко ли изучить SQL?

SQL — предметный язык для пользователей, которые не умеют программировать профессионально. То есть язык для владельцев информации. Подросток 12 лет разберется за месяц, если при этом будет ходить в школу, выполнять все домашки и посещать дополнительные занятия по хип-хопу. Взрослому будет достаточно двух-трёх недель интенсивного обучения, чтобы вникнуть в основные правила и выполнять базовые команды.

Дальше начнется самое интересное — практика. Разобраться, как ездить на лыжах можно за 30 минут инструктажа, но виртуозно съезжает со склона тот, кто десятки раз совершает новые попытки, выбираться из сугробов, стряхивать с себя снег и пробует еще раз.

Есть и продвинутый уровень — те самые “черные” горнолыжные трассы — проектирование баз данных с помощью SQL-кода, создание таблиц, написание программ. Это уже требует гораздо больше времени и усилий. Это обсудим в следующих статьях.

Как получить профессию

Шаг 1 Изучить максимум информации по теме.

Например, зайдите в Яндекс или на Ютуб. Введите в строку поиска: “SQL для чайников”, “Как управлять базами данных”, “Как написать запросы SQL”.

Шаг 2 Изучить особенности и отличия СУБД.

Схема та же, что и в шаге 1. Открываем Яндекс браузер, просим Алису рассказать, что такое СУБД (Система Управления Базами Данных). Возможно, понадобится повторить. Алиса не всегда понимает с первого раза. Основные — Oracle, MySQL, PostgreSQL, Microsoft SQL Server. Обратите внимание на ClickHouse — разработку Yandex, которая является очень прогрессивной отечественной СУБД. Так же сейчас она очень актуальна в плане происходящего импортозамещения.

Шаг 3 Наработать скилы в онлайн-тренажерах.

Для начала наберитесь опыта выполнения простейших команд, постепенно усложняя задачи. Установите понравившуюся программу для работы с базами данных на свой компьютер. Найдите открытые базы данных по интересующим вас направлениям ( пост на habr.com и kaggle.com вам в помощь) и попробуйте работу с датасетами при помощи SQL в установленной программе. Узнаете много нового:)

Шаг 4 Пройти обучение.

На курсах вы можете получить систематизированные знания, отработать их на практике и уже через 2-3 месяца начать получить первые деньги с помощью новых навыков.

Например, курс в HOCK Training идеально подойдет тем, кто хочет попробовать себя в IT с нуля. Вы сможете освоить навыки управления базами данных с поддержкой профессионалов своего дела и за 2 месяца получить новую профессию.

Нужен ли SQL конкретно вам — решать только вам!

НО знайте: вы видите и читаете данную статью на сайте — тоже сделано при помощи SQL запроса к Базе Данных 🙂

Как большие компании управляют большими данными

Объемы данных стремительно растут. Их хранение и обработка требуют значительных финансовых затрат как с точки зрения построения инфраструктуры, так и с учетом дефицита и высокой стоимости труда квалифицированных специалистов. При этом далеко не все данные могут быть полезны. Информацию нужно тщательно подготовить к дальнейшему использованию. CDO2DAY расспросило экспертов, как эти проблемы решаются в крупных компаниях.

Большие данные на рынке

Аналитики IDC в 2021 году оценили объем мирового рынка Big Data и бизнес-аналитики в $215,7 млрд, что на 10,1% больше, чем в 2020 году. Главные потребители больших данных – финансовые организации, дискретное производство и сфера услуг: на них приходится около трети всех затрат. За ними следуют непрерывное производство, телеком и госведомства. В ближайшие годы расходы на Big Data быстрее всего будут расти в телекоммуникационном секторе.

объем мирового рынка Big Data и бизнес-аналитики
59 зеттабайт
объем информации, накопленный в мире в 2020 году

В отчете Data Age Report аналитики IDC отмечают, что в 2020 году объемы информации в мире составили 59 зеттабайт. При этом около 90% этих данных являются реплицированными и лишь 10% – уникальными. В дальнейшем доля реплицированных данных будет только увеличиваться, а значит, что большинство данных потребляется и анализируется, а не генерируется.

К 2025 году в мире будет храниться и обрабатываться около 175 зеттабайт данных. Поставщиками большинства данных станут устройства Интернета вещей и метаданные. Доля информации от частных потребителей будет сокращаться, а от корпоративных – только расти.

Как работать с большими данными

Для работы с большими данными необходимы специальная инфраструктура и компетенции, которые доступны узкому кругу крупных компаний. Сбор и обработка Big Data, создание хранилищ, позволяющих формировать полноценную аналитику, требуют серьезных затрат и высококвалифицированных специалистов, которых на рынке явно не хватает.

Так, в крупнейшем российском ретейлере X5 Retail Group сегодня накоплено более 5 петабайт данных. В компании «Ростелеком» объемы данных также исчисляются петабайтами: они собираются из более чем 200 информационных систем и используются более чем 12 тысячами уникальных пользователей.

«С точки зрения функции «Управление данными» мы стараемся фокусироваться на тех данных, которые на горизонте года могут быть востребованы бизнесом для аналитических и операционных решений. То есть тех данных, которые доступны в контуре хранилища данных».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Эксперты отмечают изменение отношения к большим данным в последние годы: наконец‑то пришло понимание, что делиться ими выгоднее, чем просто хранить. Вместе с тем для многих компаний по-прежнему характерно стремление собрать все данные в единый репозиторий, а уже потом решать, что с ними делать. Но такой подход неэффективен: прежде чем создавать хранилище, надо подумать об управлении данными и их безопасности.

Как организовать управление
данными

В «Ростелекоме» подразделения по управлению данными, входящие в состав ИТ-блока, отвечают за весь цикл работы с данными: инфраструктуру работы с данными, построение хранилища данных, архитектуру данных, внедрение систем мастер-данных, построение аналитики и отчетности, построение решений с использованием технологий искусственного интеллекта, монетизацию данных и разработку data-продуктов для внешнего рынка.

«Технологические задачи решаются силами ИТ-блока за счет собственного бюджета. С точки зрения технологических решений мы изначально фокусировались на использовании open source решений и in-house–разработке. Это позволило нам практически полностью отказаться от решений иностранных вендоров и создать для рынка собственную платформу управления данными».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Работа по развитию отчетности в «Ростелекоме» выстроена по принципу одного окна. За каждый сегмент отвечает выделенный фронт-менеджер, в обязанности которого входит решение текущих задач бизнес-заказчиков. Такие работы выполняются за счет бюджета заказчика. Демократизация данных, единая методология решений и возможность переиспользования информационных сервисов – это важные принципы работы компании.

Необходимо не только загрузить данные из источников и реализовать конкретный отчет. Важно предоставить возможность для пользователей легко найти нужный информационный сервис, получить к нему доступ и обеспечить прозрачность методологии расчета, говорит Сергей Носов. В этом помогают глоссарий терминов, карта данных, реестр отчетов. Реализация операционных сервисов и сервисов монетизации данных реализуется также за счет бюджета заказчика в продуктовых командах, состоящих из бизнес- и ИТ-специалистов.

В X5 Retail Group, по словам директора по управлению данными в Х5 Tech Тиграна Саркисова, управление данными, как и всем технологическим блоком, организовано по доменно‑ориентированной модели. Однако ряд компетенций и сервисов предоставляются централизованно – например, мастер-данные, архитектура данных, безопасность.

Как построить сервис на больших данных

Данные сами по себе никому не интересны, и затраты на их хранение сложно обосновать. Поэтому управление данными подразумевает под собой в том числе формирование различных сервисов, которые могут принести пользу бизнесу.

«В Х5 внедрен доменно-ориентированный продуктовый подход: ценность из данных извлекают непосредственно бизнес-команды, усиленные компетенциями и экспертизой CDO. Тем не менее команда CDO/X5 Tech в целом оказывает и предоставляет бизнесу прежде всего платформенные сервисы, в части данных и аналитики. Это, например, DMP – платформа больших данных, CIP – сервис профиля клиента, X5ID – единый сервис авторизации».

Как управлять большими данными: роль баз данных и аналитики

Как сделать управление данными конкурентным преимуществом

Повысить ценность данных компании можно при помощи оптимизированного подхода к их сбору, неймингу, хранению и использованию. Все вместе это образует управление данными, или data management. В статье разбираемся, как и зачем внедрять этот подход в компанию.

Почему данными важно управлять

Если кто-то скажет, что почти три четверти данных в среднестатистической компании не используются, возможно, вы им не поверите. Но, как показывают исследования, это правда — до 73% компаний позволяют большей части своих данных тратиться впустую из-за плохого управления данными или его отсутствия.

Данные являются драйвером множества процессов внутри компаний и принятия решений на протяжении всего жизненного цикла разработки продукта. При этом нужно использовать качественные данные.

Эффективное управление данными — это то, что гарантирует чистоту и точность при переносе данных из CDP-платформы в сервис продуктовой аналитики.

Что такое СDP?

CDP (Сustomer data platform) — это база данных, в которой объединена информация о пользователях из разных источников и которую можно интегрировать с другими инструментами, например, сервисом продуктовой аналитики.

По мере того, как компании совершенствуют свои методы управления данными, они разрабатывают более продуманные рабочие процессы для передачи данных в инструмент продуктовой аналитики и обеспечения их доступности для заинтересованных сторон.

Эти рабочие процессы включают в себя исправление ошибок, предварительное планирование сбора данных и настройку процессов утверждения, чтобы гарантировать, что в инструмент аналитики импортируются только корректные данные.

Что такое управление данными?
В контексте продуктовой аналитики управление данными включает в себя следующие элементы:

Что такое управление данными (data management) в продуктовой аналитике

Давайте рассмотрим каждый из них подробнее:

  • Сбор: данные будут поступать из различных источников. Управление данными включает в себя обеспечение чистоты и полноты данных.
  • Исправление существующих ошибок: при работе с большими объемами данных ошибки почти неизбежны. Управление данными включает в себя оперативное исправление ошибок в названии, организации или сборе данных.
  • Предотвращение потенциальных ошибок: анализируя ошибки в существующих данных, можно определить повторяющиеся ошибки (например, ненужные события и свойства) и использовать эту информацию для их предотвращения.
  • Таксономия: таксономия — это руководство с принципами названия событий и свойств в аналитике. Команда продукта должна разработать таксономию для управления данными и рассматривать ее как живой, изменяющийся документ — то, к чему стоит возвращаться и обновлять по мере изменения потребностей и приоритетов управления данными.
  • Хранение: собранные данные важно где-то хранить. Популярные системы хранения, такие как платформы управления данными (DMP), CDP, озеро данных или хранилище данных, позволяют передавать данные в потоковом режиме в инструмент продуктовой аналитики для дальнейшего анализа.

Преимущества управления данными

Неправильно управляемые данные — это бесполезные данные, сколько бы их не было и где бы они не были собраны. Давайте разберем, как эффективное управление данными меняет это и делает данные полезными.

Может случиться так, что нескольким командам в компании потребуется доступ к одним и тем же показателям. Например, отделам по работе с клиентами и разработчикам продукта могут потребоваться данные о пути пользователя, чтобы определить, где он проводит больше всего времени или сталкивается с наибольшими трудностями. Эффективное управление данными обеспечит наличие единой версии этих данных для всех.

Стандартизированные данные помогают избежать распространенной на рынке проблемы, когда команды собирают огромные объемы данных, которые, однако, не способствуют развитию бизнеса.

Более половины компаний заявляют, что низкое качество данных является для них серьезной проблемой, которая может сказаться на всей организации. Например, плохо собранные или обслуживаемые данные о поведении пользователей усложняют разработку стратегии по их удержанию.

Недостаток поведенческих данных приводит к тому, что продуктовые команды не знают точно, где пользователи сталкиваются с проблемами, и не могут улучшить их опыт. Данные низкого качества также могут усугублять ситуацию, приводить к неверным выводам и решениям, что будет негативно сказываться на продукте и его метриках.

Один из самых больших рисков внедрения data-driven культуры — это создание разрозненных хранилищ данных.

Разрозненные данные возникают, когда важная информация известна или доступна только небольшому количеству людей в компании, а не всем сотрудникам, которым она может понадобиться.

Управление данными позволяет избежать разрозненности, предоставляя командам доступ ко всему спектру данных, необходимых им для работы, другими словами, оно ведет к демократизации данных.

Узнайте, как демократизация данных изменила отношение к аналитике
и продукту в Лиге Ставок

Лучшее понимание пользователей

Последнее преимущество управления данными заключается в том, что оно помогает продуктовым командам лучше понять, как пользователи взаимодействуют с продуктом.

Юзеры будут генерировать данные каждый раз при использовании продукта. Самым разным людям в компании (от продакт менеджеров и маркетологов до дизайнеров и программистов) потребуется доступ к этим данным, чтобы предложить гипотезы по улучшению продукта и измерить их эффект.

Передовые методы управления данными

Философия управления данными Amplitude заключается в доступности правильных данных для правильных людей в правильном месте.

Философия управления данными Amplitude

Давайте разберем подробнее, что это значит.

Наличие правильных данных означает создание удобной, точной и всеобъемлющей библиотеки данных. Данные удобны, если существующие сотрудники могут с их помощью отвечать на вопросы, а новые члены команды могут быстро разобраться и начать использовать аналитику. Данные точны, если они адекватно отражают системы учета.

Предоставление данных правильным людям имеет решающее значение для получения максимальной отдачи от аналитики. Компания должна найти золотую середину между демократизацией и безопасностью данных. Начните с создания команды по управлению данными, которая будет отвечать за их удобство, доступность и целостность. Наличие надежной таксономии данных жизненно важно для обеспечения доступности и использования информации в базе данных по мере ее расширения, поэтому у членов команды должен быть согласованный принцип нейминга в аналитике.

Наконец, для размещения данных в правильных местах требуется простая синхронизация между системами для анализа данных и системами для их записи.

Затем стоит инвестировать в инструменты, которые будут передавать данные остальной части компании, и научить сотрудников использовать их. Для этого отлично подходят планы отслеживания. План отслеживания — это схема, согласованная со всеми заинтересованными сторонами в области разработки продукта, в которой показано, какие данные необходимо отслеживать для наиболее эффективного улучшения процессов в работе. В последствии участники этого процесса сохраняют инсайты, полученную на основе аналитики, в централизованном документе. План отслеживания предотвращает образование разрозненных данных и удобен для передачи информации, полученной с помощью хорошо управляемых данных.

При подготовке материала использовались источники:
https://www.hocktraining.com/blog/sql-s-nulya-kak-upravlyat-bazoy-dannikh
https://cdo2day.ru/practice/kak-bolshie-kompanii-upravlyayut-bolshimi-dannymi/
https://amplitude.adventum.ru/blog/data-management-in-product-analytics