Энциклопедия маркетинга

В социальных сетях активно обсуждается новый технический документ Microsoft, опубликованный на сайте TechNet, по теме гибридной бизнес-аналитики с Power BI (http://social.technet.microsoft.com/wiki/contents/articles/13146.white-paper-gallery-for-sql-server.aspx#UsingPowerBIinaHybridEnvironment). В документе представлен превосходный технический обзор, который стоит прочитать всем, кто стремится изучить Power BI и найти оптимальные способы реализации приложения при наличии бизнес-аналитики, размещенной локально или в инфраструктуре как услуге (IaaS) Azure. Рассматриваются следующие темы:

  • архитектурные варианты гибридной BI;
  • шлюз управления данных;
  • рекомендуемые подходы для:

Интеграции мер безопасности;

Управления удостоверениями;

Сетевых подключений;

Помимо малых предприятий, которым доступны лишь размещенные в «облаке» решения, сегодня многие компании располагают сочетанием «облачных» и локальных источников данных. Только представьте, как много групп использует Salesforce.com, Google Analytics, Constant Contact и другие «облачные» приложения для подразделений. Как правило, эти группы используют API-интерфейсы или коннекторы, чтобы перемещать «облачные» данные в локальное хранилище данных для создания отчетов. В Microsoft Azure и Power BI эта концепция получила дальнейшее развитие.

В последние годы растет популярность концепции виртуализации данных. Чаще всего приходится обеспечивать прозрачное взаимодействие с Microsoft BI в Office 365 и существующих локальных порталах SharePoint или источниках данных.

Понимание того, как следует строить гибридную бизнес-аналитику, становится важным условием для овладения профессией. Однако до появления нового технического документа находить ответы и рекомендации было нелегко.

Безопасность в гибридном мире

После краткого знакомства с новым документом я заметил, что большое внимание уделяется сетевым подключениям и управлению удостоверениями. Освоить управление удостоверениями и безопасность Microsoft BI всегда было непросто, а в мире гибридной бизнес-аналитики эти вопросы даже более трудны.

Нельзя не признать, что установка и настройка BI-фермы SharePoint 2013 может быть сложнейшей задачей даже для талантливых администраторов. Обычно я советую тем, кто впервые собирается выполнить установку BI-фермы SharePoint 2013, сначала прочесть технический документ (technet.microsoft.com/en-us/library/dn186184.aspx) Кея Ульриха, чтобы лучше понять концепции безопасности SharePoint, безопасности Microsoft BI и делегирования Kerberos.

Управление безопасностью пользователей в Office 365 имеет много общего с управлением локальной безопасностью SharePoint. Существуют варианты федерации Active Directory (AD) с Office 365 и использования единого входа (SSO). Есть и другие альтернативы многофакторной проверке подлинности в случаях, когда требуются дополнительные уровни безопасности.

В сценариях бизнес-аналитики с размещением служб Analysis Services или Reporting Services на виртуальных машинах Microsoft, возможно, потребуется также настроить Azure AD, AD Federation Services (ADFS) и средства Azure Active Directory Sync для синхронизации паролей, пользователей и групп между локальным AD и Azure AD, поддерживающим экземпляр Office 365. В новом техническом документе Hybrid Business Intelligence with Power BI (social.technet.microsoft.com/wiki/contents/articles/13146.white-paper-gallery-for-sql-server.aspx#UsingPowerBIinaHybridEnvironment) подробно рассказывается об этих концепциях и приводятся ссылки на многие полезные ресурсы.

Шлюз управления данными для Power BI

Сегодня шлюз управления данными, похоже, является ключом к гибридной бизнес-аналитике с Office 365 Power BI. Шлюз управления данными - это клиентское приложение-агент, установленный на локальном сервере. Он копирует данные из внутренних источников данных в «облачный» формат источника данных Power BI.

Источники данных Power BI Office 365 - своего рода «облачный» остров данных, но со временем он будет развиваться. Функциональность Power BI Data Refresh, в сущности, обеспечивают рабочие книги Excel, которые развернуты на сайте Power BI и могут обновляться по единому расписанию из следующих источников данных:

  • локальный SQL Server (2005 и более новые версии);
  • локальный Oracle (10g и более новые версии);
  • база данных SQL Azure;
  • канал OData;
  • виртуальная машина Azure, работающая с SQL Server.

Теперь, если имеется подключение VPN и виртуальная сеть Azure, открывается гораздо больше потенциальных источников данных для Power BI. В этом случае доступ к источникам данных через соединения Power BI и выполняемые по расписанию обновления аналогичен соответствующим действиям с локальным инструментом Power Pivot. Единственное различие - похоже, по-прежнему требуется шлюз управления данными для доставки этих данных в Power BI. В разделе Power BI Data Refresh описываемого технического документа перечисляются поддерживаемые источники данных, расписания обновления данных и местоположения данных.

Отправляем отзыв в Microsoft

Мы только начинаем знакомиться с применением Microsoft BI и Power BI в «облачной» и гибридной среде. Пока лишь немногие группы используют Power BI и гибридную бизнес-аналитику. Я наблюдаю многочисленные изменения, которые непрерывно вносятся в Azure, и одновременно полное непонимание, особенно в вопросах «облачной» бизнес-аналитики Azure и Power BI с локальными источниками данных.

Если у вас есть технические вопросы к специалистам Microsoft, можно направить отзыв группам, которые проектируют эти ресурсы. Не надейтесь, что кто-то уже сформулировал эти требования. Если никто не задает вопросов и не жалуется, инженеры в Редмонде могут полностью упустить проблему из вида.

Чтобы создавать понятные отчеты и обновлять их в режиме реального времени современному бизнесу необходим мощный сервис для обработки информации. В комментариях к моим предыдущим читатели неоднократно просили написать мануал по работе с Microsoft Power BI. В этой статье я расскажу, как начать работу с данной платформой.

Кратко о возможностях Microsoft Power BI

Power BI — достаточно мощная и при этом бесплатная BI-платформа. Microsoft вкладывает много средств в развитие этого продукта, в связи с чем часто выходят обновления, расширяющие ее возможности. Вы можете использовать такие версии программы:

  • Power BI Desktop предназначен для разработки модели данных и отчетов;
  • Power BI Service — онлайн-аналог, который специализируется на мониторинге и анализе готовых отчетов, поэтому возможности конструирования и работы с данными там очень ограничены.

Как правило, декстопная версия используется в качестве конструктора, после чего разработанный файл публикуется в Power BI Service . Для дальнейшей работы скачайте Power BI Desktop по этой ссылке .

Для пользователей Microsoft Windows 10 есть отдельная версия Power BI Desktop, которую вы можете найти, перейдя по этой ссылке.

Откуда можно загружать данные?

Power BI имеет множество встроенных коннекторов к различным сервисам и базам данных, с помощью которых вы в считанные минуты можете загрузить в программу нужный набор данных из различных источников, связать их между собой и построить консолидированные отчеты и диаграммы. На момент написания статьи все доступные коннекторы распределены на четыре группы:

1. Группа «Файл»:

Как видите, в Power BI можно импортировать данные из наиболее известных баз данных и сервисов, используя различные форматы файлов. После загрузки информации из доступных источников в Power BI, перед вами открываются большие возможности по очистке и преобразованию данных, в связи с тем, что в платформе присутствует достаточно мощный ETL функционал. Загружаемые таблицы можно редактировать, а на основе их столбцов создавать расчетные столбцы и меры — таким образом вы можете преобразовать массивы информации в наборы данных со структурой, необходимой для построения визуализации.

Сформировав набор данных, загруженных из различных источников, вам станут доступны множество встроенных элементов визуализации:

  • линейчатая диаграмма с накоплением;
  • гистограмма с накоплением;
  • линейчатая диаграмма с группировкой;
  • гистограмма с группировкой;
  • нормированная линейчатая диаграмма;
  • нормированная гистограмма;
  • график;
  • диаграмма с областями;
  • диаграмма с областями с накоплением;
  • линейная гистограмма и гистограмма с накоплением;
  • линейная гистограмма и гистограмма с группировкой;
  • каскадная диаграмма;
  • точечная диаграмма;
  • круговая диаграмма;
  • диаграмма дерева;
  • карта;
  • таблица;
  • матрица;
  • заполненная карта;
  • воронка;
  • датчик;
  • многострочная карточка;
  • карточка;
  • ключевой показатель эффективности;
  • срез;
  • кольцевой график;
  • визуальный элемент r-script (на данный момент включается в параметрах программы).

Все элементы имеют достаточно широкий спектр настроек, направленных на изменение нужных параметров: цвет, фон, название, границы и так далее. Если вам будет недостаточно стандартного набора, можно загрузить пользовательские визуальные элементы.

Больше полезных советов по аналитике — в нашей рассылке. Просто заполните форму:

Отправить

Как загрузить данные в Power BI Desktop?

1. Установите связь с Google Analytics

1.1. Приступим непосредственно к загрузке информации из представления Google Analytics. На вкладке «Главная» в группе «Внешние данные» жмем на кнопку «Получить данные»

.
После чего в диалоговом окне «Получить данные» в группе «Другое» выбираем сервис «Google Analytics» и жмем «Подключить». 1.2. Далее Power BI запросит вход в аккаунт Google.

1.3. Последний шаг — предоставить разрешение на просмотр данных в нужном представлении Google Analytics. 1.4. После клика по кнопке «Разрешить» мы автоматически возвращаемся в окно «Учетная запись Google», где будет оповещение, что вы вошли в систему. Жмем на кнопку «Подключение».
В открывшимся окне «Навигатор» вы увидите список всех доступных аккаунтов, ресурсов и представлений Google Analytics.
В каждом представлении присутствует одинаковый набор параметров и показателей, распределенных на 28 групп:

  • Ad Exchange — информация об эффективности рекламы в Ad Exchange;
  • AdSense — информация об эффективности показов рекламы AdSense;
  • Adwords — информация об эффективности рекламных кампаний в Google Ads;
  • App traking — информация о взаимодействии с мобильным приложением;
  • Audience — демографическая информация о посетителях сайта;
  • Channel grouping — группы каналов трафика;
  • Content Experiments — информация о проводимых экспериментах;
  • Contetn Grouping — классификация контента сайта по группам;
  • Custom variables or colunms — пользовательские параметры и показатели;
  • Google Marketing Platform — информация о эффективности в Google Менеджере рекламы;
  • Ecommerce — данные электронной торговли;
  • Event tracking — информация о событиях;
  • Exceptions — исключения;
  • Geo network — геоданные посетителей;
  • Goal conversion — данные о достижении целей;
  • Internal Search — информация об использовании поиска на сайте;
  • Page Tracking — информация о страницах, которые просмотрели пользователи;
  • Platform or device — операционные системы и устройства пользователей;
  • Related product — связанные сервисы;
  • Session — информация о сеансах;
  • Site speed — скорость загрузки страниц;
  • Social activities — показатели активности в социальных сетях;
  • Social interaction — показатели взаимодействия трафика из социальных сетей;
  • System — информация о системных показателях посетителей;
  • Time — информация о времени совершения событий;
  • Traffic source — информация об источниках трафика;
  • User — информация о пользователях;
  • User timings — длительность сеанса.

В качестве примера давайте выберем следующие параметры: Channel grouping —> Default channel grouping; User —> User Type; Time —> Month of year. В качестве показателей возьмем: Session —> Sessions; Session —> Bounces; Session —> Session duration. Хочу заметить, что в Power BI, как и при любом API запросе в Google Analytics, существует ограничение на максимальное количество запрашиваемых параметров (не более семи) и показателей (не более десяти).

1.5. Для того, чтобы загрузить выбранные данные в модель данных Power BI, жмем кнопку «Загрузить», которая располагается в нижнем правом углу окна «Навигатор».
Теперь загруженный набор данных отображается в области полей, и мы можем строить на основе этой информации любой доступный визуальный элемент.

2. Как загрузить данные из MySQL?

Чтобы показать функциональность Power BI, я сгенерировал и загрузил в MySQL данные о продажах. Следуя описанным ниже инструкциям, можно подключать любые доступные базы данных и после соединять всю загруженную информацию в одну таблицу или график.

2.1. Для загрузки данных о продажах из MySQL, как в описанном примере, необходимо воспользоваться командой «Получить данные», которая находится на вкладке «Главная».
2.2. В диалоговом окне «Получить данные» в группе «База данных» выбираем пункт «База данных MySQL». 2.3. После клика по кнопке «Подключить» в окне «База данных MySQL» вводим IP сервера, имя базы данных и текст SQL-запроса. Если вы не знакомы с SQL и хотите просто выбрать некоторые таблицы из базы данных целиком, то вводить SQL-запрос не следует, на следующем шаге у вас будет возможность выбора таблицы. Поскольку я загрузил тестовые данные с локального ПК, то в поле «Сервер» вместо IP я укажу «localhost».
2.4. Далее вводим учетные данные для доступа в MySQL и жмем кнопку «Подключение».
2.5. На этом этапе подключение к MySQL серверу установлено. В случае, если вы ранее прописали SQL-скрипт, то результат его работы будет загружен в модель данных. Поскольку мы не указывали запрос, в левой части диалогового окна «Навигатор» появится список доступных таблиц из указанной ранее базы данных. В моем случае доступна всего одна одна таблица «sales», все остальные — системные, в связи с чем ставим галочку напротив названия таблицы продаж и жмем «Загрузить».
Теперь в модель данных Power BI загружены данные из двух источников: Google Analytics и MySQL.

3. Как упорядочить данные?

После того, как все необходимые данные загружены, необходимо привести их к нужному виду. Наиболее удобный способ редактирования данных — перейти в режим «Данные», с помощью одноименной команды, расположенной на левой панели рабочего окна Power BI. В режиме данных вы можете изменить тип данных, хранящихся в любом столбце, создавать новые столбцы и меры, используя возможности языка формул DAX, заменять значения хранящиеся в столбцах — в общем делать с данными все, что считаете нужным. В нашем случае следует изменить формат вывода поля «Sale» на денежный. В меню «Поля», которое в режиме «Данных» находится в правой части окна, выбираем нужный набор данных (в нашем случае «Данные из MySQL»), после чего кликаем на название столбца «Sales» и меняем формат данных, перейдя на вкладке «Моделирование» в группу «Форматирование».

4. Как установить связи между таблицами

Для того, чтобы строить визуализацию на основе данных из двух различных источников, необходимо настроить между ними связи. Power BI поддерживает три типа связей:

  • многие к одному;
  • один к одному;
  • один ко многим.

Единственный подходящий для загруженных таблиц тип связи — многие ко многим. Он создается через промежуточные таблицы (справочники) и средствами создания двух связей типа многие к одному и один ко многим. В нашем наборе данных существует три параметра, по которым необходимо настроить связи между таблицами «Default Channel Group», «YearMonth», «UserType». Соответственно необходимо создать три одноименных справочника, которые будут содержать список всех уникальных элементов каждой из перечисленных категорий. В качестве примера мы загрузим список уникальных элементов по каждому полю из CSV файлов.

  • channelGroup;
  • yearMonth;
  • userType.

4.1. Процесс загрузки CSV-файлов в Power BI так же прост, как и описанные раннее подключения к Google Analytics и MySQL: жмем кнопку «Получить данные», в группе «Файл» выбираем «CSV» и по очереди загружаем в модель данных три скачанных CSV-файла.

4.2. При загрузке таблиц «channelGroup» и «userType» необходимо указать, что первая строка — это заголовок столбца. Для этого перейдите в режим редактирования запроса, на вкладке «Преобразование» в выпадающем меню «Таблица» используйте команду «Использовать первую строку в качестве заголовка»:
Если на этом этапе вы все сделали правильно, модель данных будет состоять из пяти таблиц. Чтобы в этом убедиться, можно посмотреть в область полей либо перейти в режим визуального интерфейса просмотра модели данных (для этого кликните по иконке с изображением связей между таблицами на левой панели Power BI). Power BI самостоятельно определил некоторые связи, поэтому модель данных выглядит следующим образом.
4.3. Для дальнейшего создания всех связей нам необходимо изменить тип текущих связей на однонаправленные, в противном случае связи, которые мы планируем создать, будут неоднозначны и при их определении Power BI выдаст ошибку. Чтобы изменить тип связей необходимо дважды кликнуть по связи левой кнопкой мыши и в диалоговом окне «Изменение связи» поменять направление кроссфильтрации на однонаправленную.

Изменив направление кроссфильтрации связей, созданных автоматически, можно переходить к процессу создания остальных связей.

4.4. В Power BI существует два способа определения связей между таблицами: в визуальном режиме и с помощью диалогового окна «Управление связями». Чтобы создать связь в режиме визуализации модели данных, нужно перетащить с помощью мыши поле из одной таблицы в ту, с которой хотим создать связь. Давайте таким образом активируем связь по полю «Default channel group» в таблице «Данные из GA» с полем «Channel» в таблице «channel».
Как в предыдущих примерах, необходимо изменить направление кроссфильтрации на однонаправленную. Теперь модель данных выглядит следующим образом:
4.5. Оставшиеся связи мы будем создавать с помощью диалогового окна «Управление связями», для этого кликните на кнопку «Управление связями» на вкладке «Главная». Диалоговое окно «Управление связями» содержит все созданные ранее связи, для создания новых связей следует нажать на кнопку «Создать».

В окне создания связи необходимо указать таблицы и поля, по которым вы планируете настроить связь, а также указать кратность связи и направление кроссфильтрации.

4.6. Для создания связи между таблицей «Данные из GA» и «yearMonth» необходимо в окне создания связи установить следующие параметры.
Таким же образом нам надо связать таблицу «данные из MySQL» и «yearMonth».
Модель данных теперь выглядит следующим образом.
Как видите, таблицы «Данные из GA» и «Данные из MySQL» теперь связаны между собой через справочники и имеют друг к другу кратность связи многие ко многим.

5. Как построить визуализацию?

5.1. Чтобы создать визуализацию, вернемся в режим «Отчет», воспользовавшись одноименной кнопкой в меню, расположенном в левой части окна Power BI. 5.2. Далее построим диаграмму, на которой совместим данные из разных источников: из Google Analytics будут отображены данные о количестве сеансов, из MySQL — о количестве продаж.

5.2.1. В качестве элемента визуализации будем использовать вид «Линейная гистограмма и гистограмма с накоплением». 5.2.2. Перетягиваем поле «month» из таблицы «yearMonth» в область «Общая ось». 5.2.3 Перетягиваем поле «Session» из таблицы «Данные из GA» в область «Значения столбцов». 5.2.4. Перетягиваем поле «sales» из таблицы «Данные из MySQL» в область «Значения строк». В результате этих манипуляций в области отчетов будет построена диаграмма следующего вида.
Как видите, диаграмма сочетает в себе информацию о сеансах и продажах из двух разных источников.

5.3. Дополнительно можно воспользоваться опциями форматирования объектов визуализации, кликнув по иконке с кисточкой. В результате чего вы можете изменять цвета, размер, шрифт, фон и прочие параметры элемента визуализации.

6. Как настроить фильтры данных?

Для более удобной работы с фильтрами данных следует добавить на рабочий лист три среза.

6.1. Перетащите с помощью мыши в пустое место области отчетов следующие поля:


6.2. После чего по очереди выделите мышкой каждый из этих объектов и переключите в режим «Срез». В результате у нас получится лист с возможностью фильтрации данных по типу пользователя, источнику / каналу и месяцу года.
6.3. Если вам понадобится сменить аккаунт Google, к которому привязаны определенные представления Google Analytics, воспользуйтесь меню «Файл» —> «Параметры и настройки» —> «Настройки источника данных».
Далее вы можете менять параметры или удалять любой подключенный источник данных.
6.4. Поэкспериментируйте с элементами визуализации и выберите наиболее подходящие, (более подробно о правилах выбора диаграммы можно узнать из публикации «Как построить диаграмму и не облажаться»), после чего все диаграммы и таблицы обновляйте нажатием одной кнопки.
Перейдя по ссылке , вы можете скачать файл, приведенный в данной статье.

Как начать работу с Power BI Service?

Как я уже упоминал в начале статьи, помимо обычной стационарной версии, существует онлайн-сервис Power BI. Его функционал не такой обширный, но в целом для онлайн мониторинга основных показателей его вполне достаточно. Откройте Power BI Service перейдя по этой ссылке .

1. Как установить связь Power BI Service с Google Analitycs?

Чтобы открыть рабочую область, нажмите на кнопку с изображением меню. С помощью кнопки «Получение данных» начинаем процесс подключения к Google Analytics. Далее выбираем «Получить данные из веб-служб».
В списке доступных служб находим и выбираем Google Analytics.
Жмем кнопку «Подключится».
Для Google Analytics на данный момент существует только один способ проверки подлинности «oAuth», поэтому в диалоговом окне проверки подлинности ничего не изменяем и жмем «Войти».

Подтверждаем разрешение Power BI Service на просмотр данных Google Analytics.
1.3. Следующий шаг — выбор аккаунта, ресурса и представления Google Analytics.
После того, как вы нажмете «Импорт», в рабочей области автоматически будет сформирован набор данных, отчет и информационная панель.

2. Как работать с отчетами?

Также вы можете посмотреть все сформированные автоматически отчеты, для этого кликните в основном меню в области отчетов по пункту «Google Analytics».
2.1. Отчеты сгруппированы по страницам:

  • Site trafic;
  • System usage;
  • Total users;
  • Page performance;
  • Top pages.

2.1.1. Соответственно страница Site traffic содержит информацию о сеансах и хитах, а также о поведенческих показателях пользователей.

2.1.2. Страница System usage содержит информацию о геолокации, операционной системе и типе устройства пользователей.
2.1.3. На странице Total User вы найдете информацию о количестве посетителей.
2.1.4. На странице Page Performance содержится информация о скорости загрузки страниц.
2.1.5. Последняя страница Top Pages отображает информацию о количестве уникальных просмотров, а также о количестве входов и выходов с сайта в разрезе страниц.
2.2 Можно изменить любой элемент отчета либо добавить новую страницу, для этого достаточно кликнуть по кнопке «Изменить отчет».
В нижней части экрана отобразится кнопка добавления новых страниц в отчет.
2.3. Как вы могли заметить, в онлайн версии Power BI нет возможности выбора параметров и показателей при загрузке данных из Google Analytics, в связи с чем вы можете работать только со стандартным набором полей, который в свою очередь состоит из пяти таблиц:

2.3.1. Calculaions :

  • Avg.daily new users — среднедневное количество новых пользователей;
  • Avg. daily new users (weekday) — среднедневное количество пользователей в разрезе дней недели;
  • Avg. daily users — среднедневное количество пользователей;
  • Avg.daily users weekday — среднедневное количество пользователей в разрезе дней недели;
  • Avg. session duration (sec) — средняя длительность сеанса в секундах;
  • Bounces MoM — прирост количества отказов за последние 30 дней;
  • Hits MoM — прирост количества хитов за последние 30 дней;
  • New users MoM — прирост новых пользователей за последние 30 дней;
  • Session MoM — прирост объема сеансов за последние 30 дней.

2.3.2. Overwiev :

  • Avg. session duration — средняя длительность сеанса;
  • Bounces — количество отказов;
  • Browser — браузер пользователя;
  • Country — страна пользователя;
  • Date — дата сеанса;
  • DayOfMonth — день месяца, когда был совершен сеанс;
  • DayOfWeek — день недели, когда был совершен сеанс;
  • Device category — тип устройства;
  • Hits — количество хитов;
  • MonthName — название месяца;
  • MonthYear — месяц года;
  • Operating system — операционная система пользователя;
  • Page / sessions — среднее количество просмотренных страниц на сеанс;
  • Pageviws — общее количество просмотренных страниц;
  • Sessions — количество сеансов;
  • Year — год.

2.3.3. Page performance :

  • Date — дата;
  • DayOfMonth — день месяца;
  • DayOfWeek — день недели;
  • DomainLookupTime — время поиска домена;
  • MonthName — название месяца;
  • MonthYear — месяц года;
  • PageLoadTime — время загрузки страницы;
  • RedirectionTime — время редиректа;
  • Year — год.

2.3.4. Pages :

  • Date — дата;
  • DayOfMonth — день месяца;
  • DayOfWeek — день недели;
  • Entrances — количество заходов;
  • Exits — количество выходов;
  • MonthName — название месяца;
  • MonthYear — месяц года;
  • Page — url страницы;
  • PageTitle — название страницы;
  • Pageviews — количество просмотров страницы;
  • TimeOnPage(sec) — общее время, проведенное на странице в секундах;
  • Unique pageviews — количество уникальных просмотров страниц;
  • Year — год.

2.3.5. User :

  • Date — дата;
  • DayOfMonth — день месяца;
  • DayOfWeek — день недели;
  • DaysFromToday — количество дней с сегодняшнего дня;
  • MonthName — название месяца;
  • MonthYear — месяц года;
  • New users — количество новых пользователей;
  • Users — количество пользователей;
  • Year — год.

Эти пять таблиц, загруженные из Google Analytics, не связаны между собой, так как в онлайн версии Power BI у вас нет возможности создавать связи. Но в Power BI Service можно публиковать файлы, разработанные в Power BI Desktop файлов.

Для этого достаточно быть зарегистрированным пользователем данной службы и нажать кнопку «Опубликовать». После чего начинается процесс публикации файла в службе Power BI.
Если вы все сделали правильно, то получите сообщение, что файл был успешно опубликован, и вы можете запустить автоматический анализ данных. Power BI Service выведет на экран найденные в данных закономерности.
В опубликованном файле при этом будут сохранены все существующие между таблицами связи.

Заключение

Сегодня я рассказал:

  1. Как загрузить в программу нужный набор данных (я показал как это делать на примере интеграции с Google Analytics или загрузки данных из MySQL).
  2. Как упорядочить данные, чтобы привести их к нужному для визуализации виду.
  3. Как построить отчет, где будут отображаться данные из разных источников.
  4. Как настроить фильтры данных, выбрать подходящие элементы визуализации и опубликовать результат для просмотра в онлайн-версии Power BI.

Power BI — мощный и многофункциональный инструмент, поэтому достаточно тяжело описать весь его функционал в рамках одной статьи. Ответы на базовые вопросы по работе с Power BI можно узнать из официального мануала, который вы можете найти по этой ссылке. На остальные — с радостью отвечу в комментариях.

Потребность в аналитике больших объемов данных, с целью аудита, выявления проблем и генерации новых знаний, высока в любой связанной с ИТ области.

Направление информационной безопасности не исключение. Для сбора и корреляции разнокачественных источников данных принято использовать системы класса SIEM (Security information and event management). При этом для оперативного решения задач, встающих перед службой информационной безопасности, хорошо подходят и системы бизнес аналитики (Business Intelligence).

Power Pivot / Power View

Надстройки позволяют обрабатывать и визуализировать большие объемы данных из нескольких источников. В общих чертах работа с надстройками сводится к следующим этапам:

  1. Исходя из задачи определить источники информации
  2. Загрузить данные в Power Pivot
  3. Провести дополнительную обработку данных и связать таблицы между собой (создать модель данных)
  4. Вывести на PowerView интересующие графики и отчеты

Пример: Аудит web сервиса

В компании есть web сервис, с помощью которого внешние пользователи регистрируются на прием и подают заявления. Количество ресурсов (время приема) ограниченно, кто не успел - ждет следующей недели, значит - возможны злоупотребления. Межсетевые экраны фиксируют атаки на сервис, больше всего в момент открытия регистрации на прием.

Требуется провести аудит, чтобы понять нагрузку на сервис, кто из пользователей и организаций наиболее активен, как пользователи связаны с атаками, есть ли аномалии в работе сервиса.

Исходные данные: логи web сервера, БД web приложения, БД web aplication firewall

Объединяя исходные данные на одном листе PowerView получаем удобный инструмент аналитики. Ответы на перечисленные вопросы становятся буквально "видны". Кроме того, становятся доступны новые знания, например были выявлены взаимосвязи пользователей между собой (по почте, IP адресам) что позволило лучше понять происходящие процессы и пресечь злоупотребления.

Power BI

С 2016 у Microsoft появился отдельный продукт, позиционирующийся как сервис бизнес аналитики. Power BI базируется на тех же компонентах и логике что и Power Pivot, но является отдельным приложением, а не надстройкой к Excel. Возможностей по аналитике значительно больше, есть дополнительные плагины, в том числе для визуализации связей . Так же доступен хороший учебный курс .

Пример: Аудит подключений пользователей

В компании есть терминальные сервера, к которым подключаются внешние пользователи. Требуется провести аудит активности внешних пользователей на терминальных серверах, а так же внутренних пользователей на контроллерах домена, выявить подозрительную активность, в том числе по неудачным подключениям.


Исходные данные: Windows event logs с серверов, каталоги Active Directory, таблицы Microsoft security events description.

Помимо общей статистики, о том какие пользователи и организации работают больше всего или в какое время на сервера идет наибольшая нагрузка по результатам аудита были выявлены такие инциденты:

  1. Использование учетных записей пользователей с нескольких узлов, в том числе одновременно, что означало компрометацию учетной записи;
  2. Активности в нерабочее время, когда пользователь не мог быть на своем рабочем месте;
  3. Брутфорс пароля. На сервере фиксировались события неправильного ввода пароля пользователем, но блокировки учетной записи не происходило, т.к. между попытками ввода пароля проходило достаточно много времени чтобы сбрасывался счетчик неудачных попыток авторизации. Учитывая, что в день таких событий по одному пользователю было более 30 предположение о том, что это человеческий фактор, было исключено.

Резюме

Если Power Pivot стал для меня скорее вынужденным инструментом для решения конкретных задач то Power BI это настоящее открытие, дающее весьма широкие возможности для оперативного анализа всего и вся. Недостатком Power BI является то, что он не SIEM и не умеет осуществлять сложных корреляций и слать оповещения. Но как инструмент для получения новых знаний и проведения периодических аудитов Power BI подходит отлично.

Преимуществом визуального анализа является то, что в процессе анализа часто выявляются знания, о которых ранее было ничего не известно. Появляются ответы на вопросы, которые не задавались, но не потому, что не важны, а потому что предвидеть все не возможно.

А какие инструменты для анализа данных используете вы? Какие нестандартные источники данных при визуальном анализе дают полезные службе ИБ результаты?

Алексей Селезнёв Head of Analytics Dept. , Netpeak™

Для пользователей Microsoft Windows 10 есть отдельная версия Power BI Desktop, которую вы можете найти, перейдя по этой ссылке.

Откуда можно загружать данные?

Power BI имеет множество встроенных коннекторов к различным сервисам и базам данных, с помощь которых вы в считанные минуты можете загрузить в программу нужный набор данных из различных источников, связать их между собой и построить консолидированные отчеты и диаграммы. На момент написания статьи все доступные коннекторы распределены на четыре группы: 1. Группа «Файл»:

Как видите, в Power BI можно импортировать данные из наиболее известных баз данных и сервисов, используя различные форматы файлов. После загрузки информации из доступных источников в Power BI, перед вами открываются большие возможности по очистке и преобразованию данных, в связи с тем, что в платформе присутствует достаточно мощный ETL функционал. Загружаемые таблицы можно редактировать, а на основе их столбцов создавать расчетные столбцы и меры - таким образом вы можете преобразовать массивы информации в наборы данных со структурой, необходимой для построения визуализации.

Какие визуализации можно построить?

Сформировав набор данных, загруженных из различных источников, вам станут доступны множество встроенных элементов визуализации:

  • линейчатая диаграмма с накопление;
  • гистограмма с накоплением;
  • линейчатая диаграмма с группировкой;
  • гистограмма с группировкой;
  • нормированная линейчатая диаграмма;
  • нормированная гистограмма;
  • график;
  • диаграмма с областями;
  • диаграмма с областями с накоплением;
  • линейная гистограмма и гистограмма с накоплением;
  • линейная гистограмма и гистограмма с группировкой;
  • каскадная диаграмма;
  • точечная диаграмма;
  • круговая диаграмма;
  • диаграмма дерева;
  • карта;
  • таблица;
  • матрица;
  • заполненная карта;
  • воронка;
  • датчик;
  • многострочная карточка;
  • карточка;
  • ключевой показатель эффективности;
  • срез;
  • кольцевой график;
  • визуальный элемент r-script (на данный момент включается в параметрах программы).

Все элементы имеют достаточно широкий спектр настроек, направленных на изменение нужных параметров: цвет, фон, название, границы и так далее. Если вам будет недостаточно стандартного набора, можно загрузить пользовательские визуальные элементы.

Как загрузить данные в Power BI Desktop?

1. Установите связь с Google Analytics

1.1. Приступим непосредственно к загрузке информации из представления Google Analytics. На вкладке «Главная» в группе «Внешние данные» жмем на кнопку «Получить данные».

После чего в диалоговом окне «Получить данные» в группе «Другое» выбираем сервис «Google Analytics» и жмем «Подключить».

1.3. Последний шаг - предоставить разрешение на просмотр данных в нужном представлении Google Analytics.

1.4. После клика по кнопке «Разрешить» мы автоматически возвращаемся в окно «Учетная запись Google», где будет оповещение, что вы вошли в систему. Жмем на кнопку «Подключение».

В открывшимся окне «Навигатор» вы увидите список всех доступных аккаунтов, ресурсов и представлений Google Analytics.

В каждом представлении присутствует одинаковый набор параметров и показателей, распределенных на 28 групп:

  • Ad Exchange - информация об эффективности рекламы в Ad Exchange;
  • AdSense - информация об эффективности показов рекламы AdSense;
  • AdWords - информация об эффективности рекламных кампаний в AdWords;
  • App traking - информация о взаимодействии с мобильным приложением;
  • Audience - демографическая информация о посетителях сайта;
  • Channel grouping - группы каналов трафика;
  • Content Experiments - информация о проводимых экспериментах;
  • Contetn Grouping - классификация контента сайта по группам;
  • Custom variables or colunms - пользовательские параметры и показатели;
  • DoubleClick Campaign Manager - информация о эффективности рекламы в DoubleClick;
  • Ecommerce - данные электронной торговли;
  • Event tracking - информация о событиях;
  • Exceptions - исключения;
  • Geo network - геоданные посетителей;
  • Goal conversion - данные о достижении целей;
  • Internal Search - информация об использовании поиска на сайте;
  • Page Tracking - информация о страницах, которые просмотрели пользователи;
  • Platform or device - операционные системы и устройства пользователей;
  • Related product - связанные сервисы;
  • Session - информация о сеансах;
  • Site speed - скорость загрузки страниц;
  • Social activities - показатели активности в социальных сетях;
  • Social interaction - показатели взаимодействия трафика из социальных сетей;
  • System - информация о системных показателях посетителей;
  • Time - информация о времени совершения событий;
  • Traffic source - информация об источниках трафика;
  • User - информация о пользователях;
  • User timings - длительность сеанса.

В качестве примера давайте выберем следующие параметры: Channel grouping -> Default channel grouping; User -> User Type; Time -> Month of year. В качестве показателей возьмем: Session -> Sessions; Session -> Bounces; Session -> Session duration. Хочу заметить, что в Power BI, как и при любом API запросе в Google Analytics, существует ограничение на максимальное количество запрашиваемых параметров (не более семи) и показателей (не более десяти).

1.5. Для того, чтобы загрузить выбранные данные в модель данных Power BI, жмем кнопку «Загрузить», которая располагается в нижнем правом углу окна «Навигатор».

Теперь загруженный набор данных отображается в области полей, и мы можем строить на основе этой информации любой доступный визуальный элемент.

2. Как загрузить данные из MySQL?

Чтобы показать функциональность Power BI, я сгенерировал и загрузил в MySQL данные о продажах. Следуя описанным ниже инструкциям, можно подключать любые доступные базы данных и после соединять всю загруженную информацию в одну таблицу или график.

2.1. Для загрузки данных о продажах из MySQL, как в описанном примере, необходимо воспользоваться командой «Получить данные», которая находится на вкладке «Главная».

2.2. В диалоговом окне «Получить данные» в группе «База данных» выбираем пункт «База данных MySQL».

2.3. После клика по кнопке «Подключить» в окне «База данных MySQL» вводим IP сервера, имя базы данных и текст SQL запроса. Если вы не знакомы с SQL и хотите просто выбрать некоторые таблицы из базы данных целиком, то вводить SQL запрос не следует, на следующем шаге у вас будет возможность выбора таблицы. Поскольку я загрузил тестовые данные с локального ПК, то в поле «Сервер» вместо IP я укажу «localhost».

2.5. На этом этапе подключение к MySQL серверу установлено. В случае, если вы ранее прописали SQL скрипт, то результат его работы будет загружен в модель данных. Поскольку мы не указывали запрос, в левой части диалогового окна «Навигатор» появится список доступных таблиц из указанной ранее базы данных. В моем случае доступна всего одна одна таблица «sales», все остальные - системные, в связи с чем ставим галочку напротив названия таблицы продаж и жмем «Загрузить».

Теперь в модель данных Power BI загружены данные из двух источников: Google Analytics и MySQL.

3. Как упорядочить данные?

После того, как все необходимые данные загружены, необходимо привести их к нужному виду. Наиболее удобный способ редактирования данных - перейти в режим «Данные», с помощью одноименной команды, расположенной на левой панели рабочего окна Power BI.

В режиме данных вы можете изменить тип данных, хранящихся в любом столбце, создавать новые столбцы и меры, используя возможности языка формул DAX, заменять значения хранящиеся в столбцах - в общем делать с данными все, что считаете нужным. В нашем случае следует изменить формат вывода поля «Sale» на денежный. В меню «Поля», которое в режиме «Данных» находится в правой части окна, выбираем нужный набор данных (в нашем случае «Данные из MySQL»), после чего кликаем на название столбца «Sales» и меняем формат данных, перейдя на вкладке «Моделирование» в группу «Форматирование».

4. Как установить связи между таблицами

Для того, чтобы строить визуализацию на основе данных из двух различных источников необходимо настроить между ними связи. Power BI поддерживает три типа связей:

  • многие к одному;
  • один к одному;
  • один ко многим.

Единственный подходящий для загруженных таблиц тип связи - многие ко многим. Он создается через промежуточные таблицы (справочники) и средствами создания двух связей типа многие к одному и один ко многим. В нашем наборе данных существует три параметра, по которым необходимо настроить связи между таблицами «Default Channel Group», «YearMonth», «UserType». Соответственно необходимо создать три одноименных справочника, которые будут содержать список всех уникальных элементов каждой из перечисленных категорий. В качестве примера мы загрузим список уникальных элементов по каждому полю из CSV файлов.

  • channelGroup;
  • yearMonth;
  • userType.

4.1. Процесс загрузки CSV файлов в Power BI так же прост, как и описанные раннее подключения к Google Analytics и MySQL: жмем кнопку «Получить данные», в группе «Файл» выбираем «CSV» и по очереди загружаем в модель данных три скачанных CSV файла.

4.2. При загрузке таблиц «channelGroup» и «userType» необходимо указать, что первая строка является заголовком столбца. Для этого перейдите в режим редактирования запроса, на вкладке «Преобразование» в выпадающем меню «Таблица» используйте команду «Использовать первую строку в качестве заголовка»:

Если на этом этапе вы все сделали правильно, модель данных будет состоять из пяти таблиц. Чтобы в этом убедиться, можно посмотреть в область полей либо перейти в режим визуального интерфейса просмотра модели данных (для этого кликните по иконке с изображением связей между таблицами на левой панели Power BI).

Power BI самостоятельно определил некоторые связи, поэтому модель данных выглядит следующим образом.

4.3. Для дальнейшего создания всех связей нам необходимо изменить тип текущих связей на однонаправленные, в противном случае связи, которые мы планируем создать, будут неоднозначны и при их определении Power BI выдаст ошибку. Чтобы изменить тип связей необходимо дважды кликнуть по связи левой кнопкой мыши и в диалоговом окне «Изменение связи» поменять направление кроссфильтрации на однонаправленную.

Изменив направление кроссфильтрации связей, созданных автоматически, можно переходить к процессу создания остальных связей.

4.4. В Power BI существует два способа определения связей между таблицами: в визуальном режиме и с помощью диалогового окна «Управление связями». Чтобы создать связь в режиме визуализации модели данных, нужно перетащить с помощью мыши поле из одной таблицы в ту, с которой хотим создать связь. Давайте таким образом активируем связь по полю «Default channel group» в таблице «Данные из GA» с полем «Channel» в таблице «channel».

Как в предыдущих примерах, необходимо изменить направление кроссфильтрации на однонаправленную. Теперь модель данных выглядит следующим образом:

4.5. Оставшиеся связи мы будем создавать с помощью диалогового окна «Управление связями», для этого кликните на кнопку «Управление связями» на вкладке «Главная».

Диалоговое окно «Управление связями» содержит все созданные ранее связи, для создания новых связей следует нажать на кнопку «Создать».

В окне создания связи необходимо указать таблицы и поля, по которым вы планируете настроить связь, а так же указать кратность связи и направление кроссфильтрации.

4.6. Для создания связи между таблицей «данные из GA» и «yearMonth» необходимо в окне создания связи установить следующие параметры.

Таким же образом нам надо связать таблицу «данные из MySQL» и «yearMonth».

Модель данных теперь выглядит следующим образом.

Как видите, таблицы «Данные из GA» и «Данные из MySQL» теперь связаны между собой через справочники и имеют друг к другу кратность связи многие ко многим.

5. Как построить визуализацию?

5.1. Чтобы создать визуализацию, вернемся в режим «Отчет», воспользовавшись одноименной кнопкой в меню, расположенном в левой части окна Power BI.

5.2.1. В качестве элемента визуализации будем использовать вид «Линейная гистограмма и гистограмма с накоплением».

5.2.2. Перетягиваем поле «month» из таблицы «yearMonth» в область «Общая ось».

5.2.3 Перетягиваем поле «Session» из таблицы «Данные из GA» в область «Значения столбцов».

5.2.4. Перетягиваем поле «sales» из таблицы «Данные из MySQL» в область «Значения строк».

В результате этих манипуляций в области отчетов будет построена диаграмма следующего вида.

Как видите, диаграмма сочетает в себе информацию о сеансах и продажах из двух разных источников.

5.3. Дополнительно можно воспользоваться опциями форматирования объектов визуализации, кликнув по иконке с кисточкой.

В результате чего вы можете изменять цвета, размер, шрифт, фон и прочие параметры элемента визуализации.

6. Как настроить фильтры данных?

Для более удобной работы с фильтрами данных следует добавить на рабочий лист три среза. 6.1. Перетащите с помощью мыши в пустое место области отчетов следующие поля:


6.2. После чего по очереди выделите мышкой каждый из этих объектов и переключите в режим «Срез».

В результате у нас получится лист с возможностью фильтрации данных по типу пользователя, источнику / каналу и месяцу года.

6.3. Если вам понадобится сменить аккаунт Google, к которому привязаны определенные представления Google Analytics, воспользуйтесь меню «Файл» -> «Параметры и настройки» -> «Настройки источника данных».

6.4. Поэкспериментируйте с элементами визуализации и выберите наиболее подходящие, (более подробно о правилах выбора диаграммы можно узнать из публикации «Как построить диаграмму и не облажаться»), после чего все диаграммы и таблицы обновляйте нажатием одной кнопки.

1. Как установить связь Power BI Service с Google Analitycs?

Чтобы открыть рабочую область, нажмите на кнопку с изображением меню. С помощью кнопки «Получение данных» начинаем процесс подключения к Google Analytics.

В списке доступных служб находим и выбираем Google Analytics.

Жмем кнопку «Подключится».

Для Google Analytics на данный момент существует только один способ проверки подлинности «oAuth», поэтому в диалоговом окне проверки подлинности ничего не изменяем и жмем «Войти».

1.2. Выбираем нужный нам Google аккаунт.

Подтверждаем разрешение Power BI Service на просмотр данных Google Analytics.

1.3. Следующий шаг - выбор аккаунта, ресурса и представления Google Analytics.

После того, как вы нажмете «Импорт», в рабочей области автоматически будет сформирован набор данных, отчет и информационная панель.

2. Как работать с отчетами?

Также вы можете посмотреть все сформированные автоматически отчеты, для этого кликните в основном меню в области отчетов по пункту «Google Analytics».

2.1. Отчеты сгруппированы по страницам:

  • Site trafic;
  • System usage;
  • Total users;
  • Page performance;
  • Top pages.

2.1.1. Соответственно страница Site traffic содержит информацию о сеансах и хитах, а также о поведенческих показателях пользователей.

2.1.2. Страница System usage содержит информацию о геолокации, операционной системе и типе устройства пользователей.

2.1.3. На странице Total User вы найдете информацию о количестве посетителей.

2.1.4. На странице Page Performance содержится информация о скорости загрузки страниц.

2.1.5. Последняя страница Top Pages отображает информацию о количестве уникальных просмотров, а также о количестве входов и выходов с сайта в разрезе страниц.

2.2 Можно изменить любой элемент отчета либо добавить новую страницу, для этого достаточно кликнуть по кнопке «Изменить отчет».

В нижней части экрана отобразится кнопка добавления новых страниц в отчет.

2.3. Как вы могли заметить, в онлайн версии Power BI нет возможности выбора параметров и показателей при загрузке данных из Google Analytics, в связи с чем вы можете работать только со стандартным набором полей, который в свою очередь состоит из пяти таблиц:

2.3.1. Calculaions :

  • Avg.daily new users - среднедневное количество новых пользователей;
  • Avg. daily new users (weekday) - среднедневное количество пользователей в разрезе дней недели;
  • Avg. daily users - среднедневное количество пользователей;
  • Avg.daily users weekday - среднедневное количество пользователей в разрезе дней недели;
  • Avg. session duration (sec) - средняя длительность сеанса в секундах;
  • Bounces MoM - прирост количества отказов за последние 30 дней;
  • Hits MoM - прирост количества хитов за последние 30 дней;
  • New users MoM - прирост новых пользователей за последние 30 дней;
  • Session MoM - прирост объема сеансов за последние 30 дней.

2.3.2. Overwiev :

  • Avg. session duration - средняя длительность сеанса;
  • Bounces - количество отказов;
  • Browser - браузер пользователя;
  • Country - страна пользователя;
  • Date - дата сеанса;
  • DayOfMonth - день месяца, когда был совершен сеанс;
  • DayOfWeek - день недели, когда был совершен сеанс;
  • Device category - тип устройства;
  • Hits - количество хитов;
  • MonthName - название месяца;
  • MonthYear - месяц года;
  • Operating system - операционная система пользователя;
  • Page / sessions - среднее количество просмотренных страниц на сеанс;
  • Pageviws - общее количество просмотренных страниц;
  • Sessions - количество сеансов;
  • Year - год.

2.3.3. Page performance :

  • Date - дата;
  • DayOfMonth - день месяца;
  • DayOfWeek - день недели;
  • DomainLookupTime - время поиска домена;
  • MonthName - название месяца;
  • MonthYear - месяц года;
  • PageLoadTime - время загрузки страницы;
  • RedirectionTime - время редиректа;
  • Year - год.

2.3.4. Pages :

  • Date - дата;
  • DayOfMonth - день месяца;
  • DayOfWeek - день недели;
  • Entrances - количество заходов;
  • Exits - количество выходов;
  • MonthName - название месяца;
  • MonthYear - месяц года;
  • Page - url страницы;
  • PageTitle - название страницы;
  • Pageviews - количество просмотров страницы;
  • TimeOnPage(sec) - общее время, проведенное на странице в секундах;
  • Unique pageviews - количество уникальных просмотров страниц;
  • Year - год.

2.3.5. User :

  • Date - дата;
  • DayOfMonth - день месяца;
  • DayOfWeek - день недели;
  • DaysFromToday - количество дней с сегодняшнего дня;
  • MonthName - название месяца;
  • MonthYear - месяц года;
  • New users - количество новых пользователей;
  • Users - количество пользователей;
  • Year - год.

Эти пять таблиц, загруженные из Google Analytics, не связаны между собой, так как в онлайн версии Power BI у вас нет возможности создавать связи. Но в Power BI Service можно публиковать файлы, разработанные в Power BI Desktop файлов.

3. Как опубликовать информацию с Power BI Desktop?

Для этого достаточно быть зарегистрированным пользователем данной службы и нажать кнопку «Опубликовать».

После чего начинается процесс публикации файла в службе Power BI.

Если вы все сделали правильно, то получите сообщение, что файл был успешно опубликован, и вы можете запустить автоматический анализ данных. Power BI Service выведет на экран найденные в данных закономерности.

4. Как создавать информационные панели?

4.1. Вы можете создавать новые информационные панели и добавлять на них любой элемент отчета, кликнув по кнопке закрепить.

Заключение

Сегодня я рассказал:

  1. Как загрузить в программу нужный набор данных (я показал как это делать на примере интеграции с Google Analytics или загрузки данных из MySQL).
  2. Как упорядочить данные, чтобы привести их к нужному для визуализации виду.
  3. Как построить отчет, где будут отображаться данные из разных источников.
  4. Как настроить фильтры данных, выбрать подходящие элементы визуализации и опубликовать результат для просмотра в онлайн-версии Power BI.

Power BI - мощный и многофункциональный инструмент, поэтому достаточно тяжело описать весь его функционал в рамках одной статьи. Ответы на базовые вопросы по работе с Power BI можно узнать из официального мануала, который вы можете найти по этой ссылке. На остальные - с радостью отвечу в комментариях.

Знание основ и их однозначная трактовка облегчает понимание нового материала и позволяет нам разговаривать на одном языке. Нам важны оба аспекта, поэтому, учитывая многочисленные вопросы пользователей, которые начали к нам поступать при освоении Power BI в начале работы, мы сделали шаг назад (чтобы потом прыгнуть на два вперёд) и подготовили маленькую, но весьма полезную серию статей по основным понятиям программы. Наборы данных и их обновления, отчёты и панели мониторинга, плитки и визуализации, из чего состоят все эти блоки, какие из них входят в другие, можно ли (и как) создать отчёт, основанный на нескольких наборах данных одновременно – всё это и многое другое мы раскладываем по полочкам. Дальше будет легче. В первой части мы расскажем вам всё о данных, во второй – всё о стандартных блоках Power BI. Итак, данные и как их готовить.

Источники и наборы данных

Мы уже писали про данные (например, про ), но, видимо, не достаточно ёмко и не всегда просто, раз у вас возникают вопросы. Этот раздел расставит все точки над i.

Следует изначально разделить связанные, но абсолютно разные понятия, которые иногда смешивают (забегая чуть вперёд – да, частично они пересекаются): «источник данных » и «набор данных «.

Источник данных – это только конечный путь к информации, с которой вы хотите работать. Путь к файлу на жёстком диске, URL-ссылка на фейсбук или место хранение базы данных в облаке – всё это путь и всё это – источник данных.

А набор данных – это, в свою очередь, совокупность и источника данных, и самих данных (в ряде случаев, при необходимости, ПО копирует данные, а не просто на них ссылается), и учётных записей, которые позволяют подключится Power BI к этим источникам данных. Т.е. каждый раз, когда вы подключаетесь к данным (статическим или динамическим) или импортируете их, Power BI автоматически создаёт набор данных. Которые затем, как правило, используются при создании отчётов и визуализаций.

Подключение к некоторым источникам данных иногда требует расширенных функций запросов и моделирования Excel или установленного приложения Power BI Desktop. В конце этот статьи мы кратко перечислим те возможности, которые предоставляет Power BI Desktop в разрезе подключения к данным.

Перед тем, как перейти непосредственно к разбору типов данных, которые можно загружать в Power BI, хочется обратить Ваше внимание на то общее, что есть у этих типов или, если точнее, – какими характеристиками должны обладать ваши источники для того, чтобы с ними можно было работать в Power BI. И вот основное, что нужно об этом знать:

Формат данных

Формат данных, естественно, должен поддерживаться Power BI. Обычно с этим проблем не возникает, однако, некоторые типы данных уже готовы к работе с Power BI, а какие-то придётся «подготовить». Так, например, при создании наборов данных из таких источников как Google Analytics или Twilio – никаких сложностей с синхронизацией не возникает. Аналогично и просто загружаются данные и из облачных баз данных типа SQL Azure. Они полностью готовы к работе. Наслаждайтесь.

Но в отдельных случаях прямое импортирование данных невозможно. В частности, – при попытке подключиться к данным, которые расположены на серверах Вашей компании (данные с закрытым доступом) или при попытках загрузить простой TXT-файл. В такой ситуации необходимо:

  1. Извлечь эти данные;
  2. Воспользоваться всеми любимым Excel или Power BI Desktop для первоначальной загрузки данных;
  3. Сохранить полученные данные в виде файла;
  4. Импортировать файл в Power BI.
  5. Profit!

Обновления данных

Хотите всегда иметь актуальную информацию? Наверняка хотите и Power BI может предоставить Вам такую возможность. Используя сведения о подключении (которые, как мы уже говорили, входят в набор данных наряду с указанием источника данных), Power BI подключается к нужным данным, проверяет их на наличие изменений, обновляет свой набор данных а, заодно, и всё связанное с этим набором (отчёты, визуализации и т.д.).

В ближайшем будущем мы обязательно подробно рассмотрим тему обновления данных отдельно, потому как об этом можно и нужно рассказывать много и долго, а в рамках этой статьи мы коснёмся только самого важного: как часто обновляются данные и что для этого нужно сделать?

Частота обновления зависит от типа обновляемых данных, но, например, для некоторых облачных хранилищ данных (таких, как файлы службы OneDrive) Power BI проверяет источник примерно раз в час. Однако стоит помнить, что сами пакеты того же OneDrive обновляются примерно раз в сутки. И, конечно, вы можете настроить время обновлений по своему желанию (если оно поддерживается набором данных) или обновить отчёт по только что изменённому файлу в любой момент времени вручную.

Ответ на вопрос «что нужно для обновлений» также зависит от типа данных. Иногда для этого ничего не требуется, а иногда вам придётся воспользоваться персональным шлюзом Power BI Gateway. Это такой мост безопасной передачи данных, который, например, понадобится для обновления табличных данных Excel, расположенных на локальном диске. Или для настройки обновлений. Подробнее о шлюзе мы также расскажем в статье про обновления данных. Или обратитесь к профессионалам , если не можете ждать.

Типы данных

Итак, мы подошли к самому интересному, к типам данных, с которыми «дружит» Power BI. Для Вашего удобства мы объединили их в группы – это файлы, пакеты содержимого и базы данных .

Если Вы расстроены малым количеством типов данных, к которым можно подключиться через Power BI непосредственно, ещё раз обращаем Ваше внимание на то, что используя Power BI Desktop, Вы получаете около полусотни новых возможностей. Просто это потребует чуть больше дополнительных действий. И, возможно, помощь специалиста.

Чтобы разом охватить максимальное количество данных, к которым вы можете получить доступ и не ограничиваться одним лишь Power BI, мы также расскажем о том, к чему можно получить доступ используя Power Bi Desktop. В нём загрузка данных разделена на категории «Файл», «База данных», «Azure» и «Другие».

Файлы

Некоторые файлы загружаются в Power BI без проблем (например, Excel таблицы или PBI-файлы), некоторые (обычные.txt или таблицы.xml) – нужно сначала преобразовывать (мы писали об этом чуть выше).

Базы данных

Power BI может подключаться как к локальным базам данных, так и к тем, что находятся в облаке. При этом подключения к облачным хранилищам являются динамическими, т.е. каждый раз, когда вы, например, создаёте визуализацию в отчёте, Power BI формирует запрос к набору данных. Для подключения к локальным базам данных необходим корпоративный шлюз Power BI. Для его настройки нужно обратиться к своему администратору (IT службе). Или, опять же, к профессионалам .

В настоящий момент Power BI Desktop предоставляет возможность подключениям к следующим базам данных: SQL Server, Access, SQL Server Analysis Services, Oracle, IBM DB2, MySQL, PostgreSQL, Sybase, Teradata и SAP HANA.

Пакеты содержимого

Пакет – это удобно. В пакете есть всё, что нужно для начала работы. Как, простите за сравнение, в суповом наборе. Набор (данных, на всякий случай, не суповой) может быть как загружен из разных служб (Google Analytics, например), так и создан (и опубликован) пользователем вашей компании.

На пользование пакетами часто есть ограничения. Так, для служб, это необходимость иметь учётную запись, а для организаций – это обязательность использования версии Power BI Pro.

Возможности Power BI Desktop

В завершении статьи мы кратко остановимся на тех возможностях подключения к данным, которые даёт Power BI Desktop:

«Другие» данные Power BI Desktop

Категория «Другие» включает в себя приличное количество возможных подключений: Веб-приложение, Список SharePoint, Веб-канал OData, Файл Hadoop (HDFS), Active Directory, Microsoft Exchange, Dynamics CRM Online, Facebook, Google Analytics, Объекты SalesForce, Отчеты SalesForce, ODBC и бета-версии следующих подключений: R Script, appFigures, GitHub, MailChimp, Merketo, QuickBooks Online, Smartsheet, SQL Sentry, Stripe, SweetIQ, Twilio, ZenDesk, Spark. Маловероятно, что начинающий изучать Power BI не найдёт тут необходимого. Кстати, при подключении к «Web», программа сама ищет информацию на странице и представляет её в режиме предварительного просмотра в области Навигатор. Выбирайте, что вам нужно, редактируйте, загружайте, работайте.

«Azure» Power BI Desktop

Power BI Desktop обеспечивает солидные возможности по подключению и интеграции со службами Azure, поэтому этот вариант подключения данных даже выделен в отдельный раздел меню ми включает в себя следующие возможности для подключения: База данных Microsoft Azure SQL, Хранилище данных SQL Microsoft Azure, Microsoft Azure Marketplace, Microsoft Azure HDInsight, Хранилище BLOB-объектов Microsoft Azure, Табличное хранилище Microsoft Azure. И к перечисленному ещё три бета-версии продуктов: Azure HDInsight Spark, Microsoft Azure DocumentDB и Хранилище озера данных Microsoft Azure. В общем, сценариев функционального объединения Azure и Power BI достаточное количество.

Итог

Как видите, при должном количестве знаний, красивую и полезную аналитику с помощью Power Bi можно вытянуть из такого разнообразного количества источников данных, что мы даже и не знаем, чего тут может не хватать обывателю. Надеемся, вопросов по данным после прочтения этой статьи у Вас не осталось и в следующем обзоре мы расскажем об основных понятиях Power BI – о рабочей области и обо всём, что там находится и что со всем этим делать. Stay tuned.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: