такое

 

 

 

 

 

 

 

 

 

Алексеева Т.В.,

Америди Ю.В.,

Лужецкий М.Г.

 

 

 

Информационно-аналитические системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Москва, 2005


 

 

 

 

Содержание

Тема 1. Информация в контексте современной экономики. 3

Тема 2. Анализ информации на предприятии. 15

Тема 3. Информационно – аналитическая система как инструмент проведения экономического анализа. 27

Тема 4. Хранилища данных. 41

Тема 5. Оперативный анализ данных. 58

Тема 6. Интеллектуальный анализ данных. 73

Тема 7. Инструментальные средства автоматизации аналитической работы и планирования. 92

Тема 8. Программные инструментальные средства информационно – аналитических систем  107


Содержание

1.     Информационное пространство как среда анализа.

2.     Понятие информационного пространства.

3.     Структура информационного пространства

4.     Элементы структуры информационного пространства. Понятие показателя.

5.     Пространственная интерпретация понятия показатель.

6.     Единое информационное пространство предприятия.

 

1. Информационное пространство как среда анализа

Деятельность предприятия, любого объекта или даже самой маленькой системы неразрывно связана с информацией, которая окружает их повсюду. Она может быть представлена в различных формах – от информации, хранящейся в виде последовательных соединений различных атомов в простейшей молекуле ДНК, до более привычных нам в повседневной жизни бумажных документов, радио и телевидения и, конечно же, сети Интернет, с её необозримыми информационными просторами.

На каждом из уровней функционирования какого-либо объекта можно выделить источники информации различной природы, непосредственно влияющие на выполнение того или иного действия. Простым примером может быть процесс принятия решения о выдаче кредита в банке. Здесь задействована информация, представленная:

·  в явном виде - в виде документов, которые клиент банка передаёт вместе с заявкой на выдачу кредита;

·  в виде описания аналогичных ситуаций - накопленная информация в записях в базе данных кредитного бюро, описывающая кредитную историю данного конкретного клиента. Из неё сотрудник кредитного отдела формирует представление о качестве клиента и качестве выполнения бравшихся им до этого обязательств;

·  информация, для получения которой необходимо выполнить набор операций по приданию фактической информации качественной характеристики - информация, скрытая в отчётных документах клиента, характеризующая его финансовое положение;

·  внешняя по отношению к клиенту и сотруднику кредитного отдела информация, в виде законов, инструкций, ограничений, связанных с выдачей кредитов вообще;

·  информация, хранящаяся в голове сотрудника кредитного отдела и представляющая его опыт и интуицию.

 

Так, даже в такой небольшой по меркам банка операции по принятию первичного решения о выдаче или не выдаче кредита сотруднику банка приходится обрабатывать гигантские объёмы информации, к которым до появления электронно-вычислительных систем просто невозможно было получить оперативного доступа и, как следствие, аналогичный процесс мог достаточно сильно растягиваться во времени.

         Но что же такое информация, о которой все постоянно говорят, употребляя такие привычные слова как средства массовой информации, информационные технологии, информационные системы?

Информация  (по законодательству РФ) – это сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления. Получается, что под информацией можно понимать представленные в любой форме прошлые или будущие значения конкретных характеристик того или иного объекта. Тогда что такое, например, интуиция – что она характеризует. Или другой пример – обычный бухгалтерский баланс – в нём явно представлена информация о фактической структуре активов и пассивов, но в явном виде нет информации об их качестве, но которую можно получить, выполнив ряд операций.

В качестве альтернатив существуют и другие трактовки термина информация.

Шеннон отражает количественно-информационный подход, определяет информацию как меру неопределённости (энтропию) события. Количество информации в том или ином сообщении зависит от вероятности его получения: чем более вероятным является сообщение, тем меньшее количество информации содержится в нём. Этот подход учитывает такую сторону информации, как новизна, неожиданность сообщения.

Глушков рассматривает информацию как свойство материи. Его теория основана на утверждении, что информацию содержат любые сообщения, воспринимаемые человеком или приборами. Иными словами, информация как свойство материи создаёт представление о её природе и структуре, упорядоченности, разнообразии и т.д.

Афанасьев основывает свою концепцию на логико-семантическом подходе, при котором информация трактуется как часть знания, которая используется для активного действия (полезная, "работающая" часть знания).

         А в советском энциклопедическом словаре даётся следующее определение информации: «Информация — это общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, автоматом и автоматом, обмен сигналами в животном и растительном мире; передачу признаков от клетки к клетке, от организма к организму».

         Если рассматривать современное предприятие как целостную сложную и открытую систему, то между его элементами идёт постоянный обмен информацией, которая на самом верхнем уровне представлена в виде человеческой речи, бумажных документов, данных в информационных системах.

Эта информация чаще всего используется для принятия решений на различных уровнях управления в организационной структуре от самого низшего (например, обычного корпоративного секретаря) – до высшего руководителя (председателя правления банка). При этом, ввиду достаточно больших потоков информации, которые необходимо обработать для принятия решения, требуется сначала преобразовать этот поток в его качественную или количественную характеристику, которую может адекватно воспринять человек, а уже затем принимать то или иное решение.

Такие потоки информации, этапы обработки этой информации и те, кто участвует в обработке информации входят в общее понятие информационного пространства предприятия, а деятельность по преобразованию потока информации в его сжатую характеристику представляет собой аналитическую деятельность и является неотъемлемым элементом совокупного информационного пространства.

Сначала более детально остановимся на самом понятии информационного пространства.

 

2. Понятие информационного пространства.

Предприятие, корпорация, любой хозяйственный комплекс является системой. Систему можно представить с одной стороны объектом как единым целым, с другой стороны как совокупность (множество) связанных между собой и взаимодействующих составных частей - объектов, но меньшего масштаба. Информационное отображение  физических объектов  или  процессов  называют информационным объектом (или информационным ресурсом).

         Помимо информационных объектов также стоит остановиться и на таком понятии, как информационная культура, которое непосредственно связано с работой над информационными  объектами. Информационная культура - это область корпоративной культуры, определяющая качество обмена информацией и знаниями в организации. Формирование информационной культуры как культуры работы с информацией, охватывающей все процессы: сбор, обработку, хранение, использование, является основой для построения системы управления знаниями в компании.

Информационная культура является cистемообразующим фактором, акселератором процессов управления знаниями, поскольку:

·  позволяет осуществлять обмен знаниями;

·  обмен возможен только при наличии единого информационного языка;

·  благодаря единому языку формируется коммуникативная среда, ориентированная на совместную деятельность, совместный результат, сотрудничество;

·  осуществляется личностный рост, в частности, в аспекте информационных компетенций сотрудников.

·  Для того, чтобы создавать новые знания, работники должны быть способны использовать информацию и знания, полученные из разных источников.

 

Единый информационный язык является необходимым условием успешных корпоративных коммуникаций (информационного обмена в компании), поскольку эффективные коммуникации и обмен знаниями невозможны без общего языка.

Формирование информационной культуры - это процесс, в контексте которого рождаются также информационные компетенции специалистов, то есть, знания, умения и навыки, позволяющие ориентироваться в информационной среде, участвовать в её формировании и способствовать информационным коммуникациям.

Информационная культура, понимаемая нами как совокупность вышеперечисленных компонентов, формирует единую информационную систему компании, которая является:

·  открытой, т.е. информация рассматривается как свободный, открытый для всех ресурс, не ограниченный никакими барьерами внутри корпорации;

·  самодостаточной, т.е. система способна как формировать информационный ресурс, так и сама быть ресурсом;

·  саморегулирующейся, т.е. осуществляется взаимное влияние всех ее компонентов;

·  саморазвивающейся, т.е. внешние информационные ресурсы система способна сделать своим достоянием, так же и внутренние информационные ресурсы системы доступны внешним пользователям.

 

Информационная система, обладающая всеми этими свойствами, а также единым информационным языком, формирует единое информационное пространство, реализуя высокий уровень информационной культуры.

Иными словами можно сказать, что информационное пространство - совокупность  банков и баз данных, технологий их сопровождения и использования, информационных телекоммуникационных систем, функционирующих на основе общих принципов и обеспечивающих информационное взаимодействие организаций и граждан и удовлетворение их информационных потребностей.

Оно состоит из различных квантов или массивов информации в виде разного рода письменных (знаковых) и фиксированных на носителях информации кодограмм, буквенно-цифровых на естественном языке, устных и визуальных   сообщений.   Все  виды   сообщений   передаются непосредственно потребителям информации или по каналам связи, могут быть сохранены в различном виде с помощью современных технических средств и по мере необходимости могут неоднократно воспроизводиться.

Подавляющая часть сообщений, как правило, "загружается" в информационную систему и становится основой её информационного обеспечения.

Сообщения могут содержать оперативную информацию о технологических процессах, хозяйственных операциях; экономическую, техническую, организационно-распорядительную, отчётную документацию и т.д. Рассмотрим более детально структуру типового информационного пространства.

 

3. Структура информационного пространства

Основными компонентами информационного пространства являются:

1) информационные ресурсы;

2) средства и технологии информационного взаимодействия;

3) информационная инфраструктура.

 

Под информационным ресурсом в широком смысле понимается - совокупность данных, организованных для эффективного получения достоверной информации. Закон же устанавливает следующее определение «информационные ресурсы - это отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах: библиотеках, архивах, фондах, банках данных, других видах информационных систем».

Все информационные ресурсы можно классифицировать по различным признакам. Так различают:

по отношению к предприятию

·  Внутренние;

·  Внешние;

по способу хранения (передачи)

·  Бездокументарные;

·  Документарные;

·  Электронные;

по типу источника (пользователя)

·  Персональные;

·  Коллективные (группа, структурное подразделение);

·  Обще-корпоративные;

по доступности

·  Общедоступные;

·  Частично закрытые (только для группы лиц);

·  Закрытые (для нескольких лиц).

 

Если же рассматривать информационные ресурсы, в рамках информационных систем, то можно выделить 2 типа ИР по содержанию:

·  Фактуальные:

o       «Учётная информация» в информационных системах (в базах или хранилищах данных, файлах);

o       Электронные документы («текстовые» документы, хранящиеся в электронном виде);

·  Субъективные:

o       Знания - вид информации, отражающей опыт специалиста (эксперта) в определенной предметной области, его понимание множества текущих ситуаций и способы перехода от одного описания объекта к другому.

 

Все информационные ресурсы имеют различную степень своей структурированности, т.е. возможности разделения на информационные элементы и фиксации их позиции в конкретном информационном ресурсе. Для примера рассмотрим часть информационного пространства, компании занимающейся продажами какого-либо товара (рис. 1):

 

 

Рисунок 1.   Пример части информационного пространства предприятия

 

         Здесь информационные ресурсы присутствуют в различных формах:

·  Звонок клиента менеджеру по продажам по телефону;

·  База данных, в которой хранится прайс-лист;

·  Счёт, который бухгалтер выставляет в своей бухгалтерской ИС, печатает и отправляет клиенту;

·  Отчёт о продажах.

 

Все эти информационные ресурсы имеют различную структуру и степень, с которой можно охарактеризовать наличие этой структуры. Соответственно, в зависимости от того, с какой степенью структурированности обрабатываются в рамках информационного пространства информационные ресурсы и различают степень структурированности самого пространства.

Свойство структурированности обеспечивает возможность представления информации в виде документов и манипулирования данными с помощью программно-технических средств информационных систем.

Различает пять степеней структурированности ИП:

·  неструктурированное ИП (НИЦ); (пример - человеческая речь)

·  слабо структурированное (ССИП); (пример - естественный письменный язык)

·  структурированное (СИП); (пример - информация отличается преобладанием структурированных компонентов, подготовленная к загрузке в информационную систему)

·  формализованно - структурированное (ФСИП); (пример - имеются алгоритмы получения любых значений элементов данных; обеспечиваются операции по управлению данными)

·  машинно - структурированное (МСИП), (пример - представлены в формализованном виде все информационные объекты и их взаимосвязи, процессы преобразования информации описаны на языках программирования, обеспечивается взаимодействие пользователя и ЭИС на естественном языке.)

 

 

 

4. Элементы структуры информационного пространства. Понятие показателя.

В теории экономических ИС рассматривается понятие единицы информации, под которой понимают набор символов, которому придаётся определенный смысл. Выделяют несколько уровней единиц информации в зависимости от смыслового (семантического) значения, и его наполненности.

По  возрастанию  содержательности  понятия  определены следующие единицы информации:

·  Реквизит;

·  Составная единица информации (СЕИ);

·  Показатель;

·  База данных;

·  Хранилище данных.

 

Реквизит - это информационное отображение свойства объекта, какого-либо процесса или явления. Сообщения состоят из определений свойств объектов, предметов, явлений, складывающихся некоторым образом из соответствующих реквизитов. Следует заметить, что синонимом понятия реквизит является атрибут, термин, широко используемый в литературе по базам данных.

Составная единица информации собирается из набора соответствующих определению данного объекта реквизитов и представляет собой информационное отображение объекта или его части.

Разновидностью составной единицы информации является показатель. Это сложное понятие. Имеются его различные определения. Одни авторы подчёркивают сущностный смысл или характер, привязанный к предметной области, в частности экономической. Другие исходят из формально-структурного подхода, ориентированного на структуризацию содержащейся в показателе информации в целях приспособления его структуры для эффективного использования в информационной   системе.   Результаты   такой   структуризации используются в информационно – аналитических  системах.

Показатель представляет высказывание с законченным смыслом, включающее как название переменной величины, так и её конкретное количественное значение со всеми качественными признаками,  необходимыми  для   идентификации   последнего.

Показатель образуется из набора реквизитов или терминов.

Реквизиты составляют две группы:

·  реквизиты-признаки,   выражающие   качественные   отличия показателя, его смысловое содержание, в частности экономическое;

·  реквизиты - основания, содержащие количественные значения показателя.

 

Показатель теряет смысл без какого-либо из названных реквизитов. В совокупности они образуют высказывание (сообщение), имеющее законченный предметный смысл, что позволяет утверждать, что показатель является наименьшей составной единицей информации, которая достаточна для документообразования, передачи, хранения и восприятия сообщений,

При структуризации   информационного  пространства разрабатывается система показателей, анализируется их собственная структура, В ходе этой работы необходимо исследовать общие закономерности, выявить категории показателей - члены общей структурной формулы описания показателей.

В общем виде структура показателя выглядит следующим образом:

РÞ(И, Х),     где

Р - показатель (может быть экономическим);

И - набор реквизитов (терминов), идентифицирующих смысловое значение показателя;

Х - количественное значение показателя.

Например, для фирмы, торгующей автомобилями, этот показатель может иметь следующий вид:

Объем продаж Þ (автомобиль, значение объема продаж)

 

Идентификатор в свою очередь можно представить в виде двух частей:

ИÞ(S, Q),    где:

S - составленное из реквизитов наименование показателя, выявляющее его предметный смысл;

Q — дополнительные признаки показателя, составленные также из реквизитов и уточняющие его количественное значение.

Например: 

ИÞ (модель автомобиля, время)

Выделенные реквизиты могут быть в свою очередь составными. Для уточнения связей между ними строятся схемы, детализирующие объект до такой степени, что дальнейшая детализация невозможна.

Реквизиты самого нижнего уровня называются единичными. Другие, расположенные на более верхних уровнях - множественными.

Дальнейший анализ проведем, начав с дополнительных признаков. Они могут состоять из единиц измерения Е, уровня показателя У, времени В, субъекта С. Представим эту структуру в виде соотношения:

Q Þ (Е, С, В, У)

Таким образом,   И Þ (S (Е, С, В, У))

Например:

И Þ (модель автомобиля (менеджер, регион, год, покупатель))

Наименование показателя может быть слитным (определенным одним реквизитом) или иметь свою структуру и, в свою очередь, состоять из реквизитов, таких как формальная (вычисляемая) характеристика показателя - Ф; обозначение отображаемого технологического или бизнес - процесса - П; объект измерения, подсчета – О. Тогда 

S Þ (Ф, П, О)

Например:  

S Þ (модель автомобиля, фирма изготовитель, год выпуска)

Таким образом, общая структурная формула показателя примет вид:

ИÞ(S, Q)

S Þ (Ф, П, 0)

Q Þ (Е, С, В,У)

И Þ ((Ф, П, 0) (Е, С, В, У))

Р Þ ((Ф, П, 0) (Е, С, В, У)Х)

 

Данная структура может отображать документ вида:

 

Объем продаж

Автомобиль

Время

Модель автомобиля

Фирма изготовитель

Год выпуска

Менеджер

Регион

Год

Покупатель

 

 

 

 

 

 

 

 

5. Пространственная интерпретация понятия показатель.

Для образного восприятия сложных понятий удобна их пространственная или геометрическая интерпретация. Представим пространство признаков показателя на системе координат (рис. 2). Число измерений признаков этого пространства равно числу осей его системы координат, на которых откладывают отрезки, соответствующие реквизитам-признакам.

 

 

Рисунок 2.  Система координат многомерного информационного пространства показателя.

 

Множественность значений реквизита выражается в длине отрезка. Тогда составляющие его единичные реквизиты укладываются на этом отрезке. Для трёхмерного пространства это будет куб. В свою очередь можно построить пространство системы взаимоувязанных показателей в виде набора соприкасающихся трёхмерных кубов.

Как правило, на осях откладываются реквизиты-признаки в виде отрезков равной длины, а их количественное наполнение содержится в реквизитах-основаниях, которые не отображаются геометрически.

Пример такого пространства показателей приведён на рисунке 3.

 

Рисунок 3.  Трёхмерный гиперкуб информационного пространства показателя "Объем продаж"


Широко распространена также геометрическая интерпретация системы показателей в виде пирамиды, в основании которой лежат единичные признаки. Пирамида делится по высоте на "этажи", которые соответствуют иерархии признаков или системы показателей (рис. 4).

 

Рисунок 4.   Пирамида показателей

 

 

Соответствующие структуры представляют также в виде перевёрнутого дерева или рыбьего скелета" - диаграммы Ишикава (рис. 5).

Рисунок 5.   Диаграмма Ишикава

 

 

6. Единое информационное пространство предприятия.

Комплексная автоматизация функции управления требует создания единого информационного пространства на любом современном предприятии, в котором обычные сотрудники и руководство смогут осуществлять свою деятельность, руководствуясь едиными правилами доступа, представления и обработки информации.

Начальным этапом создания такой системы является построение модели предметной области или другими словами модели информационного пространства для конкретного бизнеса и позиционирование в ней своего предприятия (рис. 6).

Рисунок 6.    Информационное пространство предприятия

 

Исходя из составных элементов ИП, выделенных ранее можно выделить 3 измерения любого полноценного информационного пространства.

Первая ось (F) характеризует уровень организации хранения фактографической информации, которая привязана к специфике конкретного рода деятельности компании или организации, а также баз знаний, которые требуются информационным системам и сотрудникам для работы с информацией.

Вторая ось (D) - полнотекстовые документы, отражает необходимость организации взаимодействия как внутри корпорации, так и вне ее. В этих документах наряду с фактографической информацией содержится слабо и неструктурированная информация, не подлежащая автоматизированной аналитической обработке. Все взаимоотношения между субъектами бизнеса сопровождаются документами, которые становятся осязаемым отражением результата взаимодействия.

Третья ось (R) вносит в информационное пространство третье измерение - регламент процессов прохождения информации, а именно: описание того какие процедуры, когда и как должны выполняться.

Рассмотренная модель информационного пространства не является застывшим образованием, данным нам в ощущениях - прежде чем сформировалось современное представление о контурах этой модели, она претерпела три основные фазы своей эволюции.

Фаза первая - фактографическая. Начало любой деятельности знаменуется обычно периодом накопления первичной информации, имеющей жесткую структуру и атрибутику. Условно эту фазу можно представить в виде одной единственной оси (рис. 7).

Рисунок 7.   Эволюция модели информационного пространства

 

Точка на этой оси - это текущее состояние информационной системы организации. Движение по оси вверх характеризует накопление фактографической информации и, начиная с определенного момента  можно отметить второй этап первой фазы - возникновение понятия "операция". Информация теперь представляется как некоторый привязанный к бизнес - процессам предприятия агрегат из имеющихся характеристик (атрибутов). После возникновения привязки к конкретным бизнес - процессам дальнейшая эволюция в одномерном пространстве уже невозможна - необходим новый качественный скачок к новой фазе.

Фаза вторая - полнотекстовая. Расширение организации и увеличение круга решаемых задач требуют использования полнотекстовых документов, включающих уже не только тексты, но и любые другие способы представления: графики, таблицы, видео и т.п. виды конструкторско-технологической документации. Возникает новая ось - полнотекстовые или, лучше, мультимедийные документы, а точка в новом, уже двумерном, пространстве характеризует информационную систему предприятия, где кроме фактографической базы документов имеются уже хранилища и архивы информации.

Хранилища позволяют накапливать информацию в различных форматах, предполагают наличие ее структуризации и возможностей поиска. Если на предприятии уже используется автоматизация, то хранилище - это не что иное, как электронный архив.

На данной оси также имеются свои этапы - с определенного момента развития хранилища можно уже говорить не об индивидуальном, а о корпоративном архиве, обслуживающем деятельность рабочих групп. Точка на плоскости эволюции, достигнутой во второй фазе, характеризует информационную систему, позволяющую отображать фактографическую информацию в виде полнотекстовых документов, имеющих необходимое количество атрибутов. Однако, как только речь пошла о корпорации, двумерного пространства для соответствующей ей системы опять становится недостаточно - необходим новый скачок к очередной фазе.

Фаза третья - регламентирующая. Информационная система в масштабах корпорации невозможна без решения вопросов обмена информацией, согласования или соблюдения регламента работы с информацией.

Третья ось в информационном пространстве предприятия, как и две другие имеет свое деление на этапы. Первоначальный этап движения по оси характеризуется наличием упрощенного регламента работы с информацией. Количественное накопление атрибутов и расширение возможностей различной работы с информацией сопровождается постепенным переходом ко второму этапу, отличительная черта которого - появление системы аналитической обработки информации. При дальнейшем движении вдоль этой оси можно говорить о появлении единой информационной системы предприятия.

Оси "F" и "D" определяют специфику деятельности организации, регламентируемую положением третьей координаты (R) пространства модели. При этом модель не зависит от технологии обработки информации, принятой на предприятии - все решает только цель деятельности, будь то государственная организация, торговая компания или промышленная фирма.

         В результате такой эволюции информационное пространство современного предприятия часто состоит из интегрированных  в различной степени компонентов:

·  телефонная связь и телефонные станции от простейших АТС, до программных АТС, функционирующих на базе сетевого протокола IP, принимающие и передающие звонки через обычную компьютерную сеть. Такие станции позволяют программировать логику обработки вызовов и распределять поступающие информационные потоки на соответствующих сотрудников и (или) аудио хранилища, хранить и передавать детальную информацию о звонках (CDR – Call Detail Record) и содержание разговора во внешние информационные системы;

·  факс сервера;

·  SMS сервера;

·  корпоративная электронная почта, сайт, хранилище файлов;

·  набор баз данных и (или) одно или несколько хранилищ данных;

·  корпоративные информационные системы, такие как ERP, CRM, SCM, PLM, MRP, MRPII и другие, обеспечивающие сбор и первичную обработку информации;

·  аналитические системы, обеспечивающие всесторонний анализ хранимой информации;

·  специализированные учётные системы, такие как бухгалтерские, складские, банковские и др.

·  электронные базы знаний;

·  системы поддержки принятия решений, которые оказывают поддержку в принятии решений, но его не принимают;

·  другие информационные системы;

·  и, конечно же – все традиционные формы и каналы поступления, обработки  информационных ресурсов.

 

 

Тема 2.  Анализ информации на предприятии.

 

Содержание

1.     Виды и задачи анализа на предприятии.

2.     Содержание экономических показателей.

3.     Классификация методов анализа

4.     Источники данных для проведения анализа.

 

1. Виды и задачи анализа на предприятии.

В современных условиях, характеризующихся высокой динамичностью рынка, возрастанием значимости фактора конкуренции особое значение имеет совершенствование деятельности предприятий. Оно включает широкий круг вопросов, направленных на эффективную организацию процесса деятельности предприятий, приспособленных к условиям, в которых эта деятельность осуществляется. Однако такое совершенствование подразумевает детальное изучение и анализ процесса.

Управление бизнес-процессами требует комплексного решения многочисленных проблем, обусловленных как внешними, так и внутренними факторами. Многообразие информации, характеризующей и описывающей деятельность предприятия или фирмы, приводит к необходимости применения новых методов и инструментальных средств ее обработки.

С переходом к рыночной экономике управление российскими предприятиями претерпело существенные изменения. Основные из них связаны с необходимостью ориентации деятельности фирм на удовлетворение потребностей рынка. Так вот, планы деятельности предприятий теперь берут начало от целей, стратегий и программ маркетинга, т.е. обращены вовне. Вместе с тем, для динамичных, развивающихся, структурно и функционально адаптирующихся к быстро изменяющимся условиям организаций очень важно и управление их внутренним развитием. Такое управление сплошь уникально. Жизненная важность грамотности представления постоянно меняющихся и трудно предсказуемых данных о рыночных потребностях и деятельности фирмы требует, в первую очередь, проведения грамотного разностороннего анализа при управлении этой областью деятельности фирм.

На данный момент решения на предприятиях все же нередко принимаются на интуитивной основе. Ошибочный прогноз в отношении целесообразности того или иного решения может вызвать неприятные последствия, связанные как с недополучением дохода, так и с неполной загрузкой мощностей.

Кроме того, эффективность деятельности предприятия зависит и от своевременности выполнения операций в процессе управления. Более полно представлять информацию для принятия решения и анализировать её помогает использование разного рода аналитических методов и информационных средств.

Когда мы говорим о применении их в экономке, то имеем в виду не просто проведение различного рода экономических расчетов, а использование для изучения экономических закономерностей, получения новых теоретических выводов, нахождение наилучших экономических решений. Математические методы и модели экономики, отражающие с помощью математических соотношений основные свойства экономических процессов и явлений, также представляют собой эффективный инструмент исследования сложных экономических проблем.

В общем виде процесс управления можно свести к ответу на 3 вопросы:

Ø     Где мы находимся (оценка текущего состояния),

Ø     Куда мы хотим прийти (моделирование идеального или желаемого состояния),

Ø     Как мы туда попадём (анализ и прогнозирование процесса перехода из текущего состояния в желаемое).

 

Для сложных систем характерно, что управлять ими приходится, как правило, в условиях неполноты информации, незнания основных закономерностей функционирования и постоянного изменения множества внешних и внутренних факторов. Поэтому процесс управления имеет итерационный характер. После принятия решения и применения управляющего воздействия необходимо вновь оценить состояние, в котором находится система, и решить вопрос о том, правильно ли мы движемся по намеченному пути. Если отклонения нас не удовлетворяют, то необходимо переопределить процесс управления. Идеальное состояние при этом также не статично, следовательно, процесс анализа и отслеживания изменений должен стать непрерывным. Причём желательно иметь возможность «дрейфа» текущего состояния для просчёта движения на несколько шагов вперед. Кроме того, анализ прошлого опыта даёт зачастую много полезной информации, поэтому необходимо иметь как можно более полную информацию о прошлых текущих и идеальных состояниях.

Современные информационные технологии при поиске ответов на поставленные вопросы позволяют аналитику формулировать и решать следующие классы задач:

1.     Аналитико-расчётные – вычисление заданных показателей и статистических характеристик деятельности на основе исторической информации из БД.

2.     Визуализация данных – наглядное графическое и табличное представление имеющейся информации, в т.ч. аналитической.

3.     Добыча знаний (извлечение) – определение взаимосвязей и взаимозависимостей бизнес-процессов на основе имеющейся информации.

4.     Имитационные – проведение компьютерых экспериментов с математическими моделями, описывающими поведение сложных систем в течение заданного или формируемого интервала времени. Задачи этого класса применяются для анализа возможных последствий принятия того или иного управленческого решения (анализ «что - если»).

5.     Синтез-управление – используются для определения допустимых управляющих воздействий, обеспечивающих достижение заданной цели. Задачи этого типа применяются для оценки достижимости намеченных целей, определения множества возможных управляющих воздействий, приводящих к заданной цели.

6.     Оптимизационные – основаны на интеграции имитационных, управленческих и статистических методов моделирования и прогнозирования. Задачи данного класса позволяют выбрать из множества возможных управлений те из них, которые обеспечивают наиболее эффективное (с точки зрения определённого критерия) продвижение к поставленной цели.

 

Бизнес-процесс создания адекватных моделей осложняется двумя объективно существующими моментами.

Первый из них состоит в том, что накоплению у бизнесменов личного опыта в ходе повседневной деятельности препятствует динамичное изменение экономической ситуации, которое особенно характерно для современной России.

Второй момент заключается в том, что в предпринимательской деятельности, да ещё в условиях свободного рынка, отсутствует возможность проведения целенаправленных экспериментов, которые предшествуют открытию гипотезы и позволяют проверять её на практике.

Остановимся на понятии экономического анализа. Все определения предмета экономического анализа, которые содержатся в работах российских экономистов, принято разграничивать на несколько характерных групп.

·  К первой из них относятся формулировки М.З. Рубинова, П.И. Савичева, М.Ф. Дъячкого, М.И. Баканова, в соответствии с которыми «под предметом экономического анализа понимаются хозяйственные процессы, происходящие на предприятиях».

·  Вторая группа определений выделяется трактовкой предмета экономического анализа как непосредственно хозяйственной деятельности предприятий, объединений и вышестоящих звеньев. Такой подход характерен для работ И.И. Поклада, Н.В. Дембинского, С.Б. Барнгольц, которые   подчеркивают   необходимость   отражения   хозяйственной деятельности в плановых, отчетных, учетных и других источниках информации. Другими словами «предметом анализа могут быть только документированные события».

·  У Н.Г. Чумаченко «предмет экономического анализа трансформируется в информационный поток о планомерной хозяйственной деятельности предприятий, который исследуется в целях достижения обоснованности принимаемых   решений». Специфичность   такого   определения обуславливается рассмотрением экономического анализа в системе управления производством в качестве одного из его инструментов.

·  Отличается от рассмотренных выше определение предмета анализа, данное В.П.Копняевым, который отнес к нему «использование всех видов ресурсов (материальных, трудовых и денежных), которыми располагает предприятие для выполнения плана»

·  И,   наконец,   в   последней группе определений, данных Е.В. Долгополовым, Г.В. Савицкой, Н.П. Любушиным, под предметом экономического анализа понимается экономика предприятий, рассматриваемая как совокупность производственных отношений в процессе производства и распределения созданного продукта, использования производственных ресурсов.

А.Д. Шеремет связывает предмет анализа через производственные отношения с хозяйственным расчетом, технической стороной производства, природными условиями и социальным развитием коллективов. В его учебнике дано определение: «Предмет экономического анализа - хозяйственные процессы предприятий, их социально-экономическая эффективность и конечные финансовые результаты деятельности, складывающиеся под воздействием объективных и субъективных факторов и отражающиеся через систему экономической информации».

Как и во всех остальных видах процессов в экономическом анализе выделяют и субъектов экономического анализа. Субъектом в общенаучном понимании «является сам человек или сообщество людей, все человечество, т.е. живые личности, творчески относящиеся к объекту познания». Субъекты экономического анализа, прежде всего, разделяются на так называемых:

·  производителей и

·  потребителей

результатов исследования.

 

Развитие науки экономического анализа в этом случае зависит от взаимодействия с одной стороны потребностей и требований пользователей, с другой вооруженности труда разработчиков. Пользователи результатов науки определяют значимость науки.

Принципиально можно выделить следующих субъектов-производителей ЭА (рис. 1):

·  Аналитик – ему непосредственно адресуются научные знания в области ЭА; связан с использованием ИТ;

·  Программист и математик (или системный аналитик); связан с разработкой ИТ;

·  Статистик (или бухгалтер); связан с оказанием информационных услуг.

 

 

Рисунок 1.   Субъекты экономического анализа

 

Результаты экономического анализа для практики могут стать:

·  информационным продуктом

·  информационной услугой

·  информационной технологией.

 

Услуга и продукт, однако, есть результат технологии. Поэтому объектом экономического анализа для различных субъектов будет именно технология обработки информации (ТОИ). ТОИ, являясь результатом отношений субъектов, должна принимать соответствующий вид в результате решения противоречия этих отношений. Значит, с одной стороны ТОИ классифицируется  с точки зрения потребителей, а с другой – с точки зрения производителей.

Процессы анализа и планирования могут быть  как контролируемыми, т.е. управляемыми субъектом, так и неконтролируемыми, на которые он, субъект, не в состоянии оказать достаточно заметно влияющее воздействие.

При анализе имеющейся информации наблюдаемые процессы можно разделить по этому признаку (влияем или не влияем на данный процесс) с дальнейшим выявлением существенных факторов, степени их влияния на рассматриваемый процесс и т.д. Такого рода анализ, сочетающийся с прогнозированием, является непременным условием эффективного планирования деятельности предприятия, обоснования принимаемых управленческих решений.

Наблюдаемые или исследуемые процессы - это в первую очередь, протекающие на предприятии (в корпорации) бизнес - процессы. Под ними подразумевают совокупность работ по выполнению какой-либо задачи предприятия. На основе анализа хода этих процессов внешних условий, внутреннего состояние предприятия, в том числе финансового, делаются определенные выводы, вырабатываются или корректируются цели предприятия. В соответствие с выработанными целевыми установками ставятся задачи, осуществляется планирование мероприятий и деятельности предприятия в целом. При этом учитываются принятые критерии оценки, вырабатываются управленческие решения по реализации планов. Эту часть анализа назовем стратегическим анализом.

В процессе реализации планов должен осуществляться контроль и анализ хода их реализации, который назовём текущим анализом. Результаты его являются материалом для выработки решений по корректировке, с одной стороны уже состоявшихся управленческих решении, а с другой - по доработке самих планов или даже целевых установок в случае значительных отклонений полученных показателей от запланированных, отсутствия ресурсов или в связи с какими-либо другими обстоятельствами.

В целом содержание анализа состоит в систематизации, оценке полученных параметров в соответствии с принятой системой показателей, изучении и оценке факторов влияющих на деятельность предприятия, выявлении его сильных и слабых сторон, определении возможностей и рисков.

Традиционно «поставщиком» информации для проведения анализа являются отчеты или справки, составленные на основе сведений, хранящихся в системах обработки данных (OLTP-системах). Однако по мере развития методов анализа и переполнения этих систем данными пришло понимание того, что подобный способ получения аналитической информации стал неэффективным. В качестве основных причин можно назвать следующие:

1.     Получить требуемые для принятия решения данные за приемлемое время зачастую не представляется возможным, несмотря на обилие средств автоматизации на предприятии и даже на наличие нужных данных в системах обработки. Такой «информационно-аналитический голод» при кажущемся изобилии информации обусловливают несколько факторов. В том числе:

a.      Необходимые для анализа данные часто рассредоточены по разным OLTP-системам, функционирующим в организации в силу исторических причин. Примером проблем такого рода, например, в банке является оперативное управление позициями корреспондентских счетов и планирование этих позиций, для которых необходимы данные платежного календаря от большого количества подразделений банка.

b.     Организация данных в OLTP-системах не ориентирована на решение задач анализа. Данные организованы в целях оптимальной поддержки конкретной совокупности технологических операций, которые хорошо структурированы, формализованы и повторяются изо дня в день. Наиболее важным требованием для продуктов такого класса является производительность при выполнении процессов актуализации данных, что, несомненно, отражается в структурах хранения данных.

c.     Для задач анализа характерно использование внешних данных (из внешних источников), которые в БД OLTP-систем отсутствуют вообще. Ими могут быть, например, рыночные процентные ставки, индексы, данные по конкурентам, корреляция между различными финансовыми инструментами и т.п. Ввод информации такого рода в базы OLTP ничем не оправдан, поскольку они не используются в процессах обработки.

2.     Реализация аналитических приложений на базах данных OLTP-систем мешает оперативной обработке данных, снижает производительность системы и повышает стоимость ее сопровождения. Ведь для задач анализа и принятия решений зачастую требуются «исторические сведения» за достаточно длительный период. В БД OLTP-систем со временем накапливается большой объем архивной информации, которая практически не используется в процессах оперативной обработки данных. Она лишь усложняет сопровождение и эксплуатацию этих систем (в результате чего возрастают финансовые затраты), что в конечном итоге негативно сказывается на производительности труда работников. Кроме того, реализация многих задач анализа требует обработки значительных объемов информации, применения сложных алгоритмов обработки – это приводит к существенным затратам вычислительных ресурсов. Решение таких задач в рамках баз данных OLTP-системы заметно снижает производительность основных процессов обработки.

 

2. Содержание экономических показателей.

Для оценки ситуации на предприятии или другом объекте при подготовке и принятии решений по управлению объектом должна быть выработана или принята система оценок, которая ложится в основу аналитической работы с имеющейся и требуемой информацией. Систему оценок можно рассматривать как совокупность показателей деятельности объекта с их критериальными значениями.

Для экономической сферы деятельности это будут экономические показатели. Системы экономических показателей основываются на элементах структуры информационного пространства.

С экономической точки зрения под показателем деятельности предприятия понимают "конкретное проявление экономической категории в характеристике объекта".  Это наиболее строгое определение  экономической  сущности  показателя  из встречающихся в литературе.

Экономический показатель является составной единицей информации, отражающей количественную характеристику некоторого процесса предметной области – реквизит-основание вместе с однозначно определяющими его качество реквизитами-признаками (рис. 2).

 

Рисунок 2.  Схема структуры экономического показателя.

 

Реквизиты основания подразделяются по типу алгоритмов их получения на количественные, стоимостные, процентные, удельные веса и др. Множество реквизитов-признаков по степени формализации делятся на два подмножества:

·  справочные реквизиты-признаки – как правило, наименования, предназначенные для понимания показателя экономистом-пользователем;

·  группировочные реквизиты-признаки – это закодированные аналоги справочных признаков, предназначенные для логической обработки информации на ПК.

 

Отдельным показателем невозможно достаточно полно отобразить и оценить состояние экономического объекта, поэтому применяются системы показателей.

Система экономических показателей отображает финансово-хозяйственную деятельность как на уровне предприятия, то есть на микроуровне, так и на макроуровне. Два этих раздела показателей касаются как каждого предприятия, корпорации (объединения), так и государственных   органов   и   негосударственных   организаций регионального, государственного и межгосударственного масштаба (уровня). Показатели отражаются в документации, которая ведется на предприятии, используются в оценках его состояния и динамики процессов, происходящих на предприятии, в информационных системах. Естественно, что при анализе их используют непосредственно и интерпретируют различным образом в целях извлечения знаний, формирования выводов и т.д.

В связи с этим централизованно разработаны системы реквизитов соответствующих  обязательных  к  использованию  документов: государственные стандарты документооборота, формы документов, системы кодирования статистической, учётной, финансовой отчётности и другой документации. На предприятии разрабатывается внутренняя система показателей и соответствующих реквизитов.

Предприятие регулярно обменивается информацией с внешней средой в виде представления разного рода отчётности и других материалов, получения различных руководящих и установочных документов, информационных материалов и т. д.

Предприятие представляет в государственные органы ежеквартально и нарастающим итогом за полугодие, год:

·  внешнюю финансовую отчётность в территориальные государственные органы – налоговую инспекцию и финансовое управление;

·  статистическую отчетность о различных сторонах деятельности предприятия в территориальные органы Госкомстата РФ;

·  отчётность о финансово-хозяйственной деятельности в государственные фонды (предстоит их реформирование в плане объединения и упрощения отчетности).

 

В государственных органах проведены структуризация, формализация, классификация и кодирование многих видов документов на основе разработки соответствующей системы реквизитов и показателей, которая постоянно видоизменяется и далека от совершенства, а самое главное – от общепринятых в мировой практике международных стандартов, систем отчётности, классификации, кодирования. Особенно страдает от такого положения дел финансовая сфера управленческой деятельности.

В качестве одной из последних концепций, отражающей идеологию построения и использования систем экономических показателей является концепция BSC (Balanced Scorecard)  или система сбалансированных показателей. Идеологами данной концепции являются два американских экономиста П. Нортон и Р. Каплан, которые и описали данную концепцию в 1992 году. Основная цель внедрения данного подхода на предприятии – получение гибкого инструмента по управлению эффективностью бизнеса на базе анализа значений различных наборов показателей на различных уровнях организационной структуры.

Базовой идеей данной концепции является утверждение о том, что «менеджерам, так же как и пилотам самолётов требуется инструментарий для управления различными аспектами окружающей среды и производительностью направленный на то, чтобы полёт был успешным».

В рамках концепции выделяется базовое окружение набора показателей. Так в центре располагаются миссия и видение бизнеса компании, на котором основываются показатели из четырёх перспектив: финансовая перспектива, взаимоотношения с клиентами, внутренние бизнес процессы, обучение и развитие (рис. 3).

 

 

Рисунок 3.  Среда системы сбалансированных показателей

 

В качестве примеров показателей различных перспектив можно выделить следующие:

·       Финансовая перспектива

o      Рост и структура выручки;

o      Уменьшение стоимости/ увеличение продуктивности;

o      Использование активов/ инвестиционная стратегия;

·       Клиентская перспектива

o      Доля рынка;

o      Приобретение клиентов;

o      Удовлетворённость клиентов;

o      Прибыльность клиентов;

·       Перспектива внутренних бизнес - процессов

o      Инновации;

o      Операции;

o      После продажное обслуживание;

·       Перспектива обучения и развития

o      Удовлетворённость сотрудников;

o      Способность удержания сотрудников;

o      Продуктивность работы сотрудников.

 

После определения набора показателей происходит их связывание с общей стратегией компании и создание целостной системы экономических показателей (рис.4).

 

 

Рисунок 4.  Влияние стратегии на создание системы экономических показателей

 

Таким образом, для каждой перспективы необходимо определить цели и установить между ними причинно-следственные связи.

 

3. Классификация методов анализа

Что же такое метод вообще? Слово “метод” происходит от греческого “methodos”, что буквально означает “путь к чему-либо”. В толковом словаре можно встретить следующие понимания:

Метод – способ теоретического исследования или практического осуществления чего-нибудь.

Методика – совокупность методов практического выполнения. Прием - способ осуществления чего-нибудь.

Способ - действие или система действий, применяемых при осуществлении чего-нибудь.

Отсюда можно сказать, что метод - есть совокупность общих способов теоретического исследования предмета и выработка приемов  практического применения с использованием категориально-понятийного аппарата. В результате выработки приемов формируется методика практического выполнения.

К общим способам теоретического исследования относятся:

·  наблюдение,

·  сравнение,

·  моделирование,

·  системный подход,

·  анализ и синтез,

·  индукция и дедукция,

·  абстрагирование,

·  формализация,

·  исторический и логический методы

·  и др.

 

Техническими приемами анализа являются - способы четкого и упрощенного выражения различных ресурсов и явлений в их взаимосвязи и взаимозависимости, а также из­мерение влияния тех или иных факторов или причин на измене­ние уровня соответствующих показателей для сравнения анало­гичных показателей, приведения их к сопоставимому виду, упрощения цифровых величин и др.

Так, Каракоз выделяет следующие группы технических приёмов:

·  простые, элементарные (сравнение показателей работы, упрощение цифровых величин показателей, группировка и детализация показателей работы, отвечающая требованиям логических приемов — индукции и дедукции);

·  сложные (элими­нирование показателей — цепные подстановки, приемы разниц и относительных величин показателей);

·  математические (корреля­ционной связи, линейного и динамического программирования, сетевых графиков в планировании, теории массового обслужи­вания).

 

Характерными особенностями метода экономического анализа являются:

·  использование си­стемы показателей, всесторонне характеризующих хозяйствен­ную деятельность;

·  изучение причин изменения этих показа­телей;

·  выявление и измерение взаимосвязи между ними в целях повышения социально-экономической эффективности.

 

Существует большое количество методов анализа, которые делятся на группы по различным признакам. Рассмотрим систему признаков, характеризующих методы анализа. Их можно сгруппировать:

По целям - это:

·        оценка состояния и результатов деятельности предприятия;

·        постоянный контроль рациональности ведения хозяйственной деятельности, выявление резервов для обеспечения выполнения поставленных задач;

·        прогнозирование хода внутренних процессов на предприятии и внешних факторов, влияющих на его деятельность.

По временному фактору анализ разделяют на:

·        использующий прошлую информацию, отражённую в документации и на различных носителях и содержащуюся в информационной системе - анализ фактов;

·        на базе как прошлой, так и обращённой в будущее, то есть прогнозной информации - анализ событий и отклонений,

·        анализ будущей информации - по существу оценка бюджетов и планов, их альтернатив.

По масштабности решаемых или обслуживаемых задач:

·        стратегический, сюда можно отнести оценку эффективности целей, долгосрочные прогнозы, исторические оценки процессов и явлений и т.д.

·        оперативный - это оценка текущего состояния, выявление узких мест и отклонений,

·        система раннего предупреждения.

По предметным областям, в рассматриваемом случае – экономики различают анализ:

·        в маркетинге;

·        в производственной или основной деятельности;

·        в логистике;

·        в обеспечении ресурсами;

·        в финансовой;

·        в сфере инвестиций и инноваций.

По методам различают:

·        сравнительный по подразделениям, предприятиям, регионам, временным периодам и т.д.;

·        анализ отклонений;

·        функционально-стоимостный;

·        анализ цепочки создания стоимости и конкурентный анализ по Портеру;

·        анализ полей бизнеса

·        бенчмаркинг;

·        интеллектуальный анализ

 

В процессе анализа используются различные математические методы, в том числе:

·        математической статистики;

·        многомерного статистического анализа,

·        эконометрики;

·        алгебры - линейной, логики, предикатов, нечёткой логики;

·        численные методы анализа.

 

Необходимо заметить, что какой-либо конкретный аналитический процесс или  аналитическая работа могут характеризоваться одновременно несколькими из перечисленных выше признаков.

 

4. Источники данных для проведения анализа.

 

Аналитическая   работа   на   предприятии   осуществляется специальной группой. Она может быть автономной или включённой в какое-либо подразделение. В последнее время создаются подразделения контроллинга, в чьи функции в качестве основной включается эта деятельность. В отдельных, особо сложных ситуациях пользуются услугами консультантов. На малых предприятиях эта работа может быть возложена на одного из заместителей руководителя или эксперта.

Дня   уяснения   функций   ИАС   необходимо   изучить информационный обмен, связанный с аналитической работой. В общей постановке анализ основан на переработке информации, которую аналитики должны где-то получить, и выдаче информации заинтересованным лицам или организационным единицам. Место аналитического процесса в цепочке других, связанных с управлением процессов показано на рисунке 5.

 

 

 

Источники внешней информации

 

 


 

Рисунок 5.   Место анализа в цепочке принятия управленческих решений

 

Все источники информации для анализа можно разделить на внутренние и внешние.

К внутренним источникам относятся:

·  бухгалтерский учёт, включая аналитический и складской;

·  статистический учёт,

·  управленческий учёт;

·  деловая переписка;

·  материалы различных исследований и обследований, выполненных на предприятии

·  текущая документация, в том числе материалы ревизий и аудиторских проверок и т.д.;

·  зафиксированные данные опросов;

·  устная информация;

·  информация из баз данных, эксплуатирующихся на предприятии ЭИС и автономных автоматизированных рабочих мест (АРМ);

Из перечисленных видов учёта бухгалтерский и статистический относятся к обязательным видам учёта.

 

К внешним источникам информации относятся:

·  установочная информация из  государственных  органов и вышестоящих организаций (для зависимых предприятий) это правовые и руководящие документы, инструкции и т.д., определяющие условия функционирования,

·  информация из специализированных информационных организаций и их информационных хранилищ, к ним относятся различные фонды, финансовые и биржевые и т.д.;

·  библиотечные фонды и информационные хранилища;

·  средства массовой и специализированной информации;

·  глобальные информационные ресурсы, например сеть Интернет и другие;

·  данные деловой разведки и прочие возможные источники информации.

 

С другой стороны служба анализа выдает информацию заинтересованным потребителям. Основные её потребители - лица, принимающие решения (ЛПР).

На предприятии должен быть установлен порядок доступа к такой информации  по  причине  её  особой  ценности  и  подчас конфиденциальности.

 

С точки зрения аналитических систем информацию можно разделить на:

·  Агрегированные данные

·  Исторические данные

·  Прогнозируемые данные

 

Агрегированные данные. Пользователя, занимающегося анализом, редко интересуют детализированные данные. Более того, чем выше уровень пользователя (руководителя, управляющего, аналитика), тем выше уровень агрегации данных, используемых им для принятия решения. Рассмотрим в качестве примера фирму по продаже автомобилей. Коммерческого директора такой фирмы мало интересует вопрос: "Какого цвета "Жигули" успешнее всего продает один из ее менеджеров - Петров: белого или красного?" Для него важно, какие модели и какие цвета предпочитают в данном регионе.

Исторические данные. Важнейшим свойством данных в аналитических задачах является их исторический характер. После того как зафиксировано, что Петров в июне 2004г. продал 2 автомобиля "Волга" и 12 автомобилей "Жигули", данные об этом событии становятся историческим (свершившимся) фактом. И после того, как информация об этом факте получена, верифицирована и заведена в БД, она может быть сколько угодно раз считана оттуда, но уже не может и не должна быть изменена.

Другим неотъемлемым свойством исторических данных является обязательная спецификация времени, которому эти данные соответствуют. Причем время является не только наиболее часто используемым критерием выборки, но и одним из основных критериев, по которому данные упорядочиваются в процессе обработки и представления пользователю.

Во многих организациях используются как общепринятые, так и собственные календарные циклы (финансовый год может начинаться не в январе как календарный, а, например, в июне); время является стандартным параметром практически любой аналитической, статистической или финансовой функции (прогноз, нарастающий итог, переходящий запас, скользящее среднее и т.д.).

Прогнозируемые данные. Когда говорится о неизменности и статичности данных в аналитических системах, имеется в виду неизменность исключительно исторических данных (данных, описывающих уже произошедшие события). Такое предположение ни в коем случае не распространяется на прогнозируемые данные (данные о событии, которое еще не происходило). И этот момент является весьма существенным.

Например, если мы строим прогноз об объеме продаж на июнь 2005г. для менеджера Петрова, то, по мере поступления фактических (исторических) данных за 2004г., эта цифра может и будет многократно изменяться и уточняться. Более того, достаточно часто прогнозирование и моделирование затрагивает не только будущие, еще не произошедшие, но и прошлые, уже свершившиеся события. Например, анализ: "а, что будет (было бы)..., если (бы)..?", строится на предположении о том, что значения некоторых данных, в том числе и из прошлого, отличны от реальных.

На первый взгляд, мы сами противоречим себе, говоря о неизменности данных, как основополагающем свойстве аналитической системы. Но это не так. Это кажущееся противоречие наоборот подчеркивает и усиливает значимость требований к неизменности исторических данных. Сколько бы мы не упражнялись (например, при анализе: "а что... если..?") со значением объема продаж за июнь 2004г., значения исторических (реальных) данных должны оставаться неизменными.

С технической точки зрения источники данных для проведения анализа могут быть представлены в следующих основных формах:

·  в виде файлов определённого формата (ранее самым распространённым форматом были DBF файлы, сейчас же всё большую долю начинает занимать формат XML);

·  в виде привычных большинству специалистов реляционных баз данных, в которых хранится первичная или агрегированная информация;

·  в виде хранилищ данных, которые собирают внутри себя информацию из различных предметных транзакционных баз данных и производят её агрегацию и систематизацию;

·  в виде информации, получаемой из отчётов, когда в процессе выполнения аналитической работы результаты (агрегаты) одного отчёта становятся источником данных для других отчётов, тем самым, являясь элементом-источником общей технологической цепочки при осуществлении анализа;

·  информация, получаемая напрямую при вызове удалённых процедур во внешних по отношению к аналитической подсистем или даже информационных систем. Данная технология реализована во многих языках программирования, на большинстве технологических платформ и основывается на комплексной идеологии удалённого вызова процедур (RPC – Remote Procedure Call);

·  традиционные Интернет сайты различных СМИ, информационных агентств и обычных компаний в зависимости от типа и содержания требуемой информации;

·  «ВЕБ сервисы», взаимодействие с которыми основывается на протоколе SOAP и XML и которые по основной концепции должны быть зарегистрированы в каталогах и доступны по протоколу UDDI – основная цель данной концепции – создать единую гибкую инфраструктуру автоматизированного взаимодействия информационных систем различных компаний с целью оказания каких-либо информационных услуг (сервисов) через традиционную сеть Интернет. Отсюда пошло и само название – WEB Services (ВЕБ сервисы).

 

 

Тема 3.   Информационно – аналитическая система как инструмент проведения экономического анализа.

 

Содержание

1.     Общее понятие информационно – аналитической системы.

2.     Функции и сферы применения ИАС

3.     Классификация аналитических систем

4.     Концепции построения ИАС

5.     Общая структура информационной аналитической системы

 

1. Общее понятие информационно – аналитической системы.

Современный этап развития рыночных отношений в российской экономике характеризуется началом экономического подъема. Сегодня все большее число организаций приходит к пониманию того, что без наличия своевременной и объективной информации о состоянии рынка, прогнозирования его перспектив, постоянной оценки эффективности функционирования собственных структур и анализа взаимоотношений с бизнес - партнерами и конкурентами их дальнейшее развитие становится практически невозможным. Начинают  приобретать определяющее значение знания о протекающих хозяйственных процессах. На успех ведения дела влияют как объективные, так и субъективные факторы. К объективным факторам можно отнести:

·        закономерности протекания хозяйственных процессов,

·        правовую среду,

·        неписаные правила и традиции ведения дел,

·        экономическую конъюнктуру и т.д.

 

Большое значение имеет субъективный фактор, под которым понимается влияние на ход бизнес - процессов работников предприятия и в особенности лиц, принимающих решения (ЛПР).

Для выработки и принятия соответствующих складывающейся обстановке решений необходима информация, которая должна удовлетворять требованиям полноты, достоверности, своевременности (актуальности), полезности.

Основополагающую роль в подготовке принятия решений играет его обоснование по имеющейся у ЛПР информации. Её, как правило, получают из различных внутренних и внешних источников. В интересах выработки   адекватного   решения   используются   внутренние информационные ресурсы, которые   складываются из отражения деятельности (функционирования) объекта в документах, других видах и способах сбора, обработки, хранения информации. А также внешние по отношению к объекту информационные ресурсы, например (если это предприятие) - корпорации, отрасли, региона, а также глобальные – из средств массовой информации, специальной литературы, всемирной информационной сети Интернет и т.д.

Таким образом, границы информационного пространства как отображения деятельности предприятия и его взаимодействия с внешней средой, в рамках которого принимаются решения, выходят далеко за пределы предприятия.

Эти обстоятельства вынуждают использовать имеющиеся в настоящее время весьма развитые программно-технические средства. Широкое и эффективное применение этих средств стало одним из факторов выживаемости и успеха предприятия в условиях острой конкурентной   борьбы.   Получили   широкое   распространение автоматизированные информационные системы.

Проблема анализа исходной информации для принятия решений оказалась настолько серьезной, что появилось отдельное направление или вид информационных систем – информационно – аналитические системы (ИАС).

Информационно-аналитические системы (ИАС) призваны на основе данных, получаемых в режиме реального времени, помогать в принятии управленческих решений. ИАС - это современный высокоэффективный инструмент поддержки принятия стратегических, тактических и оперативных управленческих решений на основе наглядного и оперативного предоставления всей необходимой совокупности данных пользователям, ответственным за анализ состояния дел и принятие управленческих решений. Комплекс информационно-аналитических систем затрагивает всю управленческую вертикаль: корпоративную отчетность, финансово-экономическое планирование и стратегическое планирование.

 

2. Функции и сферы применения ИАС

Основное назначение ИАС — динамическое представление и многомерный анализ исторических и текущих данных, анализ тенденций, моделирование и прогнозирование результатов различных управленческих решений.

Основными функциями информационно-аналитической системы являются:

·        Извлечение данных из различных источников, их преобразование и загрузка в хранилище;

·        Хранение данных;

·        Анализ данных, в том числе оперативный и интеллектуальный;

·        Подготовка результатов оперативного  и интеллектуального анализа для эффективного их восприятия потребителями.

 

Результатом применения средств ИАС являются с одной стороны — регламентные аналитические отчеты, ориентированные на нужды пользователей различных категорий, с другой — средства интерактивного анализа информации и быстрого построения отчетов пользователями-непрограммистами с использованием привычных понятий предметной области.

Функцию сбора и хранения информации с сопутствующей доработкой в информационно-аналитических системах, выполняют  информационные хранилища (Data Warehouse).

В связи с большим объемом и сложностью анализ данных имеет два направления - оперативный анализ данных   (информации),   широко  распространена  англоязычная аббревиатура названия – On-line Analytical Processing (OLAP). Основной задачей оперативного или OLAP-анализа является быстрое (в пределах секунд) извлечение необходимой аналитику для обоснования или принятия решения информации. Эту функцию выполняют всевозможные OLAP – средства.

Интеллектуальный анализ информации - имеет также широко распространенное в русской специальной литературе англоязычное название  Data Mining.  Он предназначен для фундаментального исследования проблем в той или иной предметной области. Требования по времени менее жёстки, но используются более сложные методики. Ставятся, как правило, задачи и получают результаты стратегического значения. Эту функцию выполняют всевозможные средства Data Mining.

Жестких границ между OLAP и интеллектуальным анализом нет, но при решении сложных задач приходится использовать весьма мощные специальные программные средства.

С технической точки зрения ИАС – это набор процедур, методов и регламентов, приводящих к регулярному плановому сбору, хранению, анализу и предоставлению информации, используемой для принятия управленческих решений.

Информационно-аналитические системы являются надстройкой над уже функционирующими на предприятии информационными приложениями и не требуют их замены; эти системы аккумулируют данные по всем видам деятельности компании - от состояния складов до финансовой и бухгалтерской отчетности.

Информационно - аналитические системы верхнего уровня служат для принятия стратегических решений. Они позволяют руководителю решать следующие задачи:

·  составление консолидированной отчетности и предоставление сводной информации о деятельности предприятия (финансовые, производственные и другие показатели, динамика их изменений и тенденции),

·  анализ деятельности дочерних предприятий, филиалов и подразделений компании (анализ доходности, затрат, выполнения плана),

·  анализ финансовой деятельности (основные финансовые показатели, тенденции, взаиморасчеты), оптимизация финансовых потоков, реальная оценка себестоимости продукции,

·  проведение комплексной оценки деятельности предприятия, основанной на постоянном контроле четырех наиболее существенных ее аспектов (финансы, отношения с внешним миром, внутреннее состояние компании, инновации),

·  анализ сбытовых процессов (составление плана, контроль исполнения распоряжений, расчеты за отгруженную продукцию, прогноз поступления средств, прогноз спроса).

 

Информационно-аналитические системы подразделений предполагают большую детализацию и более сложную аналитическую обработку. Эти системы помогают подготовить информацию для принятия решений в области сбыта, продуктового предложения, финансового планирования.

Различают два вида информационно-аналитических систем по режиму и темпу анализа:

·  статические - имеют заранее разработанный сценарий обработки данных при весьма ограниченных возможностях вариаций запросов;

·  динамические - обеспечивают обработку нерегламентированных запросов и гибкую систему подготовки отчётов;

 

Можно выделить следующие принципы построения ИАС на предприятии:

·  объединение всех информационных процессов предприятия;

·  встраивание системы в уже сложившуюся организационную структуру предприятия;

·  координация усилий всех подразделений предприятия при выполнении поставленных задач;

·  открытость системы для дальнейшего развития;

·  комплексное использование всех доступных методов анализа;

·  информационная этика - "от каждого - в общую копилку, и из неё - каждому".

 

3. Классификация аналитических систем

Для обозначения аналитических технологий и средств в целом принято использовать термин "Business Intelligence" или, сокращенно, - BI. Понятие BI объединяет различные средства и технологии анализа и обработки данных масштаба предприятия. На их основе создаются BI-системы. Их цель – повысить качество информации для принятия управленческих решений. BI-системы ранее были известны под названием Систем Поддержки Принятия Решений (СППР, DSS- Decision Support System). В качестве синонимов понятия "СППР" оперируют также понятиями "аналитическая система" или "управленческая система". Сейчас же класс систем BI является независимым классом систем, в который входят системы класса СППР.

По оценкам IDC рынок BI состоит из 5 сегментов:

1.     OLAP-продукты,

2.     инструменты добычи данных,

3.     средства построения Хранилищ и Витрин данных,

4.     управленческие информационные системы и приложения,

5.     инструменты конечного пользователя для выполнения запросов и построения отчетов,

6.     системы СППР.

 


Полный классификатор аналитических систем

OLAP-продукты

Способ хранения данных

MOLAP

ROLAP

HOLAP

Место размещения OLAP-машины

OLAP-серверы

OLAP-клиенты

Степень готовности к применению

OLAP-компоненты

Инструментальные OLAP-системы

OLAP-приложения

Инструменты добычи данных

Метод Data Mining

Фильтрация

Деревья решений

Генетические алгоритмы

Ассоциативные правила

Нейронные сети

Способ предоставления

В составе OLAP-систем

В виде самостоятельных систем Data Mining

Средства построения Хранилищ и Витрин данных

Средства проектирования Хранилищ данных

В составе СУБД

Универсальные средства

Студии

Средства извлечения, преобразования и загрузки данных

В составе СУБД

Универсальные средства

Готовые предметно-ориентированные ХД

 

Управленческие информационные системы и приложения

Вид решаемой задачи

Анализ финансового состояния

Инвестиционный анализ

Подготовка бизнес-планов

Маркетинговый анализ

Управление проектами

Бюджетирование

Финансовое управление

Масштаб решаемой задачи

Автоматизация труда одного специалиста

Для коллективной работы группы сотрудников

Для применения в территориально распределенной корпорации

Технологическое построение

Монолитные

Настраиваемые

Инструменты конечного пользователя для выполнения запросов и построения отчетов

В составе OLAP-систем

 

В виде систем Query & Reporting

 

Системы СППР

В рамках данного материала системы СППР подробно не рассматриваются, так как это является отдельной специфической областью интеллектуальных информационных систем.

 

Рассмотрим более подробно каждый сегмент.

 

OLAP-продукты

На сегодняшний день в мире разработано множество продуктов, реализующих OLAP-технологии. Чтобы легче было ориентироваться среди них, существует несколько классификаций OLAP-продуктов:

·        по способу хранения данных,

·        по месту нахождения OLAP-машины,

·        по степени готовности к применению.

 

Рассмотрим классификацию систем по способу хранения данных. Основная идея OLAP заключается в построении многомерных таблиц, которые будут доступны для запросов пользователей. Многомерные таблицы (многомерные кубы) строятся на основе исходных и агрегатных данных. И исходные и агрегатные данные для многомерных таблиц могут храниться как в реляционных, так и многомерных базах данных. Поэтому в настоящее время применяются три способа хранения данных: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) и HOLAP (Hybrid OLAP).

Соответственно, OLAP-продукты по способу хранения данных делятся на три аналогичные категории:

·  В случае MOLAP, исходные и агрегатные данные хранятся в многомерной БД или в многомерном локальном кубе. Такой способ хранения обеспечивает высокую скорость выполнения OLAP-операций. Но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет сильно зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Иногда это может привести к "взрывному росту" объема данных, парализующему в результате запросы пользователей.

·  В ROLAP-продуктах исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет сильно зависеть от типа источника данных и порой приводит к неприемлемому времени отклика системы.

·  В случае использования Гибридной архитектуры исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных. Такой подход позволяет избежать взрывного роста данных. При этом можно достичь оптимального времени исполнения клиентских запросов.

 

Следующая классификация - по месту размещения OLAP-машины. По этому признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты.

·  В серверных OLAP-средствах вычисления и хранение агрегатных данных выполняются сервером. Клиентское приложение получает только результаты запросов к многомерным кубам, которые хранятся на сервере. Некоторые OLAP-серверы поддерживают хранение данных только в реляционных базах, другие - только в многомерных. Многие современные OLAP-серверы поддерживают все три способа хранения данных: MOLAP, ROLAP и HOLAP. Одним из самых распространенным в настоящее время серверным решением является OLAP-сервер корпорации Microsoft.

·  OLAP-клиент устроен по-другому. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты также делятся на ROLAP и MOLAP. А некоторые могут поддерживать оба варианта доступа к данным. Среди одних из первых клиентских OLAP-средств можно назвать Oracle Discoverer. Те же возможности обеспечивает и отечественная разработка – продукты Аналитической платформы Контур от компании Intersoft Lab.

 

У каждого из этих подходов есть свои "плюсы" и "минусы". Нельзя однозначно говорить о преимуществах серверных средств перед клиентскими и наоборот. На практике такой выбор является результатом компромисса "эксплуатационных показателей", стоимости программного обеспечения и затрат на разработку, внедрение и сопровождение аналитической системы.

Следующая классификация OLAP-продуктов - по степени готовности к применению. Различают: OLAP-компоненты, инструментальные OLAP – системы и конечные OLAP-приложения.

·  OLAP-компонента – это инструмент разработчика. С ее помощью разрабатываются клиентские OLAP-программы. Различают MOLAP и ROLAP-компоненты: MOLAP-компоненты являются инструментами генерации запросов к OLAP-серверу. Они также обеспечивают визуализацию полученных данных. ROLAP-компоненты содержат собственную OLAP-машину. OLAP-машина обеспечивает построение OLAP-кубов в оперативной памяти и отображает их на экране. Одна из наиболее доступных, но в то же время и одна из самых слабых OLAP-компонент – Decision Cube в составе Borland Delphi.

·  Инструментальные OLAP-системы – это программные продукты, предназначенные для создания аналитических приложений. Различают две категории инструментальных OLAP-систем: системы для программирования и системы для быстрой настройки. Системы для программирования – это среда разработчика аналитических систем. В ней, путем программирования запросов к данным, алгоритмов расчета и OLAP-интерфейсов можно создать OLAP-приложение для конечного пользователя. Представителем этого класса программного обеспечения является аналитическая платформа Knosys Pro Clarity. С другой стороны, OLAP-системы для быстрой настройки – это средства, которые предоставляют визуальный интерфейс для создания OLAP-приложений без программирования. Такие системы включают визуальный генератор запросов, встроенные алгоритмы агрегации и инструменты настройки пользовательских OLAP-интерфейсов. В такой технологии реализована большая часть инструментов пакета BusinessObjects и Аналитической платформы Контур.

·  Наконец, к третьей категории OLAP-продуктов по степени готовности к применению относятся конечные OLAP-приложения. Это готовые прикладные решения для конечного пользователя. Они требуют только установки, и, не всегда, настройки под специфику пользователя. Пример такого решения – OLAP-приложения системы "Контур Стандарт", подготовленные для анализа данных в различных отраслях и для решения различных аналитических задач.

Инструменты добычи данных

Knowledge Discovery in Databases (KDD)– это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов "раскапывания данных" (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил:

· Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.

· Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если..., то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.

· Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

· Генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.

· Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

 

Инструменты добычи данных поставляются заказчикам двумя способами:

·  в составе OLAP-систем,

·  в виде самостоятельных систем Data Mining.

 

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей – Oracle, Hyperion, SAS и т.д. Однако, наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".

Средства построения Хранилищ и Витрин данных

Хранилища и Витрины данных создаются с применением специализированных средств построения Хранилищ\витрин данных. К этим средствам относятся:

·  средства проектирования Хранилищ данных,

·  средства извлечения, преобразования и загрузки данных,

·  готовые предметно-ориентированные ХД.

 

Средства проектирования Хранилищ данных входят в состав реляционных и многомерных СУБД от таких производителей как Microsoft, Oracle, IBM, Sybase и других. Также часто применяются универсальные CASE-инструменты, такие как BPWin и ErWin. После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию Хранилища данных позволяет построить индивидуальное Хранилище или Витрину данных в сжатые сроки. В тоже время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач.

Альтернативным способом построения Хранилищ данных является применение других специализированных средств – Студий для построения Хранилищ данных. Такие продукты предлагают набор шаблонов и заготовок для быстрого создания Хранилища. В составе Студии может предоставляться базовая модель Хранилища данных, ориентированная на определенную бизнес-сферу. С помощью таких инструментов можно значительно быстрее создать Хранилище данных, воспользовавшись опытом предыдущих решений и начать его эксплуатацию. Продукты этого класса, в частности, предлагает компания Sybase – это продукт Industry Warehouse Studio.

ETL-средства (extraction, transformation, loading) - средства извлечения, преобразования и загрузки данных) обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие. ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения Хранилищ данных. Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software.

И, наконец, существует еще один способ построения Хранилищ и Витрин данных – это применение готовых предметно-ориентированных Хранилищ данных. Это самый надежный способ построить Хранилище данных в сжатые сроки. Готовые к эксплуатации Хранилища данных характеризуются наличием в них механизмов средств построения Хранилищ/Витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся - процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Ограничением в применении готовых Хранилищ данных является их предметная ориентация. Например, финансовое Хранилище данных невозможно применить для решения задач оптимизации химического производства. Примером готового предметно-ориентированного Хранилища данных является система Контур Корпорация от компании Intersoft Lab. Применение предметно-ориентированных Хранилищ данных отражает общемировую тенденцию развития рынка BI, наметившуюся в последнее время – предоставления платформ для "быстрой" разработки аналитических приложений.

Управленческие информационные системы и приложения

Существует еще один очень разносторонний класс аналитических систем. Это – конечные решения для управленцев и аналитиков. Исторически сложилось так, что технологическая основа реализации таких систем существенно различается. Одни из них построены на современных аналитических инструментах, другие – с применением базовых информационных технологий. Чтобы легче ориентироваться в этих системах вводится 3 классификации:

·  по виду решаемой задачи,

·  по масштабу решаемой задачи,

·  по технологическому построению.

 

Аналитические системы классифицируются по виду задач, решаемых с их помощью. Среди видов задач можно выделить:

· Анализ финансового состояния банка или предприятия, выполняемый по внешним публичным данным, таким как баланс, отчет о финансовых результатах, иногда - приложение к балансу и отчет о движении денежных средств. Системы - Audit Expert (Про-Инвест), Альт-финансы (Альт), АБФИ (Вестона), Аналитик, АФСП, АДП (ИНЭК) и другие.

· Инвестиционный анализ – для комплексной оценки эффективности инвестиционных проектов и принятия решения об их финансировании, Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.

· Подготовка бизнес-планов, учитывающих вариации схем производства, сбыта и финансирования, комплексного анализа маркетинговой ситуации, чувствительности проекта по основным параметрам. Системы - Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.

· Маркетинговый анализ, позволяющий оценить положение компании на рынке, провести сравнительный анализ ее сбытовой деятельности с конкурентами, сформировать оптимальную структуру сбыта, определить доходность различных сегментов рынка и товаров, долю рынка компании, темпы роста и другое. Системы - Marketing Expert (Про-Инвест), Касатка и другие.

· Управление проектами, применяемое для разработки расписания исполнения проекта, определения критического пути и резервов времени исполнения операций проекта; потребности проекта в финансировании, материалах и оборудовании, анализ рисков и планирование расписания с учетом рисков и так далее. Системы - MS Project (Microsoft), Open Plan (Welcom Software Technology) и другие.

· Бюджетирование, обеспечивающее планирование, учет и анализ по центрам финансовой ответственности, бизнесам, продуктам в разрезе активов и пассивов, доходов и расходов, выполнение аллокаций и расчет финансового результата. Системы - Hyperion Pillar, Comshare MPC, Контур Корпорация. Бюджет (Intersoft Lab) и другие.

· Финансовое управление, включающее помимо задач бюджетирования задачи финансового планирования, управленческого учета, трансфертного управления ресурсами, оценки бизнесов по методу ABC, анализа активов, пассивов, рисков. Системы - Oracle Financial Services Applications (Oracle),Контур Корпорация. Финансовое управление (Intersoft Lab) и другие.

 

На практике встречается гораздо больше видов задач, но здесь был перечислен ряд только тех задач, которые нашли свое воплощение в тиражных аналитических системах. Некоторые из этих систем могут решать только одну задачу, другие являются комплексом, включающим в себя широкий перечень взаимосвязанных задач.

Аналитические системы также классифицируются по масштабу решаемой задачи:

·  Системы автоматизации труда одного специалиста. Это так называемые DeskTop-системы, предназначенные для автоматизации труда узкого специалиста. Как правило, для эксплуатации таких систем не требуется помощь службы автоматизации.

·  Системы для коллективной работы группы сотрудников. Такие системы содержат средства, обеспечивающие коллективную работу пользователей в режиме реального времени с единой базой данных в рамках прав доступа. Такие системы уже требуют выполнения функций администрирования и сопровождения.

·  Системы для применения в территориально распределенной корпорации. Эти системы включают в себя свойства аналитических систем для групп пользователей, а также средства взаимодействия с удаленными подразделениями корпорации (филиалами) в виде технологий сбора данных, дистрибуции НСИ и отчетов. Системы данного класса сложны в эксплуатации, но при этом обеспечивают наиболее полное решение аналитических и управленческих задач.

 

По технологическому построению аналитические системы можно условно разделить на монолитные и настраиваемые:

·  Монолитные аналитические системы характеризуются тем, что аналитическая методика в них реализуется в коде самой программы, а не в виде настройки универсального аналитического инструмента. В этом случае аналитическая система не требует, как правило, выполнения существенных работ по своей настройке (за исключением систем класса Data Mining). Она может использоваться практически сразу после установки. В то же время такие системы не "гибкие" и плохо поддаются изменениям в соответствии с требованиями пользователя. Монолитные системы разрабатываются с применением базовых средств программирования и СУБД.

·  Настраиваемые аналитические системы характеризуются тем, что при их создании применяются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, но в то же время приводит к удорожанию конечного решения. Прикладные аналитические системы, выполненные в виде настроек универсальных аналитических инструментов, требуют большего объема работ при внедрении, однако позволяют реализовывать уникальные аналитические методики, принятые в организации.

 

Компромиссом между этими двумя классами систем является реализация аналитической методики в виде Приложения универсальной аналитической системы. Такой подход позволяет выполнять их тиражирование независимо друг от друга. Но подобных систем в настоящее время на рынке представлено крайне мало.

 

Инструменты конечного пользователя для выполнения запросов и построения отчетов

Системы данного класса (Query & Reporting) предназначены для формирования запросов к информационным системам в пользовательских терминах, а также их исполнение, интеграцию данных из разных источников, просмотр данных с возможностями детализации и обобщения и построение полноценных отчетов, как экранных, так и печатных. Предполагается, что уровень подготовки специалиста, создающего отчеты, может быть приравнен к опыту среднего пользователя Excel. Поэтому пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов (семантический слой). Визуализация результатов запроса может быть представлена пользователю в различном виде – плоские или многомерные таблицы, графики, диаграммы, различные специализированные интерфейсы.

Инструменты конечного пользователя для выполнения запросов и построения отчетов поставляются двумя способами:

·  в составе OLAP-систем,

·  в виде специализированных систем Query & Reporting.

 

Практически каждая система класса OLAP снабжена средствами Query & Reporting. Эти средства могут быть как встроенными в основной продукт (примеры – Business Objects, "Контур Стандарт", Oracle Discoverer), так и выделенными в отдельный продукт (например, система Impromptu в составе продуктов Cognos).

Также существуют и специализированные системы генерации и дистрибуции отчетов. Наиболее распространенные из них – это продукты компаний Crystal Decisions и Actuate. В то же время эти системы имеют в своем составе собственные OLAP-средства. Поэтому провести четкую грань между OLAP-системами и системами класса Query & Reporting практически невозможно. Пример – продукты компании MicroStrategy, которые различные аналитики и издания с равной регулярностью относят к продуктам обоих классов.

 

4. Концепции построения ИАС

Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных:

1)     Хранилища данных, или Склады данных (Data Warehouse);

2)     Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP);

3)     Интеллектуальный анализ данных - ИАД (Data Mining).

 

Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки - Data Mining. Поэтому наилучшим вариантом является комплексный подход к их внедрению.

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических ИСР, за которую активно борется большинство заказчиков информационно-аналитических систем, оборачивается катастрофической потерей гибкости.

Динамические ИАС, напротив, ориентированы на обработку нерегламентированных запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запросов и изучения их результатов.

Но динамические ИАС могут действовать не только в области оперативной аналитической обработки (OLAP); поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах:

1. Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных.

2. Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД.

3. Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (ИАД, Data Mining), главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

 

5. Общая структура информационной аналитической системы

Полная структура информационно-аналитической системы, построенной на основе хранилища данных, показана на рисунке 1. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.

 

 

Рисунок 1. Структура информационной аналитической  системы (ИАС)

 

Рассмотрим состав основных подсистем.

Подсистема хранения данных

Многомерное хранилище данных может быть организовано в виде одной из следующих структур:

1.     физической структуры, называемой MOLAP, в которую с определенной периодичностью загружаются данные из файлов – источников, принадлежащих базам оперативных данных

2.     виртуальной структуры, называемой ROLAP, которая динамически используется при запросах. ROLAP – система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, является Business Objects.

3.     гибридной структуры, называемой НOLAP, которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций.

 

Анализ параметров использования ROLAP и MOLAP информационных хранилищ показывает, что внедрение и эксплуатация ROLAP - систем является более простым и дешевым по сравнению с MOLAP – системами, но уступают последним в эффективности оперативного анализа данных.

 

Подсистема метаинформации

Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархии агрегаций измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.

В репозитории задается  схема отображения структуры файлов-источников данных на структуре ИХ, а также схема отображения структуры ИХ на витринах данных. Через репозиторий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.

 

Подсистема преобразования данных (загрузки хранилища)

Подсистема загрузки ИХ создается только для MOLAP – систем. Для ROLAP – систем в процессе выполнения запросов осуществляется преобразование данных из файлов – источников. В том и другом случаях требуется выполнение следующих основных функций:

·  сбор данных

·  очистка данных

·  агрегирование данных

 

Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозитории.

В процессе очистки данных осуществляется проверка целостности, исключение дублирования данных, отбраковка случайных данных, восстановление отсутствующих  данных, приведение данных к единому формату.

В случае необходимости агрегирования данных осуществляется суммирование итогов по заданным в репозитории признакам.

 

Подсистема представления данных (организация витрин данных)

Под витриной данных понимается предметно-ориентированное хранилище данных, как правило, агрегированной информации, предназначенное для использования группой пользователей в рамках конкретного вида деятельности предприятия, например маркетинга и т.д.

Как правило, витрины данных являются подмножествами общего хранилища данных компании, которое служит для них источником. Обычно общее ИХ и витрины данных разрабатываются параллельно.

 

Подсистема оперативного анализа данных

Подсистема оперативного анализа данных, как правило, используется лицами, подготавливающими информацию для принятия решений, путем выполнения различных статистических группировок исходных данных.

В рамках пользовательского интерфейса для оперативного анализа данных используются следующие базовые операции:

·  Поворот. Добавление нового признака анализа.

·  Проекция. Выборка подмножества по задаваемой совокупности измерений. При этом значения, лежащие на оси проекции, суммируются.

·  Раскрытие. Осуществляется декомпозиция признака агрегации на компоненты, например, признак года разбивается на кварталы. При этом автоматически детализуются числовые показатели.

·  Свертка. Операция обратная раскрытию. При этом значения детальных показателей суммируются в агрегируемый показатель.

·  Сечение или срез. Выделение подмножества данных по конкретным значениям одного или нескольких измерений.

 

Подсистема интеллектуального анализа данных

Подсистема интеллектуального анализа данных используется специальной категорией пользователей – аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования  стратегических и тактических решений. Интеллектуальный анализ требует более сложных методов анализа по сравнению со  статическими группировками и выполняется путем проведения множества сеансов.

Типичными задачами интеллектуального анализа данных являются:

·  Установление корреляций, причинно-следственных связей и временных связей событий, например определение местоположения прибыльных предприятий.

·  Классификация ситуаций,  позволяющая обобщать конкретные события в классы, например определение типичного профиля покупателя конкретных видов продукции.

·  Прогнозирование развития ситуаций, например прогнозирование цен, объемов продаж, производства.

 

К основным методам интеллектуального анализа данных относятся:

-       Методы многомерного статистического анализа,

-       Индуктивные методы построения деревьев решений,

-       Нейронные сети.

 

Подсистема «Информационная система руководителя»

Информационная система руководителя предназначена для лиц, непосредственно принимающих решения. Поэтому интерфейс таких систем должен быть в наибольшей степени упрощенным. Обычно в качестве интерфейса руководителям предприятия предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню. Часто в качестве интерфейса предлагаются  диаграммы Ишикава, представляющие  собой саморазворачивающееся  дерево показателей, в котором листья ветвей раскрашиваются в разные цвета, символизирующие характер состояния показателя (нормальный, тревожный, кризисный). Лист любой ветви дерева может быть развернут а таблицу значений показателя или график.

 

Подсистема WEB – публикации

Подсистема WEB – публикации предполагает преобразование полученной из ИХ информации в HTML – вид, доступный для ее просмотра удаленными клиентами с помощью браузеров Интернета.

 

Содержание

1.     Пространственная интерпретация данных

2.     Понятие хранилища данных

3.     Структура хранилищ данных

4.     Вопросы реализации Хранилищ Данных

5.     Хранилище данных предприятия

 

1. Пространственная интерпретация данных

Программные инструментальные средства, обеспечивающие автоматизацию аналитических работ в целях поддержки принятия решений, в литературе получили два распространенных названия: ОLАР - системы и информационные Хранилища.

Как правило, все инструментальные средства, предназначенные для автоматизации аналитических работ, приспособлены для обработки многомерных   массивов   информации, для хранения которых используются многомерные базы данных.

Информационное пространство, отображающее функционирование объекта, многомерно. Естественно стремление аналитика и ЛПР к тому, чтобы иметь дело с моделью данных в наиболее естественном виде. Это обстоятельство привело к тому, что с помощью современных программно-технических средств, имеющих широкие возможности  интерпретации данных, были созданы соответствующие многомерные модели.

В последнее десятилетие XX века основной моделью данных использованной в многочисленных инструментальных средствах создания и поддержки баз данных - СУБД была реляционная модель. Данные в ней представлены в виде множества связанных ключевыми полями двумерных таблиц – отношений (табл. 1).

Таблица 1

Реляционная модель представления данных

 

Модель

Месяц

Объем

"Жигули"

Июнь

12

"Жигули"

Июль

24

"Жигули"

Август

5

"Москвич"

Июнь

2

"Москвич"

Июль

18

«Волга»

Июль

19

 

А теперь представим, что у нас не три модели, а 30 и не три, а 12 различных месяцев. В случае построчного (реляционного) представления мы получим отчет в 360 строк (30х12), который займет не менее 5-6 страниц. В случае же многомерного (в нашем случае двухмерного) представления мы получим достаточно компактную таблицу 12 на 30, которая вполне уместится на одной странице и которую, даже при таком объеме данных, можно реально оценивать и анализировать (табл. 2).

Таблица 2

Многомерная модель представления данных

 

 

Июнь

Июль

Август

"Жигули"

12

24

5

"Москвич"

2

18

No

"Волга"

No

19

No

 

И когда говорится о многомерной организации данных, вовсе не подразумевается то, что данные представляются конечному пользователю (визуализируются) в виде четырех или пятимерных гиперкубов. Это невозможно, да и пользователю более привычно и комфортно иметь дело с двухмерным табличным представлением и двухмерной бизнес - графикой.

Многомерная модель данных представляет исследуемый объект в виде многомерного куба, чаще используют трехмерную модель.

По осям или граням куба откладываются измерения или реквизиты - признаки. Реквизиты - основания являются наполнением ячеек куба.

Многомерное представление при описании структур данных

Основными понятиями, с которыми оперирует пользователь и проектировщик в многомерной модели данных, являются:

·  измерение (Dimension);

·  ячейка (Cell). Иногда вместо термина "Ячейка" используется термин "Показатель" (Measure).

 

Измерение - это множество однотипных данных, образующих одну из граней гиперкуба. Например - Дни, Месяцы, Кварталы, Годы - это наиболее часто используемые в анализе временные Измерения. Примерами географических измерений являются: Города, Районы, Регионы, Страны и т.д.

В многомерной модели данных Измерения играют роль индексов, используемых для идентификации конкретных значений (Показателей), находящихся в Ячейках гиперкуба.

В свою очередь, Показатель - это поле (обычно цифровое), значения которого однозначно определяются фиксированным набором Измерений. В  зависимости от того, как формируются его значения, Показатель может быть определен, как:

·  Переменная (Variable) - значения таких Показателей один раз вводятся из какого-либо внешнего источника или формируются программно и затем в явном виде хранятся в многомерной базе данных (МБД);

·  Формула (Formula) - значения таких Показателей вычисляются по некоторой заранее специфицированной формуле.

 

То есть для Показателя, имеющего тип Формула, в БД хранится не его значения, а формула, по которой эти значения могут быть вычислены.

Заметим, что это различие существует только на этапе проектирования и полностью скрыто от конечных пользователей.

В примере каждое значение поля Объем продаж однозначно определяется комбинацией полей:

Модель автомобиля;

Месяц продаж.

Но в реальной ситуации для однозначной идентификации значения Показателя, скорее всего, потребуется большее число измерений, например:

Модель автомобиля;

Менеджер;

Время (например, Год).

Измерения:

Модель автомобиля – Жигули, Москвич, Волга

Время (Год) - 1994, 1995, 1995

Менеджер - Петров, Смирнов, Яковлев

Показатель:

Объем Продаж

И в терминах многомерной модели речь будет идти уже не о двухмерной таблице, а о трехмерном гиперкубе:

o первое Измерение - Модель автомобиля;

o второе Измерение - Менеджер, продавший автомобиль;

o третье Измерение - Время (Год);

на пересечении граней которого находятся значения Показателя Объем продаж.

 

Заметим, что, в отличие от Измерений, не все значения Показателей должны иметь и имеют реальные значения. Например, Менеджер Петров в 1994 г. мог еще не работать в фирме, и в этом случае все значения Показателя Объем продаж за этот год будут иметь неопределенные значения.

 

Гиперкубические и поликубические модели данных

В различных МСУБД используются два основных варианта организации данных:

·        Гиперкубическая модель;

·        Поликубическая модель.

 

В чем состоит разница? Системы, поддерживающие Поликубическую модель предполагают, что в МБД может быть определено несколько гиперкубов с различной размерностью и с различными Измерениями в качестве их граней. Например, значение Показателя Рабочее Время Менеджера, скорее всего, не зависит от Измерения Модель Автомобиля и однозначно определяется двумя Измерениями: День и Менеджер. В Поликубической модели в этом случае может быть объявлено два различных гиперкуба:

Двухмерный - для Показателя Рабочее Время Менеджера;

Трехмерный - для Показателя Объем Продаж.

В случае же Гиперкубической модели предполагается, что все Показатели должны определяться одним и тем же набором Измерений. То есть только из-за того, что Объем Продаж определяется тремя Измерениями, при описании Показателя Рабочее Время Менеджера придется также использовать три Измерения и вводить избыточное для этого Показателя Измерение Модель Автомобиля.

 

Методы извлечения информации из кубов данных

 

Для извлечения информации из кубов данных используются различные операции манипулирования Измерениями:

1)     Формирование "Среза".

Пользователя редко интересуют все потенциально возможные комбинации значений Измерений. Более того, он практически никогда не работает одновременно сразу со всем гиперкубом данных. Подмножество гиперкуба, получившееся в результате фиксации значения одного или более Измерений, называется Срезом (Slice). Например, если мы ограничим значение Измерения Модель Автомобиля = "ВАЗ2108", то получим подмножество гиперкуба (в нашем случае - двухмерную таблицу), содержащее информацию об истории продаж этой модели различными менеджерами в различные годы.

2)    Операция "Вращение".

Изменение порядка представления (визуализации) Измерений (обычно применяется при двухмерном представлении данных) называется Вращением (Rotate). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия. Например, если менеджер первоначально вывел отчет, в котором Модели автомобилей были перечислены по оси X, а Менеджеры по оси Y, он может решить, что такое представление мало наглядно, и поменять местами координаты (выполнить Вращение на 90 градусов).

3)    Отношения и Иерархические Отношения.

В нашем примере значения Показателей определяются только тремя измерениями. На самом деле их может быть гораздо больше и между их значениями обычно существуют множество различных Отношений (Relation) типа "один ко многим".

Например, каждый Менеджер может работать только в одном подразделении, а каждой модели автомобиля однозначно соответствует фирма, которая ее выпускает:

Менеджер ->Подразделение;

Модель Автомобиля ->Фирма-Производитель.

Заметим, что для Измерений, имеющих тип Время (таких как День, Месяц, Квартал, Год), все Отношения устанавливаются автоматически, и их не требуется описывать.

В свою очередь, множество Отношений может иметь иерархическую структуру - Иерархические Отношения (Hierarchical Relationships). Вот только несколько примеров таких Иерархических Отношений:

День -> Месяц -> Квартал -> Год;

Менеджер -> Подразделение -> Регион -> Фирма -> Страна;

Модель Автомобиля -> Завод-Производитель -> Страна.

И часто более удобно не объявлять новые Измерения и затем устанавливать между ними множество Отношений, а использовать механизм Иерархических Отношений. В этом случае все потенциально возможные значения из различных Измерений объединяются в одно множество. Например, мы можем добавить к множеству значений Измерения Менеджер ("Петров", "Сидоров", "Иванов", "Смирнов"), значения Измерения Подразделение ("Филиал 1", "Филиал 2", "Филиал 3") и Измерения Регион ("Восток", "Запад") и затем определить между этими значениями Отношение Иерархии.

4)     Операция Агрегации.

С точки зрения пользователя, Подразделение, Регион, Фирма, Страна являются точно такими же Измерениями, как и Менеджер. Но каждое из них соответствует новому, более высокому уровню агрегации значений Показателя Объем продаж. В процессе анализа пользователь не только работает с различными Срезами данных и выполняет их Вращение, но и переходит от детализированных данных к агрегированным, т.е. производит операцию Агрегации (Drill Up). Например, посмотрев, насколько успешно в 2004 г. Петров продавал модели "Жигули" и "Волга", управляющий может захотеть узнать, как выглядит соотношение продаж этих моделей на уровне Подразделения, где Петров работает. А затем получить аналогичную справку по Региону или Фирме.

5)    Операция Детализации.

Переход от более агрегированных к более детализированным данным называется операцией Детализации (Drill Down). Например, начав анализ на уровне Региона, пользователь может захотеть получить более точную информацию о работе конкретного Подразделения или Менеджера.

 

2. Понятие хранилища данных

Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehouse).

Приведем определение, сформулированное "отцом-основателем" хранилищ данных Биллом Инмоном: "Хранилище данных - это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений".

Данные в хранилище попадают из оперативных систем (OLTP-систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так "живет" в базах или файлах оперативных систем? Ответить можно кратко: анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных "уголках" корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД (что бывает крайне редко), аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах.

Таким образом, задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре.

Есть и еще одна причина, оправдывающая появление отдельного хранилища - сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.

Под хранилищем можно понимать не обязательно гигантское скопление данных - главное, чтобы оно было удобно для анализа. Вообще говоря, для маленьких хранилищ предназначается отдельный термин - Data Marts (киоски или витрины данных).

В основе концепции Хранилищ Данных лежат две основополагающие идеи:

·   Интеграция ранее разъединенных детализированных данных:

¾      исторические архивы,

¾      данные из традиционных СОД,

¾      данные из внешних источников

в едином Хранилище Данных, их согласование и возможно агрегация.

·   Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа.

 

Предметом концепции Хранилищ Данных являются сами данные. То есть, её предметом являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем. Основные требования к данным в хранилищах  приведены в таблице 2.

Таблица 2.

Основные требования к данным в Хранилище Данных

Предметная ориентированность

Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме.

Интегрированность

Все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище.

Неизменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения.

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени.

 

Для правильного понимания данной концепции необходимо понимание следующих принципиальных моментов: Концепция Хранилищ Данных - это концепция подготовки данных для анализа.

·   Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

·   Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации. Она предполагает реализацию единого интегрированного источника данных.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций. Но наиболее критичными и болезненными, оказываются вопросы, связанные с согласованием данных.

 

Основным требованием аналитика, является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.

Реализация ИХ может быть осуществлена несколькими способами:

Централизованное хранилище данных

Такой подход означает, что при нескольких источниках информации - операционных базах данных создаётся единое централизованное  хранилище (рис. 1).

Рисунок 1. Единое централизованное  хранилище

 

Вся поступающая в ИХ информация должна быть преобразована в принятую в данном ИХ структуру. Передача данных из операционных БД в ИХ, которая сопровождается доработкой, может быть организована по заданному временному графику и правилам доработки

Распределенное хранилище данных

Возможен и имеет место противоположный подход к хранению данных на основе распределения функций ИХ по местам их возникновения или группировки нескольких операционных БД вокруг локального или регионального информационного хранилища. Эти хранилища могут быть ориентированы на определённую предметную область или на регион в корпоративных структурах. Система локальных хранилищ действует в качестве распределённого хранилища (рис. 2).

 

Рисунок 2. Распределенное хранилище данных

 

Не исключается и наличие центрального хранилища, но в такой структуре требования к его размерности значительно облегчаются.

Автономные витрины данных

Одним из вариантов организации централизованного хранения и представления информации является концепция витрин данных. При таком подходе информация, относящаяся к крупной предметной области – например, информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных базах данных, которые называют витринами данных. Этот подход является развитием концепции распределенного ИХ в части придания функций предметной  ориентированности некоторым локальным ИХ.

Такой подход позволяет обойтись сравнительно менее ресурсоемкими аппаратными и программными средствами, обеспечивает повышение адаптируемости системы к изменяющимся условиям, расширяет доступность для внедрения. Пользователь предприятия или другого подразделения корпорации получает своё ИХ, обслуживающее местные потребности.

Единое интегрированное хранилище и много витрин данных

Эта структура ИХ объединяет две концепции: единого интегрированного хранилища и связанных с ним и получающих из него информацию витрин данных. В таком варианте имеется крупное информационное  хранилище агрегированной  и  подработанной информации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности.

Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неоднозначность данных - информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов,

Недостатком     является     необходимость     применения высокопроизводительных аппаратных средств и специализированных многомерных или гибридных программных инструментальных средств.

3. Структура хранилищ данных

ИХ представляет собой базу  обобщенной информации, формируемую из множества внешних и внутренних источников, на основе которой выполняются статистические группировки и интеллектуальный анализ данных.

В основе ИХ лежит понятие многомерного информационного пространства или гиперкуба, в ячейках которого хранятся анализируемые числовые показатели (например: объемы продаж, инвестиций, оборота и др.) Измерениями (осями) гиперкуба являются признаки анализа (например: время, группа продукции, регион и др.) При хранении признаки анализа отделяются от фактических данных.

Основными составляющими структуры хранилищ данных являются таблица фактов (fact table) и таблицы измерений (dimension tables).

Таблица фактов

Таблица фактов является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно говорят о четырех наиболее часто встречающихся типах фактов. К ним относятся:

·   факты, связанные с транзакциями (Transaction facts). Они основаны на отдельных событиях (типичными примерами которых являются телефонный звонок или снятие денег со счета с помощью банкомата);

·   факты, связанные с «моментальными снимками» (Snapshot facts). Основаны на состоянии объекта (например, банковского счета) в определенные моменты времени, например на конец дня или месяца. Типичными примерами таких фактов являются объем продаж за день или дневная выручка;

·   факты, связанные с элементами документа (Line-item facts). Основаны на том или ином документе (например, счете за товар или услуги) и содержат подробную информацию об элементах этого документа (например, количестве, цене, проценте скидки);

·   факты, связанные с событиями или состоянием объекта (Event or state facts). Представляют возникновение события без подробностей о нем (например, просто факт продажи или факт отсутствия таковой без иных подробностей).

 

Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно — лучше поместить их в меньшие по объему таблицы измерений. При этом как ключевые, так и некоторые неключевые поля должны соответствовать будущим измерениям OLAP-куба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные. Пример таблицы фактов, которая может быть построена на основе базы данных Northwind, приведен на рис. 3.

Рисунок 3. Пример таблицы фактов

  В данном примере измерениям будущего куба соответствуют первые шесть полей, а агрегатным данным — последние четыре.

Отметим, что для многомерного анализа пригодны таблицы фактов, содержащие как можно более подробные данные (то есть соответствующие членам нижних уровней иерархии соответствующих измерений). В данном случае предпочтительнее взять за основу факты продажи товаров отдельным заказчикам, а не суммы продаж для разных стран — последние все равно будут вычислены OLAP-средством. Исключение можно сделать, пожалуй, только для клиентских OLAP-средств, поскольку в силу ряда ограничений они не могут манипулировать большими объемами данных.

Отметим, что в таблице фактов нет никаких сведений о том, как группировать записи при вычислении агрегатных данных. Например, в ней есть идентификаторы продуктов или клиентов, но отсутствует информация о том, к какой категории относится данный продукт или в каком городе находится данный клиент. Эти сведения, в дальнейшем используемые для построения иерархий в измерениях куба, содержатся в таблицах измерений.

Таблицы измерений

Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле для однозначной идентификации члена измерения. Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на «родителя» данного члена в этой иерархии. Нередко (но не всегда) таблица измерений может содержать и поля, указывающие на «прародителей», и иных «предков» в данной иерархии (это обычно характерно для сбалансированных иерархий), а также дополнительные атрибуты членов измерений, содержавшиеся в исходной оперативной базе данных (например, адреса и телефоны клиентов).

Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов.

Отметим, что скорость роста таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов; например, добавление новой записи в таблицу измерений, характеризующую товары, производится только при появлении нового товара, не продававшегося ранее. Структура таблицы измерений приведена на рисунке 4.

 

 

Рисунок 4. Таблица измерений

 

Одно измерение куба может содержаться как в одной таблице (в том числе и при наличии нескольких уровней иерархии), так и в нескольких связанных таблицах, соответствующих различным уровням иерархии в измерении. Если каждое измерение содержится в одной таблице, такая схема хранилища данных носит название «звезда» (star schema). Пример такой схемы приведен на рис. 5.

Рисунок 5. Пример схемы «звезда»

 

Если же хотя бы одно измерение содержится в нескольких связанных таблицах, такая схема хранилища данных носит название «снежинка» (snowflake schema). Дополнительные таблицы измерений в такой схеме, обычно соответствующие верхним уровням иерархии измерения,  находятся в соотношении «один ко многим» с главной таблицей измерений, соответствующей нижнему уровню иерархии. Пример схемы «снежинка» приведен на рис.6.

Рисунок 6.  Пример схемы «снежинка»

 

Отметим, что даже при наличии иерархических измерений с целью повышения скорости выполнения запросов к хранилищу данных нередко предпочтение отдается схеме «звезда».

Говоря об измерениях, следует упомянуть о том, что значения, могут иметь различные уровни детализации. Например, нас может интересовать суммарная стоимость заказов, сделанных клиентами в разных странах, либо суммарная стоимость заказов, сделанных иногородними клиентами или даже отдельными клиентами. Естественно, результирующий набор агрегатных данных во втором и третьем случаях будет более детальным, чем в первом. Заметим, что возможность получения агрегатных данных с различной степенью детализации соответствует одному из требований, предъявляемых к хранилищам данных, — требованию доступности различных срезов данных для сравнения и анализа.

Поскольку в рассмотренном примере в общем случае в каждой стране может быть несколько городов, а в городе — несколько клиентов, можно говорить об иерархиях значений в измерениях. В этом случае на первом уровне иерархии располагаются страны, на втором — города, а на третьем — клиенты рис. 7.

Рисунок 7. Иерархия в измерении, связанная с географическим положением клиентов

Отметим, что иерархии могут быть сбалансированными (balanced), как, например, иерархия, представленная на рис. 3, а также иерархии, основанные на данных типа "дата—время", и несбалансированными (unbalanced). Типичный пример несбалансированной иерархии — иерархия типа "начальник—подчиненный" (рис. 8).

Рисунок 8.  Несбалансированная иерархия

 

Существуют также иерархии, занимающие промежуточное положение между сбалансированными и несбалансированными (они обозначаются термином ragged — "неровный"). Обычно они содержат такие члены, логические "родители" которых находятся не на непосредственно вышестоящем уровне. Например, в географической иерархии есть уровни Страна, Города и Штаты, но при этом в наборе данных имеются страны, не имеющие штатов или регионов между уровнями Страна и Города.

 

4. Вопросы реализации Хранилищ Данных

Аналитические системы предъявляют высокие требования к аппаратному и программному обеспечению. И, приступая к построению аналитической системы, следует понимать, что её реализация практически невозможна без разрешения таких вопросов как:

·   Неоднородность программной среды.

·   Распределенность.

·   Защиты данных от несанкционированного доступа.

·   Построения и ведения многоуровневых справочников метаданных.

·   Эффективное хранение и обработка очень больших объемов данных.

Неоднородность программной среды.

Основой Хранилищ Данных являются не внутренние, а внешние источники данных: различного рода информационные системы, электронные архивы, общедоступные и коммерческие электронные каталоги, справочники, статистические сборники. Как правило, сегодня в любой организации реально функционирует множество несвязанных или слабо связанных систем обработки данных. В большинстве случаев, они создавались в различное время, различными коллективами разработчиков и реализованы на основе различных программных и аппаратных средств. Таким образом, сама основа, на которой будет строиться Хранилище Данных, чаще всего уже является крайне неоднородной. Добавьте сюда средства выгрузки, транспортировки, реализации целевой БД Хранилища Данных.

Очевидно, что в таких условиях, даже говорить об однородности программных средств чрезвычайно сложно. И практически всегда, задача построения Хранилища Данных, это задача построения единой согласовано функционирующей информационной системы, на основе неоднородных программных средств и решений. И уже сам выбор средств реализации Хранилища Данных становится чрезвычайно сложной задачей. Здесь должно учитываться множество факторов, включая, взаимную совместимость различных программных компонент, легкость их освоения и использования, эффективность функционирования, стабильность и даже формы, уровень и потенциальную перспективность взаимоотношений различных фирм производителей.

Распределенность.

Хранилища Данных уже по своей природе являются распределенным решением.

В основе концепции Хранилищ Данных, лежит физическое разделение узлов, в которых выполняется операционная обработка, от узлов в которых выполняется анализ данных. И хотя, при реализации такой системы, нет необходимости в строгой синхронизации данных в различных узлах, средства асинхронной асимметричной репликации данных являются неотъемлемой частью практически любого решения.

Метаданные

Наличие метаданных и средств их представления конечным пользователям является одним из основополагающих факторов успешной реализации Хранилища Данных. Более того, без наличия актуальных, максимально полных и легко понимаемых пользователем описаний данных, Хранилище Данных превращается в обычный, но очень дорогостоящий электронный архив.

Первой же задачей, с которой сталкиваешься при проектировании и реализации системы Хранилищ Данных, является необходимость одновременной работы с самыми разнородными внешними источниками данных, несогласованностью их структур и форматов, масштабами и количеством архивов, которые должны быть переработаны и загружены. И при построении такой системы, разработчику сложно обойтись без высокоуровневых средств описания информационной модели системы. Причем, эта модель должна содержать описания не только целевых структур данных в БД Хранилища, но и структур данных в источниках их получения (различных информационных системах, архивах, электронных справочниках и т.д.), правила, процедуры и периодичность их выборки и выгрузки, процедуры и места согласования и агрегации.

Здесь следует сделать несколько замечаний относительно выбора конкретных средств проектирования. Как уже было сказано выше, характерными свойствами аналитической системы, является:

o Разнородность компонент.

o Ориентированность на нерегламентированную работу с данными.

 

Рассмотрим, как это влияет на выбор и требования к средствам проектирования. С одной стороны, из-за разнородности программных и системных компонент образующих Хранилища и малой доли регламентированных пользовательских приложений, чаще всего результатом проектирования системы будет не готовый к исполнению программный продукт, а база метаданных, содержащая всестороннее многоуровневое описание целевой информационной системы. С другой стороны в аналитических системах, именно вопросы полноты, актуальности, простоты использования и понимания метаданных приобретают особую актуальность.

 

Роль метаданных в системах Хранилищ Данных

В случае информационных систем ориентированных на аналитическую работу с данными (таблица 4)  наличие метаданных и средств их представления конечным пользователям является одним из основополагающих факторов успешной реализации системы. Для конечного пользователя, база метаданных является тем же самым, что и путеводитель для туриста, попавшего в незнакомый город. Прежде чем сформулировать свой вопрос к системе, менеджер должен понять, какая информация в ней есть, её актуальность, насколько ей можно доверять и даже, сколько времени может занять формирование ответа. Поэтому, для конечного пользователя крайне важно и желательно, чтобы в системе содержались не только описания собственно структур данных, их взаимосвязей, предвычисленных уровней агрегации, но, и:

·   Источников получения данных. Аналитику желательно не просто знать о том, какие данные есть в системе, но и источники их получения, и степень их достоверности. Например, одна и та же информация может попасть в Хранилище Данных из различных источников. В этом случае, пользователь должен иметь возможность узнать какой источник выбран в качестве основного и каким образом выполнялась согласование и очистка исходных данных.

·   Периодичности обновления. Пользователю желательно не просто знать, какому моменту времени соответствуют те или иные данные, но и когда они будут обновлены.

·   Собственников данных. Пользователю будет полезно знать, какие еще данные есть в системе, кто является их собственником и какие шаги он должен предпринять, чтобы получить к ним доступ.

·   Статистические оценки запросов. Еще до выполнения запроса пользователю желательно иметь хотя бы приблизительную оценку времени, которое потребуется для получения ответа, и представлять, каков будет объем этого ответа.

Таблица 4.

Уровни метаданных в Хранилище Данных

 

Уровень приложения (внешних источников данных)

Описывает структуру данных в операционных БД и других источниках данных. Обычно, этот уровень достаточно сложен для понимания неподготовленного пользователя и является приложение ориентированным

Уровень ядра Хранилища Данных

Описывает логическую и физическую структуру и взаимосвязи данных в Хранилище Данных.

Уровень конечного пользователя

Описывает структуры данных в Хранилище Данных в терминах предметной области конечного пользователя.

Вопросы защиты данных

Собрав в одном месте всю информацию об истории развития организации, ее успехах и неудачах, о взаимоотношениях с поставщиками и заказчиками, об истории развития и состоянии рынка, менеджеры получают уникальную возможность для анализа прошлой деятельности, сегодняшнего дня и построения обоснованных прогнозов на будущее. Однако не следует забывать и о том, что если не обеспечены надлежащие средства защиты и ограничения прав доступа, вы можете снабдить этой информацией и ваших конкурентов.

Одним из первых же вопросов, встающих при обсуждении проекта Хранилища Данных, является вопрос защиты данных. Чисто психологически, многих пугают не столько затраты на реализацию системы Хранилищ Данных, а то, что доступ к критически значимой информации может получить кто-либо, не имеющий на это права.

В таких системах, часто оказывается недостаточно защиты обеспечиваемой в стандартных конфигурациях коммерческих СУБД. Региональный менеджер должен видеть только те данные, которые относятся к его региону, а менеджер подразделения не должен видеть данные, относящиеся ко всей фирме. Но, для повышения эффективности доступа к данным, в целевой БД Хранилища Данных, все эти данные, как правило, хранятся в виде единой фактологической таблицы. Следствием этого, является то, что средства реализации должны поддерживать ограничения доступа не только на уровне отдельных таблиц и их колонок, но и отдельных строк в таблице.

Не менее остро стоят и вопросы авторизации и идентификации пользователей, защиты данных в местах их преобразования и согласования, в процессе их передачи по сети (шифрование паролей, текстов запросов, данных).

 

5. Хранилище данных предприятия

Тема Хранилищ данных имеет необычайную актуальность для современных российских предприятий. Причин этому две. Во-первых, большинство средних и крупных предприятий уже прошли стадию первичной автоматизации, то есть автоматизации бухгалтеров. Во-вторых, происходит быстрое укрупнение предприятий за счет их слияний, а также развития региональной сети. Поэтому настало время автоматизации менеджеров среднего и высшего звена.

Задачи Хранилища данных

В классическом представлении под целью создания Хранилища данных  понимается  поддержка принятия решений, другим словами обеспечение всех менеджеров предприятия полной, достоверной, согласованной и своевременной информацией из единого источника. Для реализации этой цели Хранилище данных должно выполнять ряд задач:

1.     Консолидация данных

2.     Интеграция данных

3.     Агрегация данных

4.     Расчеты производных показателей

5.     Предоставление данных для поддержки принятия решений (DSS)

Консолидация данных

Консолидация данных – это сбор в единую базу данных из удаленных филиалов многофилиального предприятия, или предприятий, входящих в холдинг (рис. 9). Консолидированные данные необходимы центральному руководству, чтобы осуществлять глобальное управление бизнесом, внедрять единую политику в филиалах и осуществлять  контроль над их деятельностью.

Рисунок 9.  Консолидация данных многоуровневого предприятия

Задача консолидации осложняется тем, что часто распределенные структуры создаются путем слияния предприятий, уже имеющих некоторый уровень автоматизации, обученный определенным системам персонал. Поэтому во многих случаях в филиалах работают различные системы автоматизации. Единственным способом консолидации данных в этих условиях является применение  разрозненных программ сбора показателей отчетности или единого Хранилища данных.

Интеграция данных

Интеграция данных – это объединение данных, которые изначально вводятся в разные  системы. Сами эти системы могут располагаться в одной локальной сети, но иметь различные платформы и внутреннюю архитектуру (рис. 10). Такая ситуация практически неизбежна во всех предприятиях занимающихся сложным бизнесом. Как правило, один единственный поставщик не может создать систему, в которой одинаково хорошо решены вопросы бухгалтерского учета и автоматизации производственного цикла,  управления кадрами и документооборота и так далее.

 

Рисунок 10.   Интеграция данных из разнородных источников

 

Кроме того, существуют задачи, например, маркетингового анализа, привлечения клиентов, анализа конкурентной среды, которые по своей природе требуют получения (покупки) информации от разных поставщиков. Эта информация поставляется в виде разнообразных баз данных или электронных таблиц и требует загрузки в общую базу данных для совместного анализа.

 

Агрегация данных

Агрегация данных – это вычисление обобщенных показателей для поддержки стратегического или тактического управления из детальных данных. Например, все записи о продажах двухсот тысяч наименований товаров тысяче оптовых покупателям за каждый день года преобразуются в данные о продажах десяти категорий товаров пяти категориям покупателей в разрезе месяцев и кварталов года и регионов (рис. 11). Эти данные используются впоследствии менеджерами для принятия решений об изменениях направлений бизнеса, расширении рынка,  анализа сезонных колебаний спроса на товары разных категорий.

 

 

Рисунок 11.   Предварительная агрегация данных по разным разрезам

 

Предварительный расчет агрегированных показателей применяется для того, чтобы руководитель получал ответы на подобные запросы предельно быстро. В то же время в хранилище собираются максимально детальные данные, что позволяет строить отчеты в произвольных аналитических разрезах, вычисляя агрегаты по мере возникновения в них потребности.

Расчеты производных показателей

В управленческой практике собранные из подразделений первичные оперативные данные используются для расчета сложных финансовых и оперативных показателей, таких как прибыль на капитал, средневзвешенные цены, ликвидность, доходность клиента и т.д. Хранилище данных предоставляет формульный язык для настройки алгоритмов расчета показателей и специальные механизмы быстрого выполнения расчетов над огромными массивами первичной информации.

Предоставление данных для поддержки принятия решений (DSS)

Как уже указывалось выше, изначально концепция Хранилища данных была разработана с единственной целью – для информационной поддержки принятия решений. Поэтому предполагалось, что данные Хранилища должны быть неизменяемы. Пользовательский интерфейс  обеспечивает всего две основные функции – выпуск отчетов для печати и интерактивный анализ данных. В связи с этим в качестве front-end можно применять универсальные системы выполнения запросов, анализа данных и выпуска отчетов. Эти инструменты позволяют свести к минимуму затраты на разработку отчетов, во многих случаях сводя создание новых форм отчетов к настройке, выполняемой самим пользователем.

 


Содержание

1.     Место OLAP в информационной структуре предприятия

2.     Оперативная аналитическая обработка данных

3.     Требования к средствам оперативной аналитической обработки

4.     Классификация OLAP-продуктов

5.     Принципы работы OLAP-клиентов

6.     Выбор архитектуры OLAP-приложения

7.     Сферы применения OLAP-технологий

8.     Пример использования  OLAP-технологий для анализа в сфере продаж

 

1. Место OLAP в информационной структуре предприятия

Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehouse).

Данные в хранилище попадают из оперативных систем (OLTP-систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

Задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре.

Есть и еще одна причина, оправдывающая появление отдельного хранилища - сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.

Под хранилищем можно понимать не обязательно гигантское скопление данных - главное, чтобы оно было удобно для анализа.

Централизация и удобное структурирование - это далеко не все, что нужно аналитику. Ему ведь еще требуется инструмент для просмотра, визуализации информации. Традиционные отчеты, даже построенные на основе единого хранилища, лишены одного - гибкости. Их нельзя "покрутить", "развернуть" или "свернуть", чтобы получить желаемое представление данных. Вот бы ему такой инструмент, который позволил бы разворачивать и сворачивать данные просто и удобно! В качестве такого инструмента и выступает OLAP.

Хотя OLAP и не представляет собой необходимый атрибут хранилища данных, он все чаще и чаще применяется для анализа накопленных в этом хранилище сведений.

Место OLAP  в информационной структуре предприятия (рис. 1).

Структура хранилища данных

Рисунок 1. Место OLAP  в информационной структуре предприятия

 

Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, т. е. информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.

Подытоживая, можно определить OLAP как совокупность средств многомерного анализа данных, накопленных в хранилище.

2. Оперативная аналитическая обработка данных

В основе концепции OLAP лежит принцип многомерного представления данных. В 1993 году  E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь, указав на невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом", и определил общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

По Кодду, многомерное концептуальное представление данных (multi-dimensional conceptual view) представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных.

Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.

Так, измерение Исполнитель может определяться направлением консолидации, состоящим из уровней обобщения "предприятие - подразделение - отдел - служащий". Измерение Время может даже включать два направления консолидации - "год - квартал - месяц - день" и "неделя - день", поскольку счет времени по месяцам и по неделям несовместим. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений.

Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим; напротив, операция подъема (rolling up) означает движение от низших уровней к высшим (рис. 2).

Рисунок 2.   Измерения и направления консолидации данных

3. Требования к средствам оперативной аналитической обработки

Многомерный подход возник практически одновременно и параллельно с реляционным. Однако, только начиная с середины девяностых годов, а точнее с 1993 г., интерес к МСУБД начал приобретать всеобщий характер. Именно в этом году появилась новая программная статья одного из основоположников реляционного подхода Э. Кодда, в которой он сформулировал 12 основных требований к средствам реализации OLAP (табл. 1).

Таблица 1. 

1

Многомерное представление данных

Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

2

Прозрачность

Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда они берутся.

3

Доступность

Средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных.

4

Согласованная производительность

Производительность практически не должна зависеть от количества Измерений в запросе.

5

Поддержка архитектуры клиент-сервер

Средства должны работать в архитектуре клиент-сервер.

6

Равноправность всех измерений

Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными).

7

Динамическая обработка разреженных матриц

Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом.

8

Поддержка многопользовательского режима работы с данными

Средства должны обеспечивать возможность работать более чем одному пользователю.

9

Поддержка операций на основе различных измерений

Все многомерные операции (например Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений.

10

Простота манипулирования данными

Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс.

11

Развитые средства представления данных

Средства должны поддерживать различные способы визуализации (представления) данных.

12

Неограниченное число измерений и уровней агрегации данных

Не должно быть ограничений на число поддерживаемых Измерений.

Правила оценки программных продуктов класса OLAP

 

Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.

Позже определение Кодда было переработано в так называемый тест FASMI, требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.

 

 

Тест FASMI

Помнить 12 правил Кодда слишком обременительно для большинства людей. Оказались, что можно  резюмировать OLAP-определение только пятью ключевыми словами: Быстрый Анализ Разделяемой Многомерной Информации - или, кратко - FASMI (в переводе с английского: Fast Analysis of Shared Multidimensional Information).

Это определение впервые было сформулировано в начале 1995 года и с тех пор не нуждалось в пересмотре.

FAST (Быстрый) - означает, что система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд. При этом самые простые запросы обрабатываются в течение одной секунды и очень немногие - более 20-ти секунд. Исследования показали, что конечные пользователи воспринимают процесс неудачным, если результаты не получены по истечении 30 секунд.

На первый взгляд может казаться удивительным, что при получении отчета за минуту, на который не так давно требовались дни, пользователь очень быстро начинает скучать во время ожиданий, и проект оказывается намного менее успешным, чем в случае мгновенного ответа, даже ценой менее детального анализа.

ANALYSIS (Анализ) означает, что система может справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивает его сохранение в виде, доступном для конечного пользователя.

Не так важно, выполнен ли этот анализ в собственных инструментальных средствах поставщика или в связанном внешнем программном продукте типа электронной таблицы, просто все требуемые функциональные возможности анализа должны обеспечиваться интуитивным способом для конечных пользователей. Средства анализа могли бы включать определенные процедуры, типа анализа временных рядов, распределения затрат, валютных переводов, поиска целей, изменения многомерных структур, непроцедурного моделирования, выявления исключительных ситуаций, извлечения данных и другие операции зависимые от приложения. Такие возможности широко отличаются среди продуктов, в зависимости от целевой ориентации.

SHARED (Разделяемой) означает, что система осуществляет все требования защиты конфиденциальности (возможно до уровня ячейки) и, если множественный доступ для записи необходим, обеспечивает блокировку модификаций на соответствующем уровне. Не во всех приложениях есть необходимость обратной записи данных. Однако количество таких приложений растет, и система должна быть способна обработать множественные модификации своевременным, безопасным способом.

MULTIDIMENSIONAL (Многомерной) - это ключевое требование. Если бы нужно было определить OLAP одним словом, то выбрали бы его. Система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий, поскольку это определенно наиболее логичный способ анализировать бизнес и организации. Не установлено минимальное число измерений, которые должны быть обработаны, поскольку оно также зависит от приложения, и большинство продуктов OLAP имеет достаточное количество измерений для тех рынков, на которые они нацелены.

INFORMATION (Информации) - это все. Необходимая информация должна быть получена там, где она необходима. Однако многое зависит от приложения. Мощность различных продуктов измеряется в терминах того, сколько входных данных они могут обрабатывать, но не сколько гигабайт они могут хранить. Мощность продуктов весьма различна - самые большие OLAP продукты могут оперировать, по крайней мере, в тысячу раз большим количеством данных по сравнению с самыми маленькими. По этому поводу следует учитывать много факторов, включая дублирование данных, требуемую оперативная память, использование дискового пространства, эксплуатационные показатели, интеграцию с информационными хранилищами и т.п.

Тест FASMI - разумное и понятное определение целей, на достижение которых ориентированы OLAP.

 

4. Классификация OLAP-продуктов

Итак, суть OLAP заключается в том, что исходная для анализа информация представляется в виде многомерного куба, и обеспечивается возможность произвольно манипулировать ею и получать нужные информационные разрезы - отчеты. При этом конечный пользователь видит куб как многомерную динамическую таблицу, которая автоматически суммирует данные (факты) в различных разрезах (измерениях), и позволяет интерактивно управлять вычислениями и формой отчета. Выполнение этих операций обеспечивается OLAP-машиной (или машиной OLAP-вычислений).

На сегодняшний день в мире разработано множество продуктов, реализующих OLAP-технологии. Чтобы легче было ориентироваться среди них, используют классификации OLAP-продуктов: по способу хранения данных для анализа и по месту нахождения OLAP-машины. Рассмотрим подробнее каждую категорию OLAP-продуктов.

 

Классификация по способу хранения данных.

Многомерные кубы строятся на основе исходных и агрегатных данных. И исходные и агрегатные данные для кубов могут храниться как в реляционных, так и многомерных базах данных. Поэтому в настоящее время применяются три способа хранения данных: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) и HOLAP (Hybrid OLAP). Соответственно, OLAP-продукты по способу хранения данных делятся на три аналогичные категории:

1.  В случае MOLAP, исходные и агрегатные данные хранятся в многомерной БД или в многомерном  локальном кубе.

2.  В ROLAP-продуктах исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства.

3.  В случае использования HOLAP архитектуры исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных.

 

Классификация по месту размещения OLAP-машины.

По этому признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты:

·  В серверных OLAP-средствах вычисления и хранение агрегатных данных выполняются отдельным процессом - сервером. Клиентское приложение получает только результаты запросов к многомерным кубам, которые хранятся на сервере. Некоторые OLAP-серверы поддерживают хранение данных только в реляционных базах, некоторые - только в многомерных. Многие современные OLAP-серверы поддерживают все три способа хранения данных: MOLAP, ROLAP и HOLAP.

MOLAP

MOLAP - это Multidimensional On-Line Analytical Processing, то есть Многомерный OLAP. Это означает, что сервер для хранения данных использует  многомерную базу данных (МБД). Смысл использования МБД очевиден. Она может эффективно хранить многомерные по своей природе данные, обеспечивая средства быстрого обслуживания запросов к базе данных. Данные передаются от источника данных в многомерную базу данных, а затем база данных подвергается агрегации. Предварительный расчет - это то, что ускоряет OLAP-запросы, поскольку расчет сводных данных уже произведен. Время запроса становится функцией исключительно времени, необходимого для доступа к отдельному фрагменту данных и выполнения расчета. Этот метод поддерживает концепцию, согласно которой работа производится единожды, а результаты затем используются снова и снова. Многомерные базы данных являются относительно новой технологией. Использование МБД имеет те же недостатки, что и большинство новых технологий. А именно - они не так устойчивы, как реляционные базы данных (РБД), и в той же мере не оптимизированы. Другое слабое место МБД заключается в невозможности использовать большинство многомерных баз в процессе агрегации данных, поэтому требуется время для того, чтобы новая информация стала доступна для анализа.

ROLAP

ROLAP - это Relational On-Line Analytical Processing, то есть Реляционный OLAP. Термин ROLAP обозначает, что OLAP-сервер базируется на реляционной базе данных. Исходные данные вводятся в реляционную базу данных, обычно по схеме "звезда" или схеме "снежинка", что способствует сокращению времени извлечения. Сервер обеспечивает многомерную модель данных с помощью оптимизированных SQL-запросов.

Существует ряд причин для выбора именно реляционной, а не многомерной базы данных. РБД - это хорошо отработанная технология, имеющая множество возможностей для оптимизации. Использование в реальных условиях дало в результате более проработанный продукт. К тому же, РБД поддерживают более крупные объемы данных, чем МБД. Они как раз и спроектированы для таких объемов. Основным аргументом против РБД является сложность запросов, необходимых для получения информации из большой базы данных с помощью SQL. Неопытный SQL-программист мог бы с легкостью обременить ценные системные ресурсы попытками выполнить какой-нибудь подобный запрос, который в МБД выполняется гораздо проще.

Агрегированные/Предварительно агрегированные данные

Быстрая реализация запросов является императивом для OLAP. Это один из базовых принципов OLAP - способность интуитивно манипулировать данными требует быстрого извлечения информации. В целом, чем больше вычислений необходимо произвести, чтобы получить фрагмент информации, тем медленнее происходит отклик. Поэтому, чтобы сохранить маленькое время реализации запросов, фрагменты информации, обращение к которым обычно происходит наиболее часто, но которые при этом требуют вычисления, подвергаются предварительной агрегации. То есть они подсчитываются и затем хранятся в базе данных в качестве новых данных. В качестве примера типа данных, который допустимо рассчитать заранее, можно привести сводные данные - например, показатели продаж по месяцам, кварталам или годам, для которых действительно введенными данными являются ежедневные показатели.

Различные поставщики придерживаются различных методов отбора параметров, требующих предварительной агрегации и числа предварительно вычисляемых величин. Подход к агрегации влияет одновременно и на базу данных и на время реализации запросов. Если вычисляется больше величин, вероятность того, что пользователь запросит уже вычисленную величину, возрастает, и поэтому время отклика сократиться, так как не придется запрашивать изначальную величину для вычисления. Однако, если вычислить все возможные величины - это не лучшее решение - в таком случае существенно возрастает размер базы данных, что сделает ее неуправляемой, да и время агрегации будет слишком большим. К тому же, когда в базу данных добавляются числовые значения, или если они изменяются, информация эта должна отражаться на предварительно вычисленных величинах, зависящих от новых данных. Таким образом, и обновление базы может также занять много времени в случае большого числа предварительно вычисляемых величин. Поскольку обычно во время агрегации база данных работает автономно, желательно, чтобы время агрегации было не слишком длительным.

 

·  OLAP-клиент устроен по-другому. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты также делятся на ROLAP и MOLAP. А некоторые могут поддерживать оба варианта доступа к данным.

У каждого из этих подходов, есть свои "плюсы" и "минусы". Вопреки распространенному мнению о преимуществах серверных средств перед клиентскими, в целом ряде случаев применение OLAP-клиента для пользователей может оказаться эффективнее и выгоднее использования OLAP-сервера.

Разработка аналитических приложений с помощью клиентских OLAP-средств – процесс быстрый и не требующий специальной подготовки исполнителя. Пользователь, знающий физическую реализацию базы данных, может разработать аналитическое приложение самостоятельно, без привлечения ИТ-специалиста.

При использовании OLAP-сервера необходимо изучить 2 разные системы, иногда от различных поставщиков, – для создания кубов на сервере, и для разработки клиентского приложения.

OLAP-клиент предоставляет единый визуальный интерфейс для описания кубов и настройки к ним пользовательских интерфейсов.

Итак, в каких случаях применение OLAP-клиента для пользователей может оказаться эффективнее и выгоднее использования OLAP-сервера?

· Экономическая целесообразность применения OLAP-сервера возникает, когда объемы данных очень велики и непосильны для OLAP-клиента, иначе более оправдано применение последнего. В этом случае OLAP-клиент сочетает в себе высокие характеристики производительности и низкую стоимость.

· Мощные ПК аналитиков – еще один довод в пользу OLAP-клиентов. При применении OLAP-сервера эти мощности не используются.

 

Среди преимуществ OLAP-клиентов можно также назвать следующее:

· Затраты на внедрение и сопровождение OLAP-клиента существенно ниже, чем затраты на OLAP-сервер.

· При использовании OLAP-клиента со встроенной машиной передача данных по сети производится один раз. При выполнении OLAP-операций новых потоков данных не порождается.

 

5. Принципы работы OLAP-клиентов

Рассмотрим процесс создания OLAP-приложения с помощью клиентского инструментального средства (рис. 1).

 

 

Рисунок 1.   Создание OLAP-приложения с помощью клиентского ROLAP-средства

 

Принцип работы ROLAP-клиентов – предварительное описание семантического слоя, за которым скрывается физическая структура исходных данных. При этом источниками данных могут быть: локальные таблицы, РСУБД. Список поддерживаемых источников данных определяется конкретным программным продуктом. После этого пользователь может самостоятельно манипулировать понятными ему объектами в терминах предметной области для создания кубов и аналитических интерфейсов.

Принцип работы клиента OLAP-сервера иной. В OLAP-сервере при создании кубов пользователь манипулирует физическими описаниями БД. При этом в самом кубе создаются пользовательские описания. Клиент OLAP-сервера настраивается только на куб.

При создании семантического слоя источники данных – таблицы Sales и Deal – описываются понятными конечному пользователю терминами и превращаются в «Продукты» и «Сделки». Поле «ID» из таблицы «Продукты» переименовывается в «Код», а «Name» - в «Товар» и т.д.

Затем создается бизнес-объект «Продажи». Бизнес-объект – это плоская таблица, на основе которой формируется многомерный куб. При создании бизнес-объекта таблицы «Продукты» и «Сделки» объединяются по полю «Код» товара. Поскольку для отображения в отчете не потребуются все поля таблиц – бизнес-объект использует только поля «Товар», «Дата» и «Сумма».

Далее на базе бизнес-объекта создается OLAP-отчет. Пользователь выбирает бизнес-объект и перетаскивает его атрибуты в области колонок или строк таблицы отчета.

В нашем примере на базе бизнес-объекта «Продажи» создан отчет по продажам товаров по месяцам.

При работе с интерактивным отчетом пользователь может задавать условия фильтрации и группировки такими же простыми движениями «мышью». В этот момент ROLAP-клиент обращается к данным в кэше. Клиент же OLAP-сервера генерирует новый запрос к многомерной базе данных. Например, применив в отчете о продажах фильтр по товарам, можно получить отчет о продажах интересующих нас товаров.

Все настройки OLAP-приложения могут храниться в выделенном репозитории метаданных, в приложении или в системном репозитории многомерной базы данных. Реализация зависит от конкретного программного продукта.

Все, что включается в состав этих приложений, представляет собой стандартный взгляд на интерфейс, заранее определенные функции и структуру, а также быстрые решения для более или менее стандартных ситуаций. Например, популярны финансовые пакеты. Заранее созданные финансовые приложения позволят специалистам использовать привычные финансовые инструменты без необходимости проектировать структуру базы данных или общепринятые формы и отчеты.

Интернет является новой формой клиента. Кроме того, он несет на себе печать новых технологий; множество интернет-решений существенно отличаются по своим возможностям в целом и в качестве OLAP-решения - в частности. Существует масса преимуществ в формировании OLAP-отчетов через Интернет. Наиболее существенным представляется отсутствие необходимости в специализированном программном обеспечении для доступа к информации. Это экономит предприятию кучу времени и денег.

 

6. Выбор архитектуры OLAP-приложения

При реализации информационно-аналитической системы важно не ошибиться в выборе архитектуры OLAP-приложения. Дословный перевод термина On-Line Analytical Process — «оперативная аналитическая обработка» — часто воспринимается буквально в том смысле, что поступающие в систему данные оперативно анализируются. Это заблуждение — оперативность анализа никак не связана с реальным временем обновления данных в системе. Эта характеристика относится к времени реакции OLAP-системы на запросы пользователя. При этом зачастую анализируемые данные представляют собой снимок информации «на вчерашний день», если, например, данные в хранилищах обновляются раз в сутки.

В этом контексте более точен перевод OLAP как «интерактивная аналитическая обработка». Именно возможность анализа данных в интерактивном режиме отличает OLAP-системы от систем подготовки регламентированных отчетов.

Другой особенностью интерактивной обработки в формулировке родоначальника OLAP Э. Кодда является возможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, т. е. самым понятным для корпоративных аналитиков способом». У самого Кодда термин OLAP обозначает исключительно конкретный способ представления данных на концептуальном уровне — многомерный. На физическом уровне данные могут храниться в реляционных базах данных, однако на деле OLAP-инструменты, как правило, работают с многомерными базами данных, в которых данные упорядочены в виде гиперкуба (рис. 1).

 

 

Рисунок 1.  OLAP – куб (гиперкуб, метакуб)

 

При этом актуальность этих данных определяется моментом наполнения гиперкуба новыми данными.

Очевидно, что время формирования многомерной базы данных существенно зависит от объема загружаемых в нее данных, поэтому разумно ограничить этот объем. Но как при этом не сузить возможности анализа и не лишить пользователя доступа ко всей интересующей информации? Существует два альтернативных пути: Analyze then query («Сначала проанализируй — затем запроси дополнительную информацию») и Query then analyze («Сначала запроси данные — затем анализируй»).

Последователи первого пути предлагают загружать в многомерную базу данных обобщенную информацию, например, месячные, квартальные, годовые итоги по подразделениям. А при необходимости детализации данных пользователю предлагается сформировать отчет по реляционной базе, содержащей требуемую выборку, например, по дням для данного подразделения или по месяцам и сотрудникам выбранного подразделения.


Закрыть ... [X]

ВВЕДЕНИНФОРМАЦИОННО -АНАЛИТИЧЕСКИЕ Мастер классы из бумаги коробочки

Что такое два связанных контурах Что такое два связанных контурах Что такое два связанных контурах Что такое два связанных контурах Что такое два связанных контурах Что такое два связанных контурах