Раздел 10. Многомерные методы анализа данных
Методов многомерного анализа данных много, но они разрозненные и, как правило, несводимые в единое целое. Многообразие этих методов обусловлено объективным многообразием изучаемых явлений, которые данные методы призваны отображать и измерять. Ценность их определяется тем, насколько каждый из них и все они адекватны изучаемым предметам, полно и достоверно выявляют и объясняют скрытые причинно-следственные связи признаков, которые не могут быть установлены и предъявлены с помощью плоских одномерных расчетов и примитивных цифровых иллюстраций. Распространенное пренебрежение этими методами, игнорирование их в условиях принятия сложных управленческих решений чревато большими упущенными выгодами и потерями материальных, трудовых и финансовых ресурсов, которые вне реализации оптимальных схем используются некомплексно, а следовательно, неэффективно. Отсюда вытекает объективная необходимость изучения методов многомерного анализа данных и, несмотря на сложные процедуры их приложения, столь же объективная целесообразность их широкого практического применения. В отличие от простых одномерных методов, оперирующих ограниченными и, как правило, однородными наборами объектов наблюдения и очевидными взаимосвязями между их признаками, многомерные методы имеют дело с неограниченными и разрозненными наборами наблюдаемых объектов и неочевидными и, как правило, многообразными и по преимуществу разнонаправленными взаимосвязями между их признаками. Фундаментальное отличие состоит в том, что само множество наблюдаемых объектов и признаков, как и гипотезы и закономерности распределения и изменения их значений в пространстве и времени, здесь неизвестны и не даны, а должны быть найдены, выступая каждый раз не только целью определения исходных условий, но и сущностью самого исследования. Предметом наблюдения и изучения здесь выступают как параметрические, так и непарамётрические (качественные порядковые или ранговые) связи, детерминированные и недетерминированные (стохастические), массовые и робастные, реальные и ложные, наблюдаемые и ненаблюдаемые (латентные) связи, т.е. все виды и формы связей, недоступные для простого наблюдения и изучения. При этом разнородность наблюдаемых объектов и многообразие признаков, характеризующих их, неочевидность и разнонаправленность взаимосвязей между ними определяются многомерной природой наблюдаемых явлений, формирующих сложное матричное множество пересекающихся неоднородных объектов и комплексных признаков, выявление и изучение которых невозможны с помощью простых одномерных методов. В результате возникает объективная необходимость обращения к методам многомерного анализа данных, успех в применении которых определяется знанием природы изучаемых объектов, их размерности и многообразных форм многомерных взаимосвязей. Несмотря на актуальность и важность, многомерные методы в современной литературе (не говоря о работах прошлых времен) представлены чрезвычайно усложненно. К сожалению, прозрачно объединить в целое и извлечь нечто рациональное из того, что к настоящему времени опубликовано, очень сложно. А студентам сегодня преподаются в качестве многомерных методов скорее наборы некоторых усложненных счетных процедур, не имеющих, как правило, ни начала, ни конца, но не логически связанные и практически понятые и применимые алгоритмы. Подобные материи в нормальных дидактических средах понять нельзя, их можно только запомнить. Это объясняется во многом, конечно, не отсутствием желания излагать сложное прозрачно и просто, а сложностью и многоразмерностью самого предмета анализа, объективной невозможностью его простого представления, о чем речь шла ранее. Нельзя объять необъятное, нельзя алгоритм, требующий выполнения нескольких десятков и даже сотен действий, заменить алгоритмом из двух-трех действий. Попытка такой замены это всегда упрощенчество и, следовательно, разрушение сути самого дела, а не упрощение, удача или гениальный ход, как это иногда может показаться легковерным. И поэтому не случайно, а скорее закономерно, что все (или почти все) современные, и тем более старые, традиционные учебные пособия по статистике оперируют, как правило, одномерными методами сбора, обработки и анализа данных, упрощая многомерные как чрезвычайно сложные, которые в рамках учебных пособий физически просто невозможно представить. Иллюстрировать с помощью таких приемов что-то, конечно, можно и нужно, доказать и объяснить практически ничего нельзя. Столетиями, начиная с Я.Бернулли (1654-1705), пробовали, ничего не вышло. Не выйдет и впредь, когда доказывать и объяснять приходится куда более сложные виртуальные вещи и нейронные связи, о существовании которых прежде понятия не имели. Почему? Объяснение простое. При изучении и применении одномерных статистических методов ограничиваются обычно заранее известными, как правило, упрощенными предпосылками, допущениями и гипотезами, не требующими предварительных доказательств и проверок. Здесь повсеместно доминируют здравый смысл и принцип правдоподобия, ходячие истины типа «все сущее разумно, все разумное — суще», «все очевидное верно, все верное — очевидно», а все неочевидное — неверно, и оно, конечно же, только от болезненного воображения или дьявола. Словом, дело обычно представлялось (представляется и теперь) так, что основу основ, фундамент статистики как науки составляют эмпирические наблюдения за окружающим нас миром, упрощенные детерминированные законы его познания, не требующие доказательств индуктивные обобщения, а все остальное (стохастические процессы, индетерминизм, случайность, вероятность, риски, методы проверки статистических гипотез, ненаблюдаемые факты и т.д.) — это упражнения досужего ума. В связи с этим в прошлом почти все ограничивалось имитацией и во многом воображаемыми оценками. Не отвечая своему призванию и назначению, статистика была вынуждена адаптировать факты, представлять их в ожидаемом виде, а не как соответствующие духу и букве праведной жизни. И так обстояло дело (продолжает обстоять и теперь) отнюдь не в одной России. Так оно в принципе обстоит и в других странах, включая страны так называемой развитой демократии и экономики, откуда, в сущности, как раз и происходит практика формального представления и субъективной интерпретации данных. Причина заключается в том, что изучением неочевидных событий и процессов, законами распределения скрытых, латентных и, как правило, ненаблюдаемых явлений, сложными гипотезами и законами, скажем, многомерного, робастного или биноминального распределений, распределениями Пуассона, Байеса, Вальраса, Парето, Коши, Вейбула и т.д., изучением случайности как сложной закономерности, словом, изучением реального мира традиционная статистика мало интересовалась и ограниченно не занималась. Не особо занимается она этим по тем же соображениям сложности предмета сколько-нибудь значимо и теперь. В результате за рамками традиционных методов оставались (и остаются) все (или почти все) приемы и процедуры статистического эксперимента, эконометрики, актуарных вычислений, электронной обработки данных, прикладной статистики, важнейшие гипотезы статистических распределений, критерии и приемы их проверки, независимые, нелинейные и непараметрические связи и т.д. Отсюда общая ограниченность традиционной статистики, убывающий коэффициент ее полезного действия, недовольство ею и игнорирование ее фундаментальных ценностей. Между тем окружающий нас мир это мир сложных, многомерных и противоречивых процессов, фактов и событий, адекватное познание и одномерное объяснение которого невозможно (и никогда не было и не будет возможно) с помощью простых приемов, на уровне здравого смысла, эмпирически, одним лишь методом проб и ошибок. Преодолевать ограниченность современной традиционной статистики вне апелляции и практического применения методов многомерного анализа данных далее невозможно. Конечно, концептуальное понимание отличий многомерных от одномерных методов сбора, обработки, анализа, моделирования и сопоставления данных необходимо, но недостаточно в учебном процессе. Здесь дополнительно требуются знания профессиональных различий, без которых осмысленно решать и предметно объяснять решение прикладных задач проблематично. В чем состоят эти отличия? При применении одномерных методов наблюдаемые объекты (их множество может быть сколь угодно большим; минимальное множество, соответствующее требованиям малой выборки, во всех случаях должно составлять 30 ед.; в более продвинутых случаях — 100 ед.) характеризуются одним-единственным наблюдаемым признаком (например, наблюдаемые предприятия численностью занятых), при двумерном пространстве соответственно двумя признаками (например, численностью занятых-и производительностью труда), а при применении многомерных методов и, следовательно, при работе в многомерных пространствах тремя признаками и более (например, численностью занятых, производительностью труда и фондовооруженностью, фондами, выручкой, фондоотдачей и прибылью. Это пример семимерной модели анализа связей). В изложенной нами постановке задачи одномерный статистический анализ представляет частный случай многомерного, его отправную точку, иллюстративный стенд. И в этом понимании он всегда необходим и важен. Целью традиционных методов является по преимуществу декларация фактов, иллюстрация конкретных случаев, фотографическая характеристика наблюдаемых объектов и их признаков, а не их представление как носителей и образцов, моделирующих и объясняющих законы поведения целых явлений. И в этом случае методы одномерного анализа имеют право на существование, но только на существование в отнюдь не универсальном масштабе и значении. Цель многомерных методов — выявление именно этих законов путем установления характера распределения и тесноты связей между многими (обычно тремя и больше) не только очевидными, но и скрытыми признаками, позволяющими полно и детально изучать и объяснять наблюдаемые процессы, что в принципе невозможно сделать, оперируя традиционными одномерными методами. Еще более фундаментальное отличие касается теоретических допущений и гипотез, аппроксимирующих признаки и связи ненаблюдаемых явлений. Практически все задачи одномерного анализа ставятся и решаются в предположении того, что в природе существует так называемый гауссовский закон распределения данных. Под этот закон подгоняются или подстраиваются многие многомерные статистические данные и связи. То же самое происходит, когда речь идет о решении некоторого класса специфических многомерных задач, эмпирическое распределение данных в которых сходится или хорошо согласуется с гауссовским распределением. Других типов распределений (нелинейных, непараметрических, робастных, нейронных и тд.) эмпирическая статистика не знает или почти не знает. Какой выход в этом случае? Законы одних распределений подменяются другими, вводится сущая чехарда или, что еще хуже, вопрос о гипотезе попросту игнорируется. Конечно, это крайний случай. Специалисты, разумеется, обычно обращаются к так называемым комбинаторным методам или искусственно подгоняют наблюдаемые данные, отсекая те массивы данных, которые не укладываются в их схемы, квалифицируя такого рода данные как ненормальные, случайные или вырожденные. Это иногда дает неплохие результаты, но в большинстве случаев находится далеко от конструктивного решения. Комбинаторика, как и подмена так называемых ненормальных распределений и нелинейных связей нормальными распределениями и линейными связями, в сущности, не дает ничего: многомерный анализ остается лишенным ясных теоретических оснований, а получаемые результаты необходимого содержательного смысла. Понятно, что при наличии разных типов распределений и задач апеллировать к одним и тем же процедурам их идентификации и решения в принципе невозможно. На встречающиеся имитации здесь вообще не следует обращать внимание. Как действовать? Разбивать сложные многомерные пространства на части, вводить их типы, соответствующие типам существующих теоретических допущений и распределений, т.е. решать задачу отдельно по каждому признаку или однородной группе признаков, применяя разные методы. Словом, классические многомерные данные и задачи модифицировать и переводить в форму специфических данных и задач, соответствующих известным и доступным методам их обработки и решения. В сущности, это означает переход от методов многомерного решения соответствующих классов задач к методам одномерного. Понятно, что, если подобные задачи существуют в природе, их разбиение может быть признано приемлемым и полезным, если нет — каждый раз оно будет профанацией и пустой тратой времени. Нельзя ведь, к примеру, матрицу 1000 х 1000 позиций разбить на пять или десять меньших и при этом найти полноценное решение искомых задач, в частности коэффициенты полных затрат или объективно обусловленные издержки и цены. Именно поэтому, к сожалению, приходится признавать факт существования огромной массы нерешаемых статистических задач и апеллировать к поиску новых теорий и статистической идентификации новых информационных пространств. По той же причине приходится накладывать своего рода ограничение на существующее множество методов многомерного анализа данных и в обиходе обращаться только к тем из них, которые адекватно аппроксимируют известные законы и гипотезы распределения данных и нашли широкое применение в статистической работе. Среди этих методов, кроме методов корреляционного изучения связей, особое значение имеют методы компонентного, факторного, дискриминантного и кластерного анализа, моделирования и сопоставления данных, которые представляют предмет настоящего учебного пособия. К решению задач именно этого рода с помощью представленных в пособии методов как раз и призывает автор настоящей работы. И не только призывает, но и методично, шаг за шагом показывает, как это следует делать, что заслуживает одобрения и, на мой взгляд, может вызвать неподдельный интерес и принести пользу как студентам, так и многим исследователям, а также всем тем, кто занимается применением и развитием фундаментальных методов современной прикладной статистики.
|