Раздел 8. Корреляционно-регрессионный анализ
Общее представление о корреляционно-регрессивном анализеСуществующие между явлениями формы и виды связей весьма разнообразны по своей классификации. Предметом статистики являются только такие из них, которые имеют количественный характер и изучаются с помощью количественных методов. Рассмотрим метод корреляционно-регрессионного анализа, который является основным в изучении взаимосвязей явлений. Данный метод содержит две свои составляющие части — корреляционный анализ и регрессионный анализ.Корреляционный анализ — это количественный метод определения тесноты и направления взаимосвязи между выборочными переменными величинами. Регрессионный анализ — это количественный метод определения вида математической функции в причинно-следственной зависимости между переменными величинами. Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока: слабая — от 0,1 до 0,3; умеренная — от 0,3 до 0,5; заметная — от 0,5 до 0,7; высокая — от 0,7 до 0,9; весьма высокая (сильная) — от 0,9 до 1,0. Она используется далее в примерах по теме. линейная корреляцияДанная корреляция характеризует линейную взаимосвязь в вариациях переменных. Она может быть парной (две коррелирующие переменные) или множественной (более двух переменных), прямой или обратной — положительной или отрицательной, когда переменные варьируют соответственно в одинаковых или разных направлениях.
Если переменные — количественные и равноценные в
своих независимых наблюдениях
Коэффициент парной корреляции знаков Фехнера определяет
согласованность направлений в индивидуальных отклонениях переменных
Величина Кф изменяется
от -1 до +1. Суммирование в (1) производится по наблюдениям Таблица 12.1 Данные для расчета коэффициента Фехнера.
По (1) имеем Кф =
(3 — 2)/(3 + 2) = 0,20. Направление взаимосвязи в вариациях
!!Средняя численность работников|численности работников]] и объема
товарооборота —
положительное (прямолинейное): знаки в отклонениях и Коэффициенты парной, чистой (частной) и множественной (совокупной) линейной корреляции Пирсона, в отличие от коэффициента Фехнера, учитывают не только знаки, но и величины отклонений переменных. Для их расчета используют разные методы. Так, согласно методу прямого счета по несгруппированным данным, коэффициент парной корреляции Пирсона имеет вид:
Этот коэффициент также изменяется от -1 до +1. При наличии нескольких переменных рассчитывается коэффициент множественной (совокупной) линейной корреляции Пирсона. Для трех переменных x, y, z он имеет вид
Этот коэффициент изменяется от 0 до 1. Если
элиминировать (совсем исключить или зафиксировать на постоянном
уровне) влияние
Этот коэффициент изменяется от -1 до +1. Квадраты коэффициентов корреляции (2)-(4) называются коэффициентами (индексами) детерминации — соответственно парной, чистой (частной), множественной (совокупной):
Каждый из коэффициентов детерминации изменяется от 0 до 1 и оценивает степень вариационной определенности в линейной взаимосвязи переменных, показывая долю вариации одной переменной (y), обусловленную вариацией другой (других) — x и y. Многомерный случай наличия более трех переменных здесь не рассматривается.
Согласно разработкам английского статистика Р.Э.
Фишера (1890-1962), статистическая значимость парного и чистого
(частного) коэффициентов корреляции Пирсона проверяется в случае
нормальности их распределения, на основании
Для чистого коэффициента корреляции Если tr > tтабл. , то коэффициент парной корреляции — общий или чистый является статистически значимым, а при tr≤ tтабл. — незначимым. Значимость коэффициента множественной корреляции R проверяется по F — критерию Фишера путем расчета его фактического значения
При FR >
Fтабл. коэффициент
R считается значимым с заданным уровнем значимости a и имеющихся
степенях свободы В совокупностях большого объема n > 100 для оценки значимости всех коэффициентов Пирсона вместо критериев t и F применяется непосредственно нормальный закон распределения (табулированная функция Лапласа-Шеппарда). Наконец, если коэффициенты Пирсона не подчиняются нормальному закону, то в качестве критерия их значимости используется Z — критерий Фишера, который здесь не рассматривается. Условный пример расчета (2) — (7) дан в табл. 12.2, где взяты исходные данные табл.12.1 с добавлением к ним третьей переменной z — размера общей площади магазина (в 100 кв. м). Таблица 12.2. Подготовка данных для расчета коэффициентов корреляции Пирсона
Согласно (2) — (5), коэффициенты линейной корреляции Пирсона равны:
Взаимосвязь переменных x и y является
положительной, но не тесной, составляя по их парному коэффициенту
корреляции величину Коэффициенты детерминации dxy =0,354 и dxy.z = 0,0037 свидетельствуют, что вариация у (товарооборота) обусловлена линейной вариацией x (численности работников) на 35,4% в их общей взаимосвязи и в чистой взаимосвязи — только на 0,37%. Такое положение обусловлено значительным влиянием на x и y третьей переменной z — занимаемой магазинами общей площади. Теснота ее взаимосвязи с ними составляет соответственно rxz=0,677 и ryz=0,844. Коэффициент множественной (совокупной) корреляции трех переменных показывает, что теснота линейной взаимосвязиx и z c y составляет величину R = 0,844, оцениваясь по шкале Чеддока как "высокая", а коэффициент множественный детерминации — величину D=0,713, свидетельствуя, что 71,3 % всей вариации у (товарооборота) обусловлены совокупным воздействием на нее переменных x и z. Остальные 28,7% обусловлены воздействием на y других факторов или же криволинейной связью переменных y, x, z.
Для оценки значимости коэффициентов корреляции
возьмем уровень значимости
Все расчетные критерии меньше своих табличных значений: все коэффициенты корреляции Пирсона статистически незначимы.
|