Коэффициент корреляции в Excel

Что такое коэффициент корреляции?

formul4Различные признаки могут быть связаны между собой.

Выделяют 2 вида связи между ними:

  • функциональная;
  • корреляционная.

Корреляция в переводе на русский язык – не что иное, как связь.
В случае корреляционной связи прослеживается соответствие нескольких значений одного признака нескольким значениям другого признака. В качестве примеров можно рассмотреть установленные корреляционные связи между:

  • длиной лап, шеи, клюва у таких птиц как цапли, журавли, аисты;
  • показателями температуры тела и частоты сердечных сокращений.

Для большинства медико-биологических процессов статистически доказано присутствие этого типа связи.

Статистические методы позволяют установить факт существования взаимозависимости признаков. Использование для этого специальных расчетов приводит к установлению коэффициентов корреляции (меры связанности).

Такие расчеты получили название корреляционного анализа. Он проводится для подтверждения зависимости друг от друга 2-х переменных (случайных величин), которая выражается коэффициентом корреляции.

Использование корреляционного метода позволяет решить несколько задач:

  • выявить наличие взаимосвязи между анализируемыми параметрами;
  • знание о наличии корреляционной связи позволяет решать проблемы прогнозирования. Так, существует реальная возможность предсказывать поведение параметра на основе анализа поведения другого коррелирующего параметра;
  • проведение классификации на основе подбора независимых друг от друга признаков.

Для переменных величин:

  •  относящихся к порядковой шкале, рассчитывается коэффициент Спирмена;
  • относящихся к интервальной шкале – коэффициент Пирсона.

Это наиболее часто используемые параметры, кроме них есть и другие.

Значение коэффициента может выражаться как положительным, так и отрицательными.

В первом случае при увеличении значения одной переменной наблюдается увеличение второй. При отрицательном коэффициенте – закономерность обратная.

Для чего нужен коэффициент корреляции?

Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

Случайные величины, связанные между собой, могут иметь совершенно разную природу этой связи. Не обязательно она будет функциональной, случай, когда прослеживается прямая зависимость между величинами. Чаще всего на обе величины действует целая совокупность разнообразных факторов, в случаях, когда они являются общими для обеих величин, наблюдается формирование связанных закономерностей.

Это значит, что доказанный статистически факт наличия связи между величинами не является подтверждением того, что установлена причина наблюдаемых изменений. Как правило, исследователь делает вывод о наличии двух взаимосвязанных следствий.

Свойства коэффициента корреляции

excel_linear_regressionЭтой статистической характеристике присущи следующие свойства:

  • значение коэффициента располагается в диапазоне от -1 до +1. Чем ближе к крайним значениям, тем сильнее положительная либо отрицательная связь между линейными параметрами. В случае нулевого значения речь идет об отсутствии корреляции между признаками;
  • положительное значение коэффициента свидетельствует о том, что в случае увеличения значения одного признака наблюдается увеличение второго (положительная корреляция);
  • отрицательное значение – в случае увеличения значения одного признака наблюдается уменьшение второго (отрицательная корреляция);
  • приближение значения показателя к крайним точкам (либо -1, либо +1) свидетельствует о наличии очень сильной линейной связи;
  • показатели признака могут изменяться при неизменном значении коэффициента;
  • корреляционный коэффициент является безразмерной величиной;
  • наличие корреляционной связи не является обязательным подтверждением причинно-следственной связи.

Значения коэффициента корреляции

Охарактеризовать силу корреляционной связи можно прибегнув к шкале Челдока, в которой определенному числовому значению соответствует качественная характеристика.

korrelyazya1В случае положительной корреляции при значении:

  • 0-0,3 – корреляционная связь очень слабая;
  • 0,3-0,5 – слабая;
  • 0,5-0,7 – средней силы;
  • 0,7-0,9 – высокая;
  • 0,9-1 – очень высокая сила корреляции.

Шкала может использоваться и для отрицательной корреляции. В этом случае качественные характеристики заменяются на противоположные.

Можно воспользоваться упрощенной шкалой Челдока, в которой выделяется всего 3 градации силы корреляционной связи:

  • очень сильная – показатели ±0,7 — ±1;
  • средняя – показатели ±0,3 — ±0,699;
  • очень слабая – показатели 0 — ±0,299.
Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

Виды коэффициента корреляции

Коэффициенты корреляции можно классифицировать по знаку и значению:

  • положительный;
  • нулевой;
  • отрицательный.

В зависимости от анализируемых значений рассчитывается коэффициент:

  • Пирсона;
  • Спирмена;
  • Кендала;
  • знаков Фехнера;
  • конкорддации или множественной ранговой корреляции.

korrelyazyaКорреляционный коэффициент Пирсона используется для установления прямых связей между абсолютными значениями переменных. При этом распределения обоих рядов переменных должны приближаться к нормальному. Сравниваемые переменные должны отличаться одинаковым числом варьирующих признаков. Шкала, представляющая переменные, должна быть интервальной либо шкалой отношений.

Метод Пирсона рекомендуется использовать для ситуаций, требующих:

  • точного установления корреляционной силы;
  • сравнения количественных признаков.

Недостатков использования линейного корреляционного коэффициента Пирсона немного:

  • метод неустойчив в случае выбросов числовых значений;
  • с помощью этого метода возможно определение корреляционной силы только для линейной взаимосвязи, при других видах взаимных связей переменных следует использовать методы регрессионного анализа.

Ранговая корреляция определяется методом Спирмена, позволяющим статистически изучить связь между явлениями. Благодаря этому коэффициенту вычисляется фактически существующая степень параллелизма двух количественно выраженных рядов признаков, а также оценивается теснота, выявленной связи.

Метод Спирмена рекомендуется применять в ситуациях:

  • не требующих точного определения значение корреляционной силы;
  • сравниваемые показатели имеют как количественные, так и атрибутивные значения;
  • равнения рядов признаков с открытыми вариантами значений.

Метод Спирмена относится к методам непараметрического анализа, поэтому нет необходимости проверять нормальность распределения признака. К тому же он позволяет сравнивать показатели, выраженные в разных шкалах. Например, сравнение значений количества эритроцитов в определенном объеме крови (непрерывная шкала) и экспертной оценки, выражаемой в баллах (порядковая шкала).

На эффективность метода отрицательно влияет большая разница между значениями, сравниваемых величин. Не эффективен метод и в случаях когда измеряемая величина характеризуется неравномерным распределением значений.

Пошаговый расчет коэффициента корреляции в Excel

Расчёт корреляционного коэффициента предполагает последовательное выполнение ряда математических операций.

Приведенная выше формула расчета коэффициента Пирсона, показывает насколько трудоемок этот процесс если выполнять его вручную.
Использование возможностей Excell ускоряет процесс нахождения коэффициента в разы.

Достаточно соблюсти несложный алгоритм действий:

  • введение базовой информации – столбец значений х и столбец значений у;
  • в инструментах выбирается и открывается вкладка «Формулы»;
  • в открывшейся вкладке выбирается «Вставка функции fx»;
  • в открывшемся диалоговом окне выбирается статистическая функция «Коррел», позволяющая выполнить расчет корреляционного коэффициента между 2 массивами данных;
  • открывшееся окно вносятся данные: массив 1 – диапазон значений столбца х (данные необходимо выделить), массив 2 – диапазон значений столбца у;
  • нажимается клавиша «ок», в строке «значение» появляется результат расчета коэффициента;
  • вывод относительно наличия корреляционной связи между 2 массивами данных и ее силе.

3 комментария

  1. Марат:

    мне нужно сделать корреляцию для анкеты. Я не пойму какие данные мне нужно вводить (

  2. Лола:

    Добрый день! У меня много вопросов. Подскажите, пожалуйста, следующее. 1. В excel рассчитывается Спирмен при каком p?
    Второе, порекомендуйте, пожалуйста, какой вид корреляционного анализа можно использовать для разных выборок с большим разбросом данных?
    И третье, я внизу привела пример, показывающий, что группа старше 60 лет выделяется тем, что имеет самые высокие показатели по 1 признаку и самые низкие — по второму. А значения в предыдущих трех группах варьируют незначительно по первому и второму признаку. Как мне статистически доказать достоверность отличий между группой старше 60 лет и всеми остальными?
    Возраст 1 2
    18-29 38,0 25,4
    30-39 39,8 31,2
    40-59 38,1 35,9
    От 60 60,1 17,4
    Заранее благодарю.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *