Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)


 

 

 

 



Корреляция и регрессия: основы



«На Гальтона произвела большое впечатления теория эволюции Дарвина, а в особенности мысль о том, что особи, принадлежащие к одному биологическому виду, отличаются друг от друга. Индивидуальные особенности, способствующие выживанию, подвергаются «естественному отбору» и передаются потомкам. Гальтон считал, что интеллект является особенностью, которая различается у всех людей, важна для выживания и наследуется так же, как физические характеристики, например как цвет глаз или рост. Он собрал факты, подтверждающие наследуемость интеллекта, и опубликовал две книги, посвященные этому вопросу: «Потомственные гении» (1869) и «Ученые-англичане: природа и воспитание» (1874). Последний труд популяризировал широко известные сегодня термины «природа» (nature) и «воспитание» (nurture). В своих работах Гапьтон отметил статистическую тенденцию, заключающуюся в том, что гениальность и способности, проявляющиеся в определенных областях (например, способности к химии или юриспруденции), прослеживаются в нескольких поколениях внутри семьи. Однако он недооценил влияние окружающей среды и сделал вывод, что гениальность возникает в результате передачи наследственной информации. Он аргументировал свою точку зрения, в частности, тем, что интеллект в популяции имеет нормальное распределение. Другие наследуемые особенности (например, рост) также имеют нормальное распределение, и поэтому Гальтон принял этот статистический факт за показатель влияния наследственности.

Только в 1888 г. ученому удалось показать высокую частоту появления таких черт, как гениальность в семьях: свои представления он сформулировал в работе, названной «Корреляция и ее измерение». Во-первых, Гальтон обнаружил, что данные можно особым образом организовать по рядам и столбцам и получил прототип сегодняшнего «графика рассеяния». Во-вторых, Гальтон заметил, что когда «корреляция» была неполной, начинала проявляться одна закономерность. У родителей с ростом выше среднего были высокие дети, но довольно часто они были не такими высокими, как мать и отец. У родителей с ростом ниже среднего дети были низкие, но не настолько. Это означает, что рост у детей имеет тенденцию смещаться, или регрессировать, в сторону среднего арифметического значения в популяции.

Феномен «регрессии к среднему», который представляет угрозу внутренней валидности исследования, является одним из самых выдающихся открытий Гальтона.

Третье наблюдение Гальтона состояло в том, что график, построенный по значениям среднего арифметического для каждого столбца таблицы рассеяния, дает более или менее прямую линию. По сути, он представляет собой разновидность «линии регрессии». Таким образом, Гальтон открыл основные характеристики корреляционного анализа.

Прочитав о работе Гальтона, Карл Пирсон продолжил изыскания в этой области и разработал формулу для вычисления коэффициента корреляции. Он обозначил коэффициент буквой «r», что значит «регрессия», в честь сделанного Гальтоном открытия регрессии к среднему. Вслед за Гальтоном Пирсон считал, что корреляционный анализ подтверждает идею о наследуемости многих свойств, обнаруживающих себя в отдельных семьях». (Цит. по Гудвин Д., Исследование в психологии. Питер, 2004, с.312-313).

Считается, что переменные коррелируют, если между ними существует какая-либо взаимосвязь. Это подразумевает сам термин «корреляция» – взаимная связь, отношение. В случае прямой или положительной корреляции взаимосвязь такова, что высокие значения одной переменной связаны с высокими значения другой, а низкие значения первой с низкими значениями второй. Отрицательная корреляция означает обратную взаимосвязь. Высокие значения одной переменной связаны с низкими значениями другой, и наоборот.

Взаимосвязь между временем, посвященным занятиям, и оценками является примером положительной корреляции. Примером отрицательной корреляции может быть взаимосвязь между бесполезно потраченным временем и средним баллом. Бесполезно потраченное время можно операционально определить как количество часов в неделю, потраченное на определенные занятия, например на видеоигры или просмотр телесериалов.

Силу корреляции показывает особая величина описательной статистики – «коэффициент корреляции». Коэффициент корреляции равен -1,00 в случае прямой отрицательной корреляции, 0,00 при отсутствии взаимосвязи и +1,00 при полной положительной корреляции. Наиболее распространенным коэффициентом корреляции является г Пирсона. Пирсоново г вычисляется для данных, полученных с помощью интервальной шкалы или шкалы отношений. В случае других шкал измерений рассматриваются другие виды корреляции. К примеру, для порядковых данных (т. е. упорядоченных) вычисляется ρ (ро) Спирмена (иначе эту статистику обозначают как rs).

Так же как среднее арифметическое и стандартное отклонение, коэффициент корреляции является величиной описательной статистики. В ходе заключительного анализа определяется, является ли конкретная корреляция значимо большей (или меньшей) нуля. Таким образом, для корреляционных исследований нулевая гипотеза (Н0) говорит, что действительное значение г = 0 (т. е. нет никаких взаимосвязей), а альтернативная гипотеза (Н1) — что г ≠ 0. Отвергнуть нулевую гипотезу – значит решить, что между двумя переменными существует значимая взаимосвязь.

 

График рассеяния

Силу корреляции можно обнаружить, рассмотрев график рассеяния. Он является графическим отображением взаимосвязи, на которую указывает корреляция. В случае полной положительной или полной отрицательной корреляции точки образуют прямую линию, а нулевая корреляция дает график рассеяния типа (а), точки которого распределены случайным образом. По сравнению с умеренной корреляцией (г и д) точки сильной расположены ближе друг к другу (б и в). В целом, по мере ослабления корреляции точки на графике рассеяния все больше удаляются от диагонали, связывающей точки при полной кор

       
   
 

реляции, равной +1,00 или -1,00.

 
 

a) r = 0 б) r = -0.9 в) r = +0.9

 

       
   

г) r = - 0.56 д) r = +0.61

Рассмотренные выше графики рассеяния (кроме а) апроксмировались прямыми линиями, то есть отражали линейные зависимости. Однако не все взаимосвязи линейны, а вычисление r Пирсона для нелинейного случая не поможет выявить природу такой взаимосвязи. На следующем рисунке показан гипотетический пример связи между возбуждением и выполнением задания, илюстрирующий закон Йеркса-Додсона: сложные задания выполняются хорошо при среднем уровне возбуждения, но плохо при очень низком и очень высоком. Из графика рассеяния видно, что точки ложатся вдоль определенной кривой, но при попытке применить линейную корреляцию мы получим r, близкий к нулю.

При проведении корреляционного исследования важно учитывать людей, оценки которых попадают в широкий диапазон. Ограничение диапазона одной или обеих переменных снижает корреляцию. Предположим, мы изучаем взаимосвязь между средним баллом школьного аттестата и успеваемостью в ВУЗе (оценивается по средним баллам, полученным первокурсниками в конце года). На рис. а) показано, каким может быть график рассеяния при исследовании 25 студентов. Коэффициент корреляции равен +0,87. Но если изучить эту взаимо
связь на примере студентов, получивших средний бал в школе 4,5 и выше,

 
 

то корреляция изменится, она падает до +0,27.

а) r = 0.87 б) r = 0,27

 

Коэффициент детерминации – г2

Важно иметь в виду, что довольно легко неверно понять смысл конкретного значения пирсонова г. Если оно равняется +0,70, то взаимосвязь действительно является относительно сильной, но не надо думать, что +0,70 каким-то образом связано с 70%, и в таком случае взаимосвязь установлена на 70%. Это неверно. Для интерпретации значения корреляции следует использовать коэффициент детерминации (г2). Он находится возведением в квадрат г, а поэтому его значение никогда не бывает отрицательным. Данный коэффициент формально определяется как степень изменчивости одной переменной корреляции, вызванная изменчивостью другой переменной. Поясним это на конкретном примере.

Проводится исследование, в ходе которого у 100 участников измеряется уровень эмоциональной депрессии и средний балл. Мы проверяем взаимосвязь между двумя переменными и обнаруживаем отрицательную корреляцию: чем выше уровень депрессии, тем ниже средний балл, и наоборот, чем слабее депрессия тем выше средний балл. Рассмотрим два значения корреляции, которые могут быть получены в результате этого исследования, – -1,00 и -0,50. Коэффициент детерминации будет равен 1,00 и 0,25 соответственно. Чтобы понять смысл этих значений, для начала обратим внимание на то, что средний балл у 100 изучаемых людей, скорее всего, будет варьироваться от 3,0 до 5,0. Как исследователи, мы хотим выяснить причину такой изменчивости – почему один человек получает 3,2 балла, а другой 4,4 и т. д. Другими словами, мы хотим узнать, что вызывает индивидуальные различия в средних баллах? В действительности, причиной этому может быть несколько факторов: учебные привычки, общий уровень интеллекта, эмоциональная устойчивость, склонность к выбору легких предметов для изучения и т. д. Как показывают оценки теста на депрессию, в нашем гипотетическом исследовании изучается один из этих факторов — эмоциональная устойчивость, г2 показывает, насколько изменчивость средних баллов может быть связана непосредственно с депрессией. В первом случае, когда г = -1,00, а г2 = 1,00, мы можем прийти к выводу, что 100% изменчивости средних баллов связана с изменчивостью оценок депрессии. Следовательно, можно сказать, что 100% различий между средними баллами (3,2 и 4,4 и др.) вызваны депрессией. В реальном исследовании такой результат, конечно, невозможно получить. Во втором случае, когда г = -0,5, а г2 = 0,25, только одна четверть (25%) изменчивости средних баллов будет связана с депрессией. Остальные 75% связаны с другими факторами, подобными перечисленным выше. Говоря кратко, коэффициент детерминации лучше характеризует силу отношений, чем г Пирсона.

 



Просмотров 786

Эта страница нарушает авторские права




allrefrs.su - 2025 год. Все права принадлежат их авторам!