До сих пор мы рассматривали однофакторные регрессионные модели. Нам был дан признак-фактор X (причина), он влиял на признак-результат Y (следствие). Исходя из эмпирических данных (выборочных пар значений
в объеме
штук) проводим оценку тесноты корреляционной зависимости Y от X, и строим линейные и нелинейные уравнения регрессии.
На зависимый показатель Y часто влияют много факторов:
и сегодня цель состоит в том, чтобы решить множественную регрессию. Тема не сложная, но обширная и трудоёмкая.
Итак, разбираемся и учимся:
– Создавать уравнение множественной линейной регрессии
в программе MS Excel, используя метод наименьших квадратов, определять основные характеристики модели и оценивать её качество. Эта информация представлена в видео и может быть полезна для самостоятельной проверки знаний, а также для тех, кто не специализируется на статистике, но проводит практические исследования в различных областях, таких как экономика, социология или психология.
– Необходимо провести детальные расчёты для двухфакторной линейной модели
,включая вычисление всех сопутствующих параметров: коэффициентов корреляции, детерминации, эластичности и бета. Также требуется проверить значимость коэффициентов и всего уравнения. Для получения более подробной информации обратитесь к инструкции. Кроме того, рекомендуется посмотреть видео по этой теме. Существует также калькулятор, который позволяет автоматизировать процесс расчёта и распечатать готовое решение.
Здесь всё (или почти всё) будет изложено доступно и понятно. Некоторые упрекают меня в излишней упрощённости, но я предпочитаю, чтобы мои идеи были понятны как можно большему числу людей. Давайте разберём всё на конкретном примере, самом простом случае, когда мы имеем дело всего с двумя факторами:
Пример 82
В результате анализа
, проведённого среди торговых точек региона, были собраны и проанализированы статистические данные за прошедший год.

Необходимо:
- проанализировать, как каждый фактор влияет на объём чистой прибыли компании;
- составить уравнение двухфакторной линейной регрессии
; - рассчитать коэффициент множественной корреляции и детерминации;
- определить частные коэффициенты корреляции;
- вычислить коэффициенты эластичности;
- найти бета-коэффициенты;
- проверить значимость коэффициентов уравнения регрессии на заданном уровне
; - установить соответствующие доверительные интервалы для коэффициентов;
- оценить статистическую значимость всей модели на том же уровне
; - предсказать среднеожидаемую прибыль предприятия при
оборотах и
производительности труда.
Прежде чем принимать решение, необходимо разобраться в значении представленных показателей.
Один из ключевых параметров
— это коэффициент оборачиваемости оборотных средств. Оборотные средства представляют собой денежные ресурсы, предназначенные для приобретения товаров. Когда компания приобретает товары и реализует их, оборотные средства осуществляют один оборот. Значения, указанные в условиях
, отражают количество таких оборотов за год. Очевидно, что чем быстрее происходит оборот денежных средств, тем больше продаж осуществляется и тем выше может быть прибыль предприятия. Таким образом, мы можем наблюдать прямую корреляцию между прибылью компании и коэффициентом оборачиваемости оборотных средств
. Однако важно помнить, что это лишь общая тенденция, а не строгое правило, поскольку существуют товары с высокой и низкой наценкой.
Второй фактор
— трудоёмкость продаж. К сожалению, автор задачи не предоставил более подробной информации по этому показателю, но можно предположить, что он отражает среднее количество сотрудников, приходящихся на один миллион выручки за год. Суть заключается в том, что большее количество персонала влечёт за собой увеличение расходов на оплату труда, что может снизить прибыль компании. Следовательно, мы можем выявить обратную корреляцию между прибылью и трудоёмкостью продаж
.
Для наглядности можно построить диаграммы рассеяния.

Давайте выясним линейные коэффициенты корреляции:
—
обнаружена тесная прямая корреляционная связь между прибылью и количеством оборотов оборотных средств;
—
выявлена тесная обратная корреляционная зависимость прибыли от трудоёмкости продаж.
Эти коэффициенты можно детально рассчитать, но в данном случае это «проходные» вычисления, поэтому мы воспользуемся стандартной функцией Excel:
= КОРРЕЛ(выделяем массив признака-фактора; выделяем массив
).
Теперь нам нужно объединить обе причины в одной модели и построить выборочное уравнение двухфакторной линейной регрессии
. Однако не всё так просто. Чтобы модель множественной регрессии была качественной и надёжной, необходимо соблюдение ряда условий.
Во-первых, признаки-факторы должны быть независимы друг от друга. Для этого вычислим коэффициент линейной корреляции между ними:
—
как видим, корреляция между факторами очень слабая, и это замечательно. Логика здесь проста — если факторы сильно коррелированы (явление мультиколлинеарности), то один из них не имеет смысла включать в модель.
И, во-вторых, для линейной модели должны выполняться условия Гаусса-Маркова. Проверка этих условий — отдельная большая тема, требующая кропотливых вычислений. Если у вас серьёзное исследование, то изучите её подробнее (например, с помощью рекомендованной литературы) и воспользуйтесь специализированными статистическими программами. Мы же будем решать задачу в учебном режиме (по принципу «дано задание — нужно решить») и рассмотрим саму технику вычислений.
Коэффициенты уравнения регрессии
найдём методом наименьших квадратов — как решение системы.

Заполним расчётную таблицу, в нижней строке «подобьём» суммы:

Таким образом, получаем систему:

Для решения системы уравнений мы воспользуемся формулами Крамера. Определители рассчитаем с помощью функции МОПРЕД в программе MS Excel. Эта функция позволяет выделить область размером три на три, что как раз подходит для нашего случая.
Сначала вычислим главный определитель системы.
, система имеет единственное решение.

В итоге мы получили искомое уравнение регрессии —
.
Это уравнение демонстрирует, что при увеличении оборота оборотных средств на одну единицу (при условии, что трудоёмкость остаётся неизменной), прибыль возрастает в среднем на 22,044 млн рублей. С другой стороны, если трудоёмкость продаж увеличивается на 1 человеко-час/миллион рублей (при постоянном обороте), то прибыль уменьшается в среднем на 3,9084 млн рублей.
Как вы можете видеть, эти выводы аналогичны тем, которые мы сделали для уравнения линейной регрессии с одним фактором. Многие показатели также будут схожи, включая методику их быстрого расчёта. Теперь самое время посмотреть видео, чтобы понять, как это делается!
Вы легко сможете повторить все шаги самостоятельно! Откройте файл в Excel и выполните расчёты. Вам потребуются «черновые» вычисления, они могут быть не такими аккуратными, как в видео. А если у вас нет времени или желания оформлять задание, вы можете использовать калькулятор, который автоматически выполнит расчёты и сформулирует нужные выводы.
Теперь давайте вычислим коэффициент множественной корреляции
, который показывает силу совокупного влияния факторов
на результат
. Это можно сделать несколькими способами, но чаще всего для расчёта используют найденные ранее парные коэффициенты корреляции.
, сведённые в симметричную матрицу
:

Множественный коэффициент корреляции можно вычислить по формуле,
где
— определитель матрицы коэффициентов линейной корреляции, а
— определитель её факторной части (без «игрековой» строки и столбца). Это общая формула, которая применима не только для двух, но и для большего числа факторов.
В контексте нашей задачи:

Здесь мы также будем иногда опускать знак .
таким образом , мы приходим к выводу, что прибыль предприятий находится в очень тесной зависимости от факторов, указанных в задаче.
При анализе мы используем шкалу Чеддока с той оговоркой, что множественный коэффициент корреляции принимает значения
и не показывает направление зависимости (поскольку факторы могут оказывать разнонаправленное действие, как в нашем случае).

Если фактора два, то формулу можно выразить в более человеческом виде:)
– такой вариант употребим в массовой практике.
Рассчитаем коэффициент множественной детерминации.
показывает, что в рамках построенной модели 93,3% изменений прибыли объясняются числом оборотов оборотных средств и показателем трудоёмкости продаж. Остальные
вариации связаны с факторами, которые не были учтены в модели.
Коэффициент множественной детерминации можно вычислить и другим способом, который я описал на уроке «Однофакторная регрессия». Здесь используется тот же подход:
где
— общая сумма квадратов сравнивается с остаточной суммой квадратов
.
Теперь найдём среднее значение прибыли
— млн рублей — и заполним расчётную таблицу.

Итак, мы приходим к тому же результату
. Для тех, кто хочет разобраться в смысле выполненных действий или вспомнить их, я ещё раз предоставлю ссылку на урок об однофакторной регрессии. В нашем случае мы имеем дело с двухфакторным подходом, который основан на том же принципе.
Давайте вычислим частные коэффициенты корреляции. Что это такое и чем они отличаются от парных коэффициентов
. Суть в том, что любой фактор обычно включает в себя влияние других факторов, и это учитывается в парных коэффициентах. В рамках модели множественной регрессии целесообразно исключить такое влияние, чтобы оценить «чистый» вклад каждого фактора в результат. Именно это и выражается частными коэффициентами корреляции.
Теперь «очистим» первый фактор от влияния второго
: таким образом, при устранении влияния трудоёмкости продаж чистая прибыль предприятий становится очень зависимой от числа оборотов оборотных средств.
И наоборот, «очистим» второй фактор от опосредованного влияния первого
: при устранении фактора оборотов оборотных средств чистая прибыль предприятий оказывается сильно зависящей от трудоёмкости продаж.
Также можно найти частные коэффициенты детерминации и сделать вывод об «очищенном» процентном вкладе каждого фактора в результат.
Однако хочу напомнить, что все эти выводы делаются в рамках построенной модели и не претендуют на звание абсолютной истины.
Вернёмся к нашему уравнению регрессии
и рассмотрим коэффициенты при факторных переменных. Мы видим, что коэффициент
первого фактора по модулю больше коэффициента
второго фактора, но это не означает, что первый фактор оказывает большее влияние на результат, чем второй. Это только номинальные значения.
Чтобы определить истинную значимость факторов, нужно использовать относительные показатели — коэффициенты средней эластичности и бета-коэффициенты. О том, как их вычислять, я рассказывал ещё в самом начале работы. Здесь всё работает по тому же принципу.
Для расчёта этих показателей нам понадобятся средние значения признаков: ![]()
и их исправленные стандартные отклонения: ![]()
Отклонения можно вычислить подробно (см. по ссылке выше), а я использовал функцию Excel =СТАНДОТКЛОН(массив значений выборки), которая возвращает исправленные стандартные отклонения. В новой версии Excel эта функция модифицирована: =СТАНДОТКЛОН.В(массив значений выборки).
Теперь вычислим коэффициенты средней эластичности:
–
таким образом, при увеличении оборотов оборотных средств на 1% (при неизменной трудоёмкости продаж) чистая прибыль увеличивается в среднем на 1,6%.
–
таким образом, при увеличении трудоёмкости продаж на 1% (при неизменных оборотах) чистая прибыль уменьшается в среднем на 0,6%.
Мы видим, что прибыль действительно более чувствительна к изменению первого фактора, но не настолько, насколько можно было подумать, глядя на коэффициенты
.
Рассчитаем бета-коэффициенты:
—
получается, что при увеличении оборотных средств на одно стандартное отклонение (при неизменной трудоёмкости продаж) чистая прибыль растёт примерно на 0,69 своего стандартного отклонения.
—
следовательно, при росте трудоёмкости продаж на одно стандартное отклонение (в условиях стабильности оборотов) чистая прибыль снижается примерно на 0,46 своего стандартного отклонения. Это вновь подтверждает превалирующую роль первого фактора.
Проверим значимость коэффициентов уравнения регрессии на уровне значимости
. При этом рассмотрим только ключевые факторные коэффициенты
.
Алгоритм действий такой же, как и в однофакторной модели. Однако сначала кратко изложим суть предстоящих шагов. Уравнение
было выведено на основе данных выборки. Но существует генеральная совокупность торговых предприятий региона и генеральное уравнение
. Возникает вопрос: насколько полученные выборочные значения
далеки от истинных значений
? Насколько можно доверять результатам, полученным на выборке (тем более если она небольшая)? Чтобы проверить статистическую значимость полученных значений, мы используем аппарат статистических гипотез.
Оценим важность коэффициента
. Разберём нулевую гипотезу
, утверждающую, что коэффициент генерального уравнения
равен нулю. Это подразумевает, что наблюдаемый результат
связан с случайностью (например, из-за небольшой выборки), и на самом деле прибыль не зависит от количества оборотов оборотных средств.
В качестве альтернативы рассмотрим
— гипотезу о существовании линейной корреляционной зависимости прибыли от оборотов.
Для проверки нулевой гипотезы
на определённом уровне значимости используем статистический критерий
, где
значение выборочного коэффициента при первой факторной переменной
соотносится с его стандартной ошибкой. Случайная величина
в этом случае имеет распределение Стьюдента с количеством степеней свободы , равным числу факторов модели минус единица
. В нашем случае число факторов — два, следовательно, количество степеней свободы равно единице
.
Находим критическое значение двусторонней области для заданного уровня значимости
и количества степеней свободы
по соответствующей таблице или с помощью Excel
.
Вычислим наблюдаемое значение критерия
. Если оно попадает в «красную» область
(или находится за её пределами)
, то нулевую гипотезу отвергаем в пользу альтернативной. Если же наблюдаемое значение остаётся в пределах допустимого, то нет оснований отвергать нулевую гипотезу на данном уровне значимости.

Оценим стандартную погрешность коэффициента, учитывая, что мы имеем дело
с многофакторной моделью.

Мы получили определённое значение критерия
. В связи с этим, на указанном уровне значимости
, нулевую гипотезу
мы отвергаем в пользу альтернативной
. Это значит, что коэффициент
статистически значимо отличается от нуля, и полученное значение вряд ли можно объяснить случайными факторами.
Далее аналогичным образом проверяем статистическую значимость коэффициента
, выдвигая нулевую гипотезу
против альтернативной
.
Вычисляем стандартную ошибку второго коэффициента
и определяем наблюдаемое значение критерия
: на заданном уровне значимости
нулевую гипотезу
также отвергаем в пользу альтернативы
.
Вывод: коэффициент
является статистически значимым.
Теперь определим соответствующие доверительные интервалы.
Для первого коэффициента
мы получаем определённый интервал
(в млн рублей). С указанной доверительной вероятностью
этот интервал накроет истинное значение генерального коэффициента
.
Аналогично для второго коэффициента
мы также получаем интервал
(в млн рублей), который с той же доверительной вероятностью
накроет значение генерального коэффициента
.
Следует отметить, что полученные интервалы являются довольно широкими из-за небольшого размера выборки.
Оценим значимость всего выборочного уравнения регрессии
. По сути, это то же самое, что оценить значимость выборочного коэффициента множественной детерминации
.
Возьмём гипотезу
о том, что генеральный коэффициент множественной детерминации равен нулю. Это значит, что факторы модели не влияют на прибыль компаний. Противоположное утверждение
заключается в том, что такое влияние существует.
Для проверки гипотезы
используем статистический критерий
. В нём значение выборочного коэффициента множественной детерминации (случайное от исследования к исследованию) сравнивается с количеством факторных переменных
. В нашей модели фактора два
, поэтому критерий принимает определённый вид
. Эта случайная величина имеет распределение Фишера
с соответствующим числом степеней свободы
.
По таблице или с помощью расчётного макета определим критическое значение критерия для заданного уровня значимости и количества степеней свободы.
Теперь вычислим наблюдаемое значение критерия. Если оно
окажется больше критического (красная область), то гипотезу
отвергаем; если
меньше — то нет оснований отвергать её.

В рамках нашего исследования
мы пришли к выводу, что гипотезу
следует отвергнуть в пользу конкурирующей гипотезы
. Это решение основано на уровне значимости данных.
Таким образом, коэффициент множественной детерминации
имеет статистическую значимость, следовательно, уравнение
также обладает статистической значимостью.
Теперь давайте перейдём к прогнозам. Предположим, что предприятие работает с определёнными оборотами
и трудоёмкостью
. Мы можем спрогнозировать среднеожидаемую прибыль
предприятия при этих условиях.
В завершение урока хотелось бы кратко рассказать о том, как можно рассчитать модель множественной регрессии с большим количеством факторов. Допустим, результат зависит от трёх показателей
. Первым шагом будет составление симметричной матрицы парных коэффициентов линейной корреляции.

Ключевым аспектом для обеспечения высокого качества модели является минимизация попарной корреляции между факторами, чтобы значения были как можно ближе к нулю
. В серьёзных научных работах также необходимо удостовериться в соблюдении условий Гаусса-Маркова, однако это обширный и глубокий вопрос, который я не буду затрагивать в данном обсуждении.
Коэффициенты регрессии
мы определяем через решение системы уравнений.

Сравните эту систему с двухфакторной моделью и обратите внимание на закономерности в коэффициентах. Да, расчётная таблица будет более объёмной, но это выполнимо. Я провёл тестовые расчёты, и у меня ушло примерно 15 минут.
Для вычисления коэффициента множественной детерминации используется формула:
, где
– определитель матрицы коэффициентов парной корреляции (см. выше) , а
– определитель её факторной части (без последней строки и столбца).
У этого коэффициента есть один недостаток. При добавлении в модель любых дополнительных факторов, даже малозначимых или посторонних, значение неизбежно увеличится. Чтобы контролировать ситуацию, рассчитывают скорректированный коэффициент множественной детерминации:
, где
– количество факторов модели.
Если добавить явно «плохой» фактор, значение
даже уменьшится. Качество модели определяется тем, насколько значения
близки к единице и не сильно отличаются друг от друга.
Существуют формулы и для коэффициентов частной корреляции, но я не буду останавливаться на них, так как они второстепенны. С коэффициентами эластичности и бета-коэффициентами проблем нет – просто добавляется ещё один коэффициент.
![]()
Важно помнить, что вывод по каждому коэффициенту делается с оговоркой, что два других фактора остаются неизменными. Аналогично и при проверке значимости коэффициентов, только проверяется уже третий коэффициент.
И в завершение приведу общие формулы для линейной модели с «эм» факторами
и корреляционной матрицей:

и система линейных уравнений в матричной форме:

…вроде все верно, но можно и перепроверить, дерзайте!
