Регрессионный анализ (Метод наименьших квадратов)

Регрессионный анализ (Метод наименьших квадратов)

Регрессионный анализ относится к статистическим методам анализа и обработки данных. Он широко применяется для построения математических зависимостей по экспериментальным данным, когда одна переменная зависит от значений других переменных. 

История развития регрессионного анализа началась с 1805 года, когда А.М. Лежандромом был предложен метод наименьших квадратов. Понятие «регрессия» было впервые упомянуто в 1885 году Франсисом Гальтоном. Регрессионной связью называется связь между переменными, в которой ожидаемое значение одной зависимой (прогнозируемой, регрессионной) переменной взаимосвязана с другими независимыми (предикторами, регрессорами, аргументами регрессии) переменными:

Регрессионный анализ (Метод наименьших квадратов)

Для корректного использования регрессионного анализа, в частности метода наименьших квадратов (МНК) существуют следующие допущения на свойства регрессионной ошибки 

Регрессионный анализ (Метод наименьших квадратов)

где

Регрессионный анализ (Метод наименьших квадратов)

– оценка значения зависимой переменной.

Допущения: 

1. В каждом опыте ei имеет нормальный закон распределения.

2. В каждом опыте математическое ожидание ei равно нулю.

3. Во всех опытах дисперсия ei постоянна и одинакова.

4. Во всех опытах ошибки ei независимы.

Помимо допущений необходимо выполнение следующих предпосылок: 

1. Матрица наблюдений X имеет полный ранг (rank(X)=p).

2. Структура модели адекватна истинной зависимости.

3. Значения случайной ошибки ei не зависят от значений регрессоров xi

4. Ошибки регистрации

Регрессионный анализ (Метод наименьших квадратов)

регрессоров пренебрежимо малы по сравнению со случайной ошибкой e. 

Пусть изменение выходной переменной y зависит от изменения переменных x1, x2, e и эта зависимость имеет вид: 

Регрессионный анализ (Метод наименьших квадратов)

Располагая наблюдениями над контролируемыми переменными x1, x2, y, необходимо определить неизвестные коэффициенты b1, b2. В этом случае однозначность между xj и y нарушается, т.к. имеет место ошибка e. Следовательно, точно определить коэффициенты bj невозможно и определяются их оценки b1, b2

Для найденных оценок b1, b2 эмпирическое уравнение имеет вид: 

Регрессионный анализ (Метод наименьших квадратов)
(1)

Для определения b1, b2 необходимо минимизировать сумму квадратов разностей 

Регрессионный анализ (Метод наименьших квадратов)

где yi – значение выходной переменной в i-ом опыте; 

Регрессионный анализ (Метод наименьших квадратов)

– значение, полученное из (1) путем подстановки x1, x2 в (1). 

Регрессионный анализ (Метод наименьших квадратов)
(2)

Функция (2) достигается при выполнении условий: 

Регрессионный анализ (Метод наименьших квадратов)
Регрессионный анализ (Метод наименьших квадратов)

Продифференцируем S по b1, b2 и приравняем производные нулю:

Регрессионный анализ (Метод наименьших квадратов)
Регрессионный анализ (Метод наименьших квадратов)

После преобразований получаем систему нормальных уравнений:

Регрессионный анализ (Метод наименьших квадратов)
(3)

Для решения систем нормальных уравнений используем правило Крамера:

Регрессионный анализ (Метод наименьших квадратов)

где V – информационная матрица; 
Vj (j=1,2)– матрица V, в которой j-й столбец заменен столбцом правой части системы (3). 

Решение существует, если rank(x)=2. Коэффициенты b1, b2 являются случайными величинами. Если в уравнение регрессии включить новую переменную, то необходимо будет коэффициент bj вычислить заново.

В матричной форме обобщенное уравнение регрессии имеет вид Y=XB+E. 

Оценки B минимизируют сумму квадратов отклонений

Регрессионный анализ (Метод наименьших квадратов)

, т.е.: 

Регрессионный анализ (Метод наименьших квадратов)
(4)

Раскрыв (4) и учитывая, что

Регрессионный анализ (Метод наименьших квадратов)

получим 

Регрессионный анализ (Метод наименьших квадратов)

Продифференцировав S по

Регрессионный анализ (Метод наименьших квадратов)

получим

Регрессионный анализ (Метод наименьших квадратов)

Приравняем данный результат к нулю, после чего получим систему нормальных уравнений, которая в матричной форме записывается как 

Регрессионный анализ (Метод наименьших квадратов)

Из этой системы получаем решение для

Регрессионный анализ (Метод наименьших квадратов)

равное 

Регрессионный анализ (Метод наименьших квадратов)

Полученная таким образом оценка называется оценкой наименьших квадратов или оценкой МНК. 

Для определения вектора необходимо по данным наблюдения найти матрицу, обратную к матрице XTX, и вектор XTY: 

Регрессионный анализ (Метод наименьших квадратов)
Регрессионный анализ (Метод наименьших квадратов)

Обычно предполагается, что уравнение регрессии имеет свободный член, т.е. B0. Для того чтобы получить оценку этого параметра (B0), расширим матрицу XTX, введя в нее переменную Xi0=1. Тогда матрицу X в развернутом виде можно записать как: 

Регрессионный анализ (Метод наименьших квадратов)

откуда 

Регрессионный анализ (Метод наименьших квадратов)

и

Регрессионный анализ (Метод наименьших квадратов)

При соблюдении введенных допущений МНК оценки регрессионных коэффициентов  bj являются несмещенными, состоятельными и эффективными. МНК не требует, чтобы все входные переменные Xj были распределены нормально, а лишь требует, чтобы при любом фиксированном наборе Xij, выходная переменная y была распределена нормально. Это необходимо для корректной интерпретации результатов с использованием распределений Фишера и Стьюдента.