Регрессионный анализ относится к статистическим методам анализа и обработки данных. Он широко применяется для построения математических зависимостей по экспериментальным данным, когда одна переменная зависит от значений других переменных.
История развития регрессионного анализа началась с 1805 года, когда А.М. Лежандромом был предложен метод наименьших квадратов. Понятие «регрессия» было впервые упомянуто в 1885 году Франсисом Гальтоном. Регрессионной связью называется связь между переменными, в которой ожидаемое значение одной зависимой (прогнозируемой, регрессионной) переменной взаимосвязана с другими независимыми (предикторами, регрессорами, аргументами регрессии) переменными:
Для корректного использования регрессионного анализа, в частности метода наименьших квадратов (МНК) существуют следующие допущения на свойства регрессионной ошибки
где
– оценка значения зависимой переменной.
Допущения:
1. В каждом опыте ei имеет нормальный закон распределения.
2. В каждом опыте математическое ожидание ei равно нулю.
3. Во всех опытах дисперсия ei постоянна и одинакова.
4. Во всех опытах ошибки ei независимы.
Помимо допущений необходимо выполнение следующих предпосылок:
1. Матрица наблюдений X имеет полный ранг (rank(X)=p).
2. Структура модели адекватна истинной зависимости.
3. Значения случайной ошибки ei не зависят от значений регрессоров xi
4. Ошибки регистрации
регрессоров пренебрежимо малы по сравнению со случайной ошибкой e.
Пусть изменение выходной переменной y зависит от изменения переменных x1, x2, e и эта зависимость имеет вид:
Располагая наблюдениями над контролируемыми переменными x1, x2, y, необходимо определить неизвестные коэффициенты b1, b2. В этом случае однозначность между xj и y нарушается, т.к. имеет место ошибка e. Следовательно, точно определить коэффициенты bj невозможно и определяются их оценки b1, b2
Для найденных оценок b1, b2 эмпирическое уравнение имеет вид:
Для определения b1, b2 необходимо минимизировать сумму квадратов разностей
где yi – значение выходной переменной в i-ом опыте;
– значение, полученное из (1) путем подстановки x1, x2 в (1).
Функция (2) достигается при выполнении условий:
Продифференцируем S по b1, b2 и приравняем производные нулю:
После преобразований получаем систему нормальных уравнений:
Для решения систем нормальных уравнений используем правило Крамера:
где V – информационная матрица;
Vj (j=1,2)– матрица V, в которой j-й столбец заменен столбцом правой части системы (3).
Решение существует, если rank(x)=2. Коэффициенты b1, b2 являются случайными величинами. Если в уравнение регрессии включить новую переменную, то необходимо будет коэффициент bj вычислить заново.
В матричной форме обобщенное уравнение регрессии имеет вид Y=XB+E.
Оценки B минимизируют сумму квадратов отклонений
, т.е.:
Раскрыв (4) и учитывая, что
получим
Продифференцировав S по
получим
Приравняем данный результат к нулю, после чего получим систему нормальных уравнений, которая в матричной форме записывается как
Из этой системы получаем решение для
равное
Полученная таким образом оценка называется оценкой наименьших квадратов или оценкой МНК.
Для определения вектора необходимо по данным наблюдения найти матрицу, обратную к матрице XTX, и вектор XTY:
Обычно предполагается, что уравнение регрессии имеет свободный член, т.е. B0. Для того чтобы получить оценку этого параметра (B0), расширим матрицу XTX, введя в нее переменную Xi0=1. Тогда матрицу X в развернутом виде можно записать как:
откуда
и
При соблюдении введенных допущений МНК оценки регрессионных коэффициентов bj являются несмещенными, состоятельными и эффективными. МНК не требует, чтобы все входные переменные Xj были распределены нормально, а лишь требует, чтобы при любом фиксированном наборе Xij, выходная переменная y была распределена нормально. Это необходимо для корректной интерпретации результатов с использованием распределений Фишера и Стьюдента.