Мнк что это такое

15.11.202305.08.2022 admin 0 Comments

Метод наименьших квадратов

Метод наименьших квадратов (МНК) — это статистическая процедура для довольно точного прогнозирования поведения зависимых переменных.

Например, можно понять, как будет меняться товарооборот (значение «y») сети магазинов с изменением размеров торговой площади (значение «x»).

Суть МНК — из всех линейных функций найти наилучшее приближение к реальности. Это можно сделать путём поиска функции с наименьшим отклонением (точнее по процессу МНК: поиск минимальной суммы квадратов отклонений значений y (игрек) от полученного уравнения регрессии).

Решение МНК

Мы ищем уравнение линейной регрессии, которое выглядит так: y = ax + b

Метод 1

Шаги, которые мы будем делать для поиска y = ax + b (сейчас мы их все пройдём на примере):

Шаг 1: Для каждой точки (x, y) вычислить x² и xy.

Шаг 2: Суммировать все x, y, x² и xy, это даст нам Σx, Σy, Σx² и Σxy (если кто забыл, Σ означает «сумма»).

Шаг 3: Рассчитать наклон a по этой формуле:

, где N – количество данных

Шаг 4: Рассчитать значение числа b:

, где N – количество данных

Шаг 5: Подставить найденные числа по местам в уравнение (y = ax + b)

Пример

После некоторых наблюдений, у нас появились данные о размерах и продажах некой торговой сети, у которой 5 магазинов:

Размер (x)	Продажи (y)
2	4
3	6
5	8
7	10
9	12

Для наглядности, например, это магазины мороженого, и 2-метровая лавочка продаёт в месяц 4 тонны мороженого, 7 метровая — 10 тонн.

Сразу можно записать, что N = 5 (количество данных; т.е. всего у нас данные по пяти магазинам, ведь у нас 5 строк данных).

Для каждой точки (x, y) вычисляем x² и xy. Для этого, к уже существующим столбцам добавим ещё два: x² и xy.

Шаг 2: Суммировать все x, y, x² и xy, это даст нам Σx, Σy, Σx² и Σxy (складываем каждый столбик):

x	y	x²	xy
2	4	2² = 4	2 × 4 = 8
3	6	3² = 9	3 × 6 = 18
5	8	25	40
7	10	49	70
9	12	81	108
Σx = 26	Σy = 40	Σx² = 168	Σxy = 244

Шаг 3: Рассчитать a (наклон графика) по этой формуле:

, где N – количество данных

Помним, что N = 5, значит:

Шаг 4: Рассчитать значение числа b:

, где N – количество данных

Помним, что N = 5, значит:

Шаг 5: Подставить найденные числа по местам в уравнение

y = ax + b ⇒ y = 1,0976x + 2,29248

Далее можем проверить. Можем составить вот такой график, вместе с данными точками и полученной функцией:

Также мы можем использовать эту функцию, чтобы понять, как будут зависеть продажи фирмы от размера помещения. Например: руководство хочет открыть магазин размером в 11,5 м². Для этого подставляем 11,5 вместо x:

y = 1,0976x + 2,29248 ⇒ y = 1,0976 × 11,5 + 2,29248 = 14,91488

Ответ: этот магазин размером в 11,5 м² будет продавать около 15 тонн мороженого в месяц.

Метод 2

Мы продолжаем искать уравнение линейной регрессии, которое выглядит так: y = ax + b.

Используем тот же пример с сетью магазинов.

Размер (x)	Продажи (y)
2	4
3	6
5	8
7	10
9	12

Шаг 1: Опять суммируем все x, y, x² и xy, т.е. находим Σx, Σy, Σx² и Σxy (складываем каждый столбик):

x	y	x²	xy
2	4	2² = 4	2 × 4 = 8
3	6	3² = 9	3 × 6 = 18
5	8	25	40
7	10	49	70
9	12	81	108
Σx = 26	Σy = 40	Σx² = 168	Σxy = 244

Шаг 2: Записать вот такую систему уравнений (так мы будем искать параметры a и b):

Шаг 3: Помним, что N = 5. Таким образом, из нашего примера получаем систему:

Лучше конечно её переписать красиво:

Шаг 4: Решить систему.

Находим a = 1,0976; b = 2,29248; и ставим по местам в функцию (y = ax + b). Получается y = 1,0976x + 2,29248

Для проверки лучше составить график с данными точками и найденной функцией, как в методе 1.

Источник

Метод наименьших квадратов

Метод наименьших квадратов (МНК, OLS, Ordinary Least Squares) — один из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.

Необходимо отметить, что собственно методом наименьших квадратов можно назвать метод решения задачи в любой области, если решение заключается или удовлетворяет некоторому критерию минимизации суммы квадратов некоторых функций от искомых переменных. Поэтому метод наименьших квадратов может применяться также для приближённого представления (аппроксимации) заданной функции другими (более простыми) функциями, при нахождении совокупности величин, удовлетворяющих уравнениям или ограничениям, количество которых превышает количество этих величин и т. д.

Содержание

Сущность МНК

Пусть задана некоторая (параметрическая) модель вероятностной (регрессионной) зависимости между (объясняемой) переменной y и множеством факторов (объясняющих переменных) x

где — вектор неизвестных параметров модели

— случайная ошибка модели.

Пусть также имеются выборочные наблюдения значений указанных переменных. Пусть — номер наблюдения (). Тогда — значения переменных в -м наблюдении. Тогда при заданных значениях параметров b можно рассчитать теоретические (модельные) значения объясняемой переменной y:

Тогда можно рассчитать остатки регрессионной модели — разницу между наблюдаемыми значениями объясняемой переменной и теоретическими (модельными, оцененными):

Величина остатков зависит от значений параметров b.

Сущность МНК (обычного, классического) заключается в том, чтобы найти такие параметры b, при которых сумма квадратов остатков (англ. Residual Sum of Squares [1] ) будет минимальной:

В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о нелинейном МНК (NLS или NLLS — англ. Non-Linear Least Squares ). Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки функции , продифференцировав её по неизвестным параметрам b, приравняв производные к нулю и решив полученную систему уравнений:

Если случайные ошибки модели имеют нормальное распределение, имеют одинаковую дисперсию и некоррелированы между собой, МНК-оценки параметров совпадают с оценками метода максимального правдоподобия (ММП).

МНК в случае линейной модели

Пусть регрессионная зависимость является линейной:

Пусть y — вектор-столбец наблюдений объясняемой переменной, а — матрица наблюдений факторов (строки матрицы — векторы значений факторов в данном наблюдении, по столбцам — вектор значений данного фактора во всех наблюдениях). Матричное представление линейной модели имеет вид:

Тогда вектор оценок объясняемой переменной и вектор остатков регрессии будут равны

соответственно сумма квадратов остатков регрессии будет равна

Дифференцируя эту функцию по вектору параметров и приравняв производные к нулю, получим систему уравнений (в матричной форме):

Решение этой системы уравнений и дает общую формулу МНК-оценок для линейной модели:

Для аналитических целей оказывается полезным последнее представление этой формулы. Если в регрессионной модели данные центрированы, то в этом представлении первая матрица имеет смысл выборочной ковариационной матрицы факторов, а вторая — вектор ковариаций факторов с зависимой переменной. Если кроме того данные ещё и нормированы на СКО (то есть в конечном итоге стандартизированы), то первая матрица имеет смысл выборочной корреляционной матрицы факторов, второй вектор — вектора выборочных корреляций факторов с зависимой переменной.

Немаловажное свойство МНК-оценок для моделей с константой — линия построенной регрессии проходит через центр тяжести выборочных данных, то есть выполняется равенство:

В частности, в крайнем случае, когда единственным регрессором является константа, получаем, что МНК-оценка единственного параметра (собственно константы) равна среднему значению объясняемой переменной. То есть среднее арифметическое, известное своими хорошими свойствами из законов больших чисел, также является МНК-оценкой — удовлетворяет критерию минимума суммы квадратов отклонений от неё.

Пример: простейшая (парная) регрессия

В случае парной линейной регрессии формулы расчета упрощаются (можно обойтись без матричной алгебры):

Свойства МНК-оценок

В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками, как это следует из вышеприведённой формулы. Для несмещенности МНК-оценок необходимо и достаточно выполнения важнейшего условия регрессионного анализа: условное по факторам математическое ожидание случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если

Первое условие можно считать выполненным всегда для моделей с константой, так как константа берёт на себя ненулевое математическое ожидание ошибок (поэтому модели с константой в общем случае предпочтительнее).

Второе условие — условие экзогенности факторов — принципиальное. Если это свойство не выполнено, то можно считать, что практически любые оценки будут крайне неудовлетворительными: они не будут даже состоятельными (то есть даже очень большой объём данных не позволяет получить качественные оценки в этом случае). В классическом случае делается более сильное предположение о детерминированности факторов, в отличие от случайной ошибки, что автоматически означает выполнение условия экзогенности. В общем случае для состоятельности оценок достаточно выполнения условия экзогенности вместе со сходимостью матрицы к некоторой невырожденной матрице при увеличении объёма выборки до бесконечности.

Для того, чтобы кроме состоятельности и несмещенности, оценки (обычного) МНК были ещё и эффективными (наилучшими в классе линейных несмещенных оценок) необходимо выполнение дополнительных свойств случайной ошибки:

Данные предположения можно сформулировать для ковариационной матрицы вектора случайных ошибок

Линейная модель, удовлетворяющая таким условиям, называется классической. МНК-оценки для классической линейной регрессии являются несмещёнными, состоятельными и наиболее эффективными оценками в классе всех линейных несмещённых оценок (в англоязычной литературе иногда употребляют аббревиатуру BLUE (Best Linear Unbaised Estimator) — наилучшая линейная несмещённая оценка; в отечественной литературе чаще приводится теорема Гаусса — Маркова). Как нетрудно показать, ковариационная матрица вектора оценок коэффициентов будет равна:

Эффективность означает, что эта ковариационная матрица является «минимальной» (любая линейная комбинация коэффициентов, и в частности сами коэффициенты, имеют минимальную дисперсию), то есть в классе линейных несмещенных оценок оценки МНК-наилучшие. Диагональные элементы этой матрицы — дисперсии оценок коэффициентов — важные параметры качества полученных оценок. Однако рассчитать ковариационную матрицу невозможно, поскольку дисперсия случайных ошибок неизвестна. Можно доказать, что несмещённой и состоятельной (для классической линейной модели) оценкой дисперсии случайных ошибок является величина:

Подставив данное значение в формулу для ковариационной матрицы и получим оценку ковариационной матрицы. Полученные оценки также являются несмещёнными и состоятельными. Важно также то, что оценка дисперсии ошибок (а значит и дисперсий коэффициентов) и оценки параметров модели являются независимыми случайными величинами, что позволяет получить тестовые статистики для проверки гипотез о коэффициентах модели.

Необходимо отметить, что если классические предположения не выполнены, МНК-оценки параметров не являются наиболее эффективными оценками (оставаясь несмещёнными и состоятельными). Однако, ещё более ухудшается оценка ковариационной матрицы — она становится смещённой и несостоятельной. Это означает, что статистические выводы о качестве построенной модели в таком случае могут быть крайне недостоверными. Одним из вариантов решения последней проблемы является применение специальных оценок ковариационной матрицы, которые являются состоятельными при нарушениях классических предположений (стандартные ошибки в форме Уайта и стандартные ошибки в форме Ньюи-Уеста). Другой подход заключается в применении так называемого обобщённого МНК.

Обобщенный МНК

Метод наименьших квадратов допускает широкое обобщение. Вместо минимизации суммы квадратов остатков можно минимизировать некоторую положительно определенную квадратичную форму от вектора остатков , где — некоторая симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем данного подхода, когда весовая матрица пропорциональна единичной матрице. Как известно из теории симметрических матриц (или операторов) для таких матриц существует разложение . Следовательно, указанный функционал можно представить следующим образом , то есть этот функционал можно представить как сумму квадратов некоторых преобразованных «остатков». Таким образом, можно выделить класс методов наименьших квадратов — LS-методы (Least Squares).

Доказано (теорема Айткена), что для обобщенной линейной регрессионной модели (в которой на ковариационную матрицу случайных ошибок не налагается никаких ограничений) наиболее эффективными (в классе линейных несмещенных оценок) являются оценки т. н. обобщенного МНК (ОМНК, GLS — Generalized Least Squares) — LS-метода с весовой матрицей, равной обратной ковариационной матрице случайных ошибок: .

Можно показать, что формула ОМНК-оценок параметров линейной модели имеет вид

Ковариационная матрица этих оценок соответственно будет равна

Фактически сущность ОМНК заключается в определенном (линейном) преобразовании (P) исходных данных и применении обычного МНК к преобразованным данным. Цель этого преобразования — для преобразованных данных случайные ошибки уже удовлетворяют классическим предположениям.

Взвешенный МНК

В случае диагональной весовой матрицы (а значит и ковариационной матрицы случайных ошибок) имеем так называемый взвешенный МНК (WLS — Weighted Least Squares). В данном случае минимизируется взвешенная сумма квадратов остатков модели, то есть каждое наблюдение получает «вес», обратно пропорциональный дисперсии случайной ошибки в данном наблюдении: . Фактически данные преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к взвешенным данным применяется обычный МНК.

Некоторые частные случаи применения МНК на практике

Аппроксимация линейной зависимости

Рассмотрим случай, когда в результате изучения зависимости некоторой скалярной величины от некоторой скалярной величины (Это может быть, например, зависимость напряжения от силы тока : , где — постоянная величина, сопротивление проводника) было проведено измерений этих величин, в результате которых были получены значения и соответствующие им значения . Данные измерений должны быть записаны в таблице.

Таблица. Результаты измерений.

№ измерения
1
2
3
4
5
6

Вопрос звучит так: какое значение коэффициента можно подобрать, чтобы наилучшим образом описать зависимость ? Согласно МНК это значение должно быть таким, чтобы сумма квадратов отклонений величин от величин

Сумма квадратов отклонений имеет один экстремум — минимум, что позволяет нам использовать эту формулу. Найдём из этой формулы значение коэффициента . Для этого преобразуем её левую часть следующим образом:

Далее идёт ряд математических преобразований:

Последняя формула позволяет нам найти значение коэффициента , что и требовалось в задаче.

История

Альтернативное использование МНК

Идея метода наименьших квадратов может быть использована также в других случаях, не связанных напрямую с регрессионным анализом. Дело в том, что сумма квадратов является одной из наиболее распространенных мер близости для векторов (евклидова метрика в конечномерных пространствах).

Одно из применений — «решение» систем линейных уравнений, в которых число уравнений больше числа переменных

где матрица не квадратная, а прямоугольная размера n» border=»0″ />.

Такая система уравнений, в общем случае не имеет решения (если ранг на самом деле больше числа переменных). Поэтому эту систему можно «решить» только в смысле выбора такого вектора , чтобы минимизировать «расстояние» между векторами и . Для этого можно применить критерий минимизации суммы квадратов разностей левой и правой частей уравнений системы, то есть . Нетрудно показать, что решение этой задачи минимизации приводит к решению следующей системы уравнений

Используя оператор псевдоинверсии, решение можно переписать так:

где — псевдообратная матрица для .

Данную задачу также можно «решить» используя взвешенный МНК, когда разные уравнения системы получают разный вес из теоретических соображений.

Естественно, данный подход может быть использован и в случае нелинейных систем уравнений.

Строгое обоснование и установление границ содержательной применимости метода даны А. А. Марковым и А. Н. Колмогоровым.

См. также

Примечания

Литература

Ссылки

Полезное

Смотреть что такое «Метод наименьших квадратов» в других словарях:

Метод наименьших квадратов — метод статистической оценки функциональной зависимости путем установления таких ее параметров, при которых сумма квадратов отклонений опытных данных от этой зависимости является минимальной. Источник: ГОСТ 20522 96: Грунты. Методы статистической… … Словарь-справочник терминов нормативно-технической документации

метод наименьших квадратов — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] метод наименьших квадратов Математический (математико статистический) прием, служащий для выравнивания динамических рядов, выявления формы корреляционной связи между случайными … Справочник технического переводчика

Метод наименьших квадратов — [least square technique] математический (математико статистический) прием, служащий для выравнивания динамических рядов, выявления формы корреляционной связи между случайными величинами и др. Состоит в том, что функция, описывающая данное явление … Экономико-математический словарь

Метод Наименьших Квадратов — статистический метод определения параметров генеральной совокупности путем минимизации критериев суммы квадратов отклонений между фактическими и расчетными данными. Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов

Метод наименьших квадратов — метод определения коэффициентов полиномиальной аппроксимирующей функции, основанный на минимизации суммы квадратов отклонений значений аппроксимирующей функции от исходных данных. Источник: АНАЛИЗ ПОВОЗРАСТНЫХ РИСКОВ СМЕРТНОСТИ НАСЕЛЕНИЯ.… … Официальная терминология

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ — метод оценки параметров по наблюденным данных причем оценки должны быть несмещенными (см. Оценка несмещенная) и Е(Т θ)2 минимально, где в параметр, Т его оценка, Е математическое ожидание. В качестве Т берут определенную функцию от… … Геологическая энциклопедия

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ — англ. method, least squares; нем. Methode der kleinsten Quadrate. Применяются, напр., для исчисления коэффициентов регрессии. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

метод наименьших квадратов — minimaliųjų kvadratų metodas statusas T sritis automatika atitikmenys: angl. least squares method; method of least squares vok. Methode der kleinsten Quadrate, f rus. метод наименьших квадратов, m pranc. méthode de plus petits carrés, f; méthode… … Automatikos terminų žodynas

метод наименьших квадратов — mažiausiųjų kvadratų metodas statusas T sritis Standartizacija ir metrologija apibrėžtis Metodas, kuriuo randami skirstinio nežinomųjų parametrų statistiniai įverčiai. atitikmenys: angl. least squares method; method of least squares vok.… … Penkiakalbis aiškinamasis metrologijos terminų žodynas

метод наименьших квадратов — mažiausiųjų kvadratų metodas statusas T sritis Standartizacija ir metrologija apibrėžtis Metodas, naudojamas lygties koeficientams apskaičiuoti, kai pasirenkama ypatinga lygties forma tam, kad būtų galima pritaikyti kreivę prie duomenų.… … Penkiakalbis aiškinamasis metrologijos terminų žodynas

Источник

Обучение и знания

Мнк что это такое

Метод наименьших квадратов

Решение МНК

Метод 1

Пример

y = ax + b ⇒ y = 1,0976x + 2,29248

Метод 2

Метод наименьших квадратов

Содержание

Сущность МНК

МНК в случае линейной модели

Пример: простейшая (парная) регрессия

Свойства МНК-оценок

Обобщенный МНК

Взвешенный МНК

Некоторые частные случаи применения МНК на практике

Аппроксимация линейной зависимости

История

Альтернативное использование МНК

См. также

Примечания

Литература

Ссылки

Полезное

Смотреть что такое «Метод наименьших квадратов» в других словарях:

Добавить комментарий Отменить ответ

Метод наименьших квадратов

Решение МНК

Метод 1

Пример

y = ax + b ⇒ y = 1,0976x + 2,29248

Метод 2

Метод наименьших квадратов

Содержание

Сущность МНК

МНК в случае линейной модели

Пример: простейшая (парная) регрессия

Свойства МНК-оценок

Обобщенный МНК

Взвешенный МНК

Некоторые частные случаи применения МНК на практике

Аппроксимация линейной зависимости <img decoding="async" src="https://dic.academic.ru/dic.nsf/ruwiki/624990db4b5fbcc7ac4962dfff4592ee.png" alt="Мнк что это такое" title="624990db4b5fbcc7ac4962dfff4592ee">

История

Альтернативное использование МНК

См. также

Примечания

Литература

Ссылки

Полезное

Смотреть что такое «Метод наименьших квадратов» в других словарях:

Вам также понравится

washington dc что это значит

Лента репсовая для чего используют

crash что это значит

Добавить комментарий Отменить ответ

Аппроксимация линейной зависимости