Нелинейный метод наименьших квадратов Постановка задачи

Скачать 177.72 Kb.

Название	Нелинейный метод наименьших квадратов Постановка задачи
страница	1/3
Дата публикации	01.06.2014
Размер	177.72 Kb.
Тип	Документы

literature-edu.ru > Информатика > Документы

1 2 3

Глава 4 Нелинейный метод наименьших квадратов
Постановка задачи. Что будет, если зависимость наблюдаемых значений y_i от параметров нелинейная, т.е.

y_i = h(x_i ;  ) +  _i = h _i ( ) +  _i , i = 1, ..., n, (1)

где x_i  значение (скалярного или векторного) аргумента в i-ом наблюдении, h  функция заданного вида, зависящая от параметров  = ( ₁ , ...,  _k)^T, истинное значение  неизвестно и подлежит оценке по y_i; ошибки измерений _i независимы и в совокупности для  = (₁ , ...,  _n )^T выполняются условия E = 0, cov( ,  ) = ²I_n ? Свойства оптимальности оценки НК, доказанные в линейном случае, целиком основывались на линейности модели (5’) гл.1 по  и на линейности НК-оценок

= Arg min || y – h () || ² , (2)

где h () = (h ₁ ( ) , h ₂ ( ) , ..., h _n ( ) )^T  Rⁿ . Ни то, ни другое не имеет места для h(x ;  ) нелинейного вида. Оценка (2) обычно не может быть записана в явной форме, а получается численно в итерационной процедуре минимизации

Q ( ) = || y – h () || ². (3)

Поэтому в общем случае МНК не обоснован, и метод МП является единственным обоснованным методом :

 _МП = Arg max L ( ) , (4)

и в зависимости от ф.р. ошибок получим разные оценки (4) (см. пример 3 гл.1 для линейного случая). В частности, если   N_n (0 ,  ² I _n ), то

 _МП = Arg max [exp {–1/(2  ² )  || y – h () || ² }] = Arg min Q ( ) = , (5)

т.е. получаем обоснование нелинейного МНК в случае нормальности ошибок.

Однако, в отличие от линейного случая, оценка (2) не будет нормально распределённой (вспомним, что результат теоремы 2.4 был основан на линейности = L y) . Поэтому вся теория нормальной регрессии тут не проходит. В частности, несмещённость и эффективность НК-оценки лишь асимптотическая, как и для любой МП-оценки.

Таким образом, рассмотрение нелинейного случая в основном касается вычислительной стороны  как искать (2) ? Однако прежде, чем искать, поставим вопрос о существовании и единственности НК-оценки.

Пример 1. Оценка (2) может не существовать. Пусть y₁ = y₂ = ... = y_n = 0,   R¹ , h (x ;  ) = , x_i > 0, i = 1, ..., n . Тогда

Q ( ) = , inf Q ( ) = 0, но он не достигается ни в какой конечной точке , а лишь при     . 

Пример 2 . (решение (2) может быть не единственным). Пусть опять y_i = 0, i = 1, ..., n , и пусть  = (₁ , ₂ , ₃ )^T ,

h (x;  ) = exp{ -₁x } - exp{ -₂x } - ₃ (exp{ -x } - exp{ -10x }).

Нетрудно видеть, что опять inf Q ( ) = 0, но он достигается при

(а) ₁ = 1, ₂ = 10, ₃ = 1; (б) ₁ = 10, ₂ = 1, ₃ = -1; (в) ₁ = a , ₂ = -a, ₃ = 0 ;   a    . 

Наконец, из (5) вытекает, что под НК-оценкой понимается , реализующая глобальный минимум Q( ) (3). Однако при нелинейной h(x; ) , как правило, Q( ) имеет несколько минимумов, а найденное  ^* может давать не глобальный, а локальный минимум Q() (неподходящее решение). Задача глобальной минимизации очень трудна, и до настоящего времени в общем случае не решена. Поэтому, чтобы иметь хоть какую-то гарантию успеха, на практике пробуют несколько разных начальных приближений в одной из описанных ниже итерационных процедур, и убеждаются, что все эти начальные приближения приводят к одному и тому же решению (в противном случае за принимают то, которое даёт наименьшее значение Q() ).

Пример 3. Пусть n = 5, опять y_i = 0; x_i = i, i = 1, ..., 5 , и пусть   R¹ , h (x ;  ) = 1 – cos(2 ) + 0.36 x  ². Ясно, что min Q ( ) = 0, и он достигается в точке  = 0 (глобальный минимум). Но имеются ещё четыре локальных минимума вблизи точек -2, -1, 1, 2 (в этих точках функция f() = 1 – cos(2) принимает наименьшее значение, равное 0). Если использовать, как это обычно делается, итерационный алгоритм, и взять в качестве начального приближения для  значение  ⁽⁰⁾ , отделённое от нуля одним из локальных минимумов, то процедура локальной минимизации найдёт в качестве  ^* локальный минимум.

Действительно, автор провёл вычислительный эксперимент, используя функцию FindMinimum из пакета Mathematica (version 2.2). Получились такие результаты:

 ⁽⁰⁾ = 0.5 Q( ⁽⁰⁾ ) = 25.8455  ^* = 0.0251734 Q( ^*) = 8.70710 ^-8

 ⁽⁰⁾ = 1.2 Q( ⁽⁰⁾ ) = 27.9141  ^* = 0.936574 Q( ^*) = 6.25756

 ⁽⁰⁾ = 2.2 Q( ⁽⁰⁾ ) = 205.484  ^* = 1.86034 Q( ^*) = 99.5182.

Как же минимизировать целевую функцию (3) ? Для некоторых частных видов модельной функции h(x;) можно использовать подходящее преобразование переменных, делающее модельную функцию линейной. Например, если в примере 1 взять

g (x; ) = ln h (x; ) = - x , (*)

и если данные не искусственно сконструированные (y₁ = y₂ = ... = y_n = 0), а более реальные (y₁ , y₂ , ... y_n > 0) , можно рассмотреть z_i = lny_i . Такова же ситуация в случае модельной функции – гиперболы

h(x;) = 1/ (₁ + ₂ x)

(g(x; ) = 1/ h(x;), z_i = 1/ y_i ). Однако при преобразованиях типа (*) теряется аддитивность ошибок:

z_i = ln y_i  ln h(x_i ; ) + _i’ = g(x_i ; ) + _i’,

где _i’ – ошибка для преобразованных данных. Поэтому минимизация целевой функции

(**)

не то же самое, что минимизация (3), так что решение (**) не есть НК-оценка. Правда, если |  _i | << |h(x; )|, можно взять по формуле Тейлора линейную (по  _i ) часть разложения y_i : z_i = ln h(x_i ; ) + ln (1+ )  ln h(x_i ; ) + = g(x_i ; ) + _i’. Однако и в этом случае преобразованная ошибка  _i’ не имеет постоянной дисперсии, Var{_i’} = , так что нужно использовать оценку Эйткена (20) из гл.1, а не обычную НК-оценку (10) гл.1. Таким образом, преобразование переменных требует осторожности, и правильнее рассматривать решение линеаризованной задачи (**) в качестве метода выбора начального приближения для , а затем решать нелинейную задачу (3) итерационными методами.

Градиентные методы. Какими? Обычно модельная функция h(x;)  гладкая функция  (в дальнейшем нам понадобится, чтобы h ( ), h ( ) и h ( ) были непрерывны), а Q() квадратичная по h (т.е. тоже гладкая) . Теория и практика оптимизации показывают, что для локальной минимизации гладкой функции (3) более эффективны градиентные методы, а не алгоритмы типа случайного поиска. При этом решение ищется итерационно :

 ^(l+1) =  ^(l) +  ^(l) , (6)

где l  номер шага,  ^(l)  приближение для  на l -ой итерации,  ^(l+1)  на l+1-ой итерации,  ^(l)  R^k  итерационный шаг. Итерационный шаг определяется направлением  _l (единичный вектор, ||  _l || = 1, лежащий на луче, проведённом из  ^(l) ) , и величиной шага  _l > 0, так что

 ^(l) =  _l  _l . (7)
Хотелось бы, чтобы очередной шаг приближал нас к решению  ^* (обозначаем его  ^*, а не потому, что ищется не глобальный, а локальный минимум (3)). Однако мы не знаем  ^* , поэтому считаем шаг удачным, если он уменьшил целевую функцию (3).

Определение 1. Шаг  ^(l) допустимый, если Q( ^(l) +  ^(l)) < Q( ^(l)) .

Определение 2. Градиентный метод называется допустимым , если он состоит из одних лишь допустимых шагов.

В дальнейшем мы будем рассматривать только допустимые градиентные методы. Общую итерационную процедуру такого метода можно описать так:

Пусть начальное приближение для  есть  ⁽¹⁾ . Положим l := 1.
Находим  _l  направление допустимого шага.
Определяем величину шага  _l , вычисляем по (7)  ^(l) и  ^(l+1) =  ^(l) +  ^(l)
Проверяем условия останова. Если они выполнены, полагаем  ^*:=  ^(l+1) и идём на шаг 5. Иначе присваиваем  ^(l):=  ^(l+1), l := l+1 и идём на шаг 2.
Стоп.

В книге Гилл Ф., Мюррей У., Райт М. “Практическая оптимизация”. М.: Мир, 1985 при изложении теории оптимизации приводятся условия локального минимума функции в точке  ^* –

А) Необходимые:

1. Вектор градиента g( ^*) = 0 ;

2. матрица вторых производных (матрица Гессе (Hesse), гессиан, играющая в оптимизации ключевую роль) H  0 в точке  ^*.

Б) Достаточные:

1. g( ^*) = 0 ;

1 2 3

Добавить документ в свой блог или на сайт

	Постановка задачи Роботы — это физические агенты, которые выполняют поставленные перед ними задачи, проводя манипуляции в физическом мире. Управление...		Математические модели cae систем Описание и постановка прикладной задачи, реализованной в качестве дипломной работы. 33
	Математические модели cae систем Описание и постановка прикладной задачи, реализованной в качестве дипломной работы. 33		Определение ориентации неподвижного объекта с помощью спутниковых радионавигационных систем В статье рассматривается постановка задачи определения ориентации. Описана модель, используемая для решения задачи. Приведен алгоритм...
	I. Обзор предметной области 1 Цель работы 6 Постановка задачи 6 Глава ...		Отчет по лабораторной работе должен содержать следующие материалы... Аналитическое решение тестового примера и результат вычислительного эксперимента по тесту
	Программа по курсу: практикум по программированию в ядре Постановка задачи на драйвер kLogger. Базовая структура драйвера. Работа с файлами из режима ядра. Инициализация и выгрузка драйвера....		Отчет должны содержать следующие: заголовок или титульный лист, введение,... Спешу вам сообщить, что мы чуть не упустили такую замечательную вещь как курсовая работа
	Д. Е. Кочкин в статье рассматривается постановка задачи относительного... Применение математической модели вторых разностей фазовых измерений gps в задаче относительного местоопределения		Робоча програма по дисципліні Чисельні методи Численные методы решения систем линейных алгебраических уравнений. Правило Крамера, метод обращения матрицы, метод Гаусса

Нелинейный метод наименьших квадратов Постановка задачи

Похожие: