Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)


 

 

 

 



МОДЕЛЬ ИСКУССТВЕННОГО НЕЙРОНА



Искусственная нейронная сеть (ИНС) - это упрощенная мо­дель биологического мозга, точнее нервной ткани. Ес­тественная нервная клетка (нейрон) состоит из тела (сомы), со­держащего ядро, и отростков — дендритов, по которым в нейрон поступают входные сигналы. Один из отростков, ветвящийся на конце, служит для передачи выходных сигналов данного нейрона другим нервным клеткам. Он называется аксоном. Соединение аксона с дендритом другого нейрона называется синапсом. Ней­рон возбуждается и передает сигнал через аксон, если число при­шедших по дендритам возбуждающих сигналов больше, чем чис­ло тормозящих.

Сеть ИНС представляет собой совокупность простых вычис­лительных элементов — искусственных нейронов, каждый из ко­торых обладает определенным количеством входов (дендритов) и единственным выходом (аксоном), разветвления которого под­ходят к синапсам, связывающим его с другими нейронами. На входы нейрона поступает информация извне или от других ней­ронов. Каждый нейрон характеризуется функцией преобразова­ния входных сигналов в выходной (функция возбуждения нейро­на). Нейроны в сети могут иметь одинаковые или разные функ­ции возбуждения. Сигналы, поступающие на вход нейрона, не­равнозначны в том смысле, что информация из одного источни­ка может быть более важной, чем из другого. Приоритеты входов задаются с помощью вектора весовых коэффициентов, модели­рующих синаптическую силу биологических нейронов.

Модель искусственного нейрона (рис. 1) представляет со­бой дискретно-непрерывный преобразователь информации. Ин­формация, поступающая на вход нейрона, суммируется с учетом весовых коэффициентов сигналов где п — размер-

ность пространства входных сигналов. Потенциал нейрона опре­деляется по формуле

Взвешенная сумма поступивших сигналов (потенциал) пре­образуется с помощью передаточной функции в выходной сигнал нейрона Y, который передается другим нейронам сети, т. е. Вид передаточной (активационной) функции явля-

ется важнейшей характеристикой нейрона. В общем случае эта функция может быть ступенчатой (пороговой), линейной или не­линейной (рис. 2). Пороговая функция пропускает информа­цию только в том случае, если алгебраическая сумма входных сигналов превышает некоторую постоянную величину на­пример:

Рис. 1. Схема кибернетической модели нейрона

Пороговая функция не обеспечивает достаточной гибкости ИНС при обучении. Если значение вычисленного потенциала не достигает заданного порога, то выходной сигнал не формируется и нейрон «не срабатывает». Это приводит к снижению интенсив­ности выходного сигнала нейрона и, как следствие, к формиро­ванию невысокого значения потенциала взвешенных входов в следующем слое нейронов.

Линейная функция Y=kP дифференцируема и легко вычисля­ется, что в ряде случаев позволяет уменьшить ошибки выходных сигналов в сети, так как передаточная функция сети также явля­ется линейной. Однако она не универсальна и не обеспечивает решения многих задач.

Определенным компромиссом между линейной и ступенча­той функциями является сигмоидальная функция переноса которая удачно моделирует передаточную харак­теристику биологического нейрона (рис.2, в). Коэффициент к

Рис. 2. Функции переноса искусственных нейронов: а - линейная; б- ступенчатая; в - сигмоидальная

определяет крутизну нелинейной функции: чем больше к, тем ближе сигмоидальная функция к пороговой; чем меньше к, тем она ближе к линейной. Подобно ступенчатой функции она поз­воляет выделять в пространстве признаков множества сложной формы, в том числе невыпуклые и несвязные. При этом сигмои­дальная функция, в отличие от ступенчатой, не имеет разрывов. Она дифференцируема, как и линейная функция, и это качество можно использовать при поиске экстремума в пространстве па­раметров ИНС.

Тип функции переноса выбирается с учетом конкретной зада­чи, решаемой с применением нейронных сетей. Например, в за­дачах аппроксимации и классификации предпочтение отдают ло­гистической (сигмоидальной) кривой. Нейронная сеть представ­ляет собой совокупность искусственных нейронов, организован­ных слоями. При этом выходы нейронов одного слоя соединяют­ся с входами нейронов другого. В зависимости от топологии со­единений нейронов ИНС подразделяются на одноуровневые и многоуровневые, с обратными связями и без них. Связи между слоями могут иметь различную структуру. В однолинейных сетях каждый нейрон (узел) нижнего слоя связан с одним нейроном верхнего слоя. Если каждый нейрон нижнего слоя соединен с не­сколькими нейронами следующего слоя, то получается пирами­дальная сеть. Воронкообразная схема соединений предполагает связь каждого узла верхнего слоя со всеми узлами нижнего уров­ня. Существуют также древовидные и рекуррентные сети, содер­жащие обратные связи с произвольной структурой межнейрон­ных соединений. Чтобы построить ИНС для решения конкрет ной задачи, нужно выбрать тип соединения нейронов, опреде­лить вид передаточных функций элементов и подобрать весовые коэффициенты межнейронных связей.

При всем многообразии возможных конфигураций ИНС на практике получили распространение лишь некоторые из них. Классические модели нейронных сетей рассмотрены ниже.

МОДЕЛИ НЕЙРОННЫХ СЕТЕЙ

Теоретические основы нейроматематики были заложены в начале 1940-х гг. Попытки построить машины, способные к ра­зумному поведению, были в значительной мере вдохновлены идеями «отца кибернетики» Норберта Винера. Идеи Винера были применены Дж. Маккалохом и У. Питтсом, которые разработали собственную теорию деятельности головного мозга, основан­ную на предположении, что функционирование компьютера и мозга сходно. К главным результатам их работы относятся следу­ющие:

• модель нейрона в виде простейшего процессорного элемента, который вычисляет значение переходной функции от скалярного произведения вектора входных сигналов и вектора весовых коэффициентов;

• конструкция нейронной сети для выполнения логических и арифметических операций;

• предположение о том, что нейронная сеть способна обучаться, распознавать образы, обобщать полученную информацию.

В формализме Дж. Маккалоха и У. Питтса нейроны имеют пороговую функцию перехода из состояния в состояние. Каждый нейрон в сети определяет взвешенную сумму состояний всех дру­гих нейронов и сравнивает ее с порогом, чтобы определить свое собственное состояние.

Аппаратная реализация ИНС на основе пороговых элемен­тов, оперирующих двоичными числами, оказалась чрезвычайно

трудной из-за высокой стоимости электронных элементов в то время. Самые совершенные системы тогда содержали лишь сот­ни нейронов, в то время как нервная система муравья содержит более 20 тыс.

Серьезное развитие нейрокибернетика получила в трудах американского нейрофизиолога Ф. Розенблата, который предло­жил свою модель нейронной сети в 1958 г. и продемонстрировал созданное на ее основе электронное устройство, названное пер-цептроном. Ф. Розенблат ввел возможность модификации межнейронных связей, что сделало ИНС обучаемой. Первые перцептроны были способны распознавать некоторые буквы ла­тинского алфавита. Впоследствии модель перцептрона была зна­чительно усовершенствована, а наиболее удачным ее применени­ем стали задачи автоматической классификации.

Алгоритм обучения перцептрона включает следующие шаги.

1. Системе предъявляется эталонный образ.

2. Если результат распознавания совпадает с заданным, весовые коэффициенты связей не изменяются.

3. Если ИНС неправильно распознает результат, то весовым коэффициентам дается приращение в сторону повышения качества распознавания.

Теоретический анализ перцептрона, проведенный М. Мин­ским и С. Пейпертом, показал его ограниченные возможнос­ти, поскольку не всегда существует такая комбинация весовых коэффициентов, при которой заданное множество образов будет распознаваться правильно. Причина этого недостатка состоит в том, что однослойный перцептрон реализует линейную поверх­ность, разделяющую пространство эталонов, вследствие чего происходит неверное распознавание образов в случаях, когда за­дача не является линейно сепарабельной. Для решения таких проблем предложены модели многослойных перцептронов, спо­собные строить ломаную границу между распознаваемыми обра­зами. Несмотря на то что перцептрон Розенблата имел невысо­кие возможности обучения, разработка этой концепции при­влекла внимание исследователей к проблеме ИНС и привела к созданию более «разумных» интеллектуальных систем.

Многослойные сети.В многослойных сетях устанавливаются связи только между нейронами соседних слоев, как показано на рис. 3. Каждый элемент может быть соединен модифицируемой

Рис. 3. Схема многослойного перцептрона

связью с любым нейроном соседних слоев, но между элементами одного слоя связей нет. Каждый нейрон может посылать выход­ной сигнал только в вышележащий слой и принимать входные сигналы только с нижерасположенного слоя. Входные сигналы подаются на нижний слой, а выходной вектор сигналов опреде­ляется путем последовательного вычисления уровней активности элементов каждого слоя (снизу вверх) с использованием уже из­вестных значений активности элементов предшествующих слоев. При распознавании образов входной вектор соответствует набо­ру признаков, а выходной - распознаваемым образам. Скрытый слой (один или несколько) предназначен для отражения специфики знаний. В таких сетях обычно используются переда­точные сигмоидальные функции.

Структура нейронной сети определяется типом, например 25-10-5, т.е. двадцать пять узлов находится в первом слое, десять — в скрытом и пять - в выходном. Определение числа скры­тых слоев и числа нейронов в каждом слое для конкретной зада­чи является неформальной проблемой, при решении которой можно использовать эвристическое правило: число нейронов в сле­дующем слое в два раза меньше, чем в предыдущем.

Выше отмечалось, что простой перцептрон с одним слоем обучаемых связей формирует границы областей решений в виде гиперплоскостей. Двухслойный перцептрон может выполнять операцию логического И над полупространствами, образованны­ми гиперплоскостями первого слоя весов. Это позволяет форми­ровать любые выпуклые области в пространстве входных сигна­лов. С помощью трехслойного перцептрона, используя логичес­кое ИЛИ для комбинирования выпуклых областей, можно полу­чить области решений произвольной формы и сложности, в том числе невыпуклые и несвязные. То, что многослойные перцеп-троны с достаточным множеством внутренних нейроподобных элементов и соответствующей матрицей связей в принципе спо­собны осуществлять любое отображение вход-выход, отмечали еще М. Минский и С. Пейперт, однако они сомневались, что для таких процедур можно открыть мощный аналог процедуры обу­чения простого перцептрона. В настоящее время в результате возрождения интереса к многослойным сетям предложено не­сколько таких процедур. Одной из них является алгоритм обрат­ного распространения ошибки, который будет рассмотрен ниже.

Рекуррентные сети.Они содержат обратные связи, благодаря которым становится возможным получение отличающихся зна­чений выходов при одних и тех же входных данных. Наличие ре­куррентных нейронов позволяет ИНС накапливать знания в про­цессе обучения.

Рекуррентные сети (рис. 4) являются развитием модели Хопфилда на основе применения новых алгоритмов обучения, исключающих попадание системы в локальные минимумы на по­верхности энергетических состояний. Важной особенностью ре­куррентных сетей является их способность предсказывать суще­ствование новых классов объектов.

Модель Хопфилда.Работы американского биофизика Дж. Хопфилда положили начало современному математическому моделированию нейронных вычислений. Ему удалось при­влечь к анализу нейросетевых моделей мощный математический аппарат статистической физики. В результате была сформулирована математическая модель ассоциативной памяти на нейрон­ной сети с использованием правила Д. Хебба для модификации весовых коэффициентов.

Рис. 4. Схема рекуррентной нейронной сети

Это правило основано на простом предположении: если два нейрона возбуждаются вместе, то сила связи между ними возрастает; если они возбуждаются порознь, то сила связи между ними уменьшается.

Сеть Хопфилда строится с учетом следующих условий:

• все элементы связаны со всеми;

лю, т. е. исключаются обратные связи с выхода на вход одного нейрона.

Для однослойной нейронной сети со связями типа «все ко всем» характерна сходимость к одной из конечного множества равновесных точек, которые являются локальными минимумами функции энергии, отражающей структуру всех связей в сети. Вве­денная Хопфиддом функция вычислительной энергии нейрон­ной сети описывает поведение сети через стремление к миниму­му энергии, который соответствует заданному набору образов. В связи с этим сети Хопфилда могут выполнять функции ассоциа­тивной памяти, обеспечивая сходимость к тому образу, в область притяжения которого попадает начальный паттерн (образец) ак­тивности нейронов сети.

Этот подход привлекателен тем, что нейронная сеть для кон­кретной задачи может быть запрограммирована без обучающих итераций. Веса связей вычисляются на основе вида функции энергии, сконструированной для решаемой задачи.

Развитием модели Хопфидда является машина Больцмана, предложенная и исследованная Дж. Е. Хинтоном и Р. Земелом для решения комбинаторных оптимизационных задач и задач искусственного интеллекта. В ней, как и в других моделях, нейрон имеет состояния (1,0), межнейронные связи представле­ны весовыми коэффициентами, а каждое состояние сети харак­теризуется определенным значением функции консенсуса (ана­лог функции энергии). Максимум функции консенсуса соответ­ствует оптимальному решению задачи.

Сети Хопфилда получили применение на практике в основ­ном как реализации подсистем более сложных систем. Они име­ют определенные недостатки, ограничивающие возможности их применения:

• предположение о симметрии связей между элементами, без которой нельзя ввести понятие энергии;

• нейронная сеть - это устройство для запоминания и обработки информации, а не устройство минимизации энергии. Экономия энергии играет в этих процессах вспомогательную роль;

• сети Хопфилда поддерживают множество лишних, неэффективных, иногда дублирующих друг друга связей. В реальных нервных системах такие связи не поддерживаются, так как их реализация требует определенных затрат. В биологических нервных системах происходит освобождение от лишних связей за счет их структуризации. При этом вместо организации связей «всех ко всем» используется многослойная иерархическая систе­ма связей.

Самоорганизующиеся сети Т. Кохонена. Идея сетей с са­моорганизацией на основе конкуренции между нейронами бази­руется на применении специальных алгоритмов самообучения ИНС. Сети Кохонена обычно содержат один (выходной) слой обрабатывающих элементов с пороговой передаточной функци­ей. Число нейронов в выходном слое соответствует количеству распознаваемых классов. Настройка параметров межнейронных соединений проводится автоматически на основе меры близости

вектора весовых коэффициентов настраиваемых связей к векто­ру входных сигналов в эвклидовом пространстве. В конкурент­ной борьбе побеждает нейрон, имеющий значения весов, наибо­лее близкие к нормализованному вектору входных сигналов. Кроме того, в самоорганизующихся сетях возможна классифи­кация входных образцов (паттернов). На практике идея Кохоне­на обычно используется в комбинации с другими нейросетевы-ми парадигмами.

ПОСТРОЕНИЕ НЕЙРОННОЙ СЕТИ

При построении модели ИНС прежде всего необходимо точ­но определить задачи, которые будут решаться с ее помощью. В настоящее время нейросетевые технологии успешно применяют­ся для прогнозирования, распознавания и обобщения.

Первым этапом построения нейросетевой модели является тщательный отбор входных данных, влияющих на ожидаемый ре­зультат. Из исходной информации необходимо исключить все сведения, не относящиеся к исследуемой проблеме. В то же вре­мя следует располагать достаточным количеством примеров для обучения ИНС. Существует эмпирическое правило, которое ус­танавливает рекомендуемое соотношение X между количеством обучающих примеров, содержащих входные данные и правиль­ные ответы, и числом соединений в нейронной сети: X <10.

Для факторов, которые включаются в обучающую выборку, целесообразно предварительно оценить их значимость, проведя корреляционный и регрессионный анализ, и проанализировать диапазоны их возможных изменений.

На втором этапе осуществляется преобразование исходных данных с учетом характера и типа проблемы, отображаемой ней­росетевой моделью, и выбираются способы представления ин­формации. Эффективность нейросетевой модели повышается, если диапазоны изменения входных и выходных величин приве­дены к некоторому стандарту, например [0,1] или [-1,1].

Третий этап заключается в конструировании ИНС, т.е. в проектировании ее архитектуры (число слоев и число нейронов в каждом слое). Структура ИНС формируется до начала обуче­ния, поэтому успешное решение этой проблемы во многом определяется опытом и искусством аналитика, проводящего ис­следования.

Четвертый этап связан с обучением сети, которое может проводиться на основе конструктивного или деструктивного подхода. В соответствии с первым подходом обучение ИНС на­чинается на сети небольшого размера, который постепенно уве­личивается до достижения требуемой точности по результатам тестирования. Деструктивный подход базируется на принципе «прореживания дерева», в соответствии с которым из сети с заве­домо избыточным объемом постепенно удаляют «лишние» ней­роны и примыкающие к ним связи. Этот подход дает возмож­ность исследовать влияние удаленных связей на точность сети. Процесс обучения нейронной сети представляет собой уточне­ние значений весовых коэффициентов м^для отдельных узлов на основе постепенного увеличения объема входной и выходной информации. Началу обучения должна предшествовать про­цедура выбора функции активации нейронов, учитывающая ха­рактер решаемой задачи. В частности, в трехслойных перцептро-нах на нейронах скрытого слоя применяется в большинстве слу­чаев логистическая функция, а тип передаточной функции ней­ронов выходного слоя определяется на основе анализа результа­тов вычислительных экспериментов на сети. Индикатором обу­чаемости ИНС может служить гистограмма значений межней­ронных связей .

На пятом этапе проводится тестирование полученной модели ИНС на независимой выборке примеров.

Обучение нейронных сетей

Важнейшим свойством нейронных сетей является их способ­ность к обучению, что делает нейросетевые модели незаменимы­ми при решении задач, для которых алгоритмизация является не­возможной проблематичной или слишком трудоемкой. Обучение нейронной сети заключается в изменении внутренних параметров модели таким образом, чтобы на выходе ИНС генерировался век­тор значений, совпадающий с результатами примеров обучающей выборки. Изменение параметров нейросетевой модели может вы­полняться разными способами в соответствии с различными алгоритмами обучения. Парадигма обучения определяется доступ­ностью необходимой информации. Выделяют три парадигмы:

• обучение с учителем (контролируемое);

• обучение без учителя (неконтролируемое);

• смешанное обучение.

При обучении с учителем все примеры обучающей выборки содержат правильные ответы (выходы), соответствующие исход­ным данным (входам). В процессе контролируемого обучения си-наптические веса настраиваются так, чтобы сеть порождала отве­ты, наиболее близкие к правильным.

Обучение без учителя используется, когда не для всех приме­ров обучающей выборки известны правильные ответы. В этом случае предпринимаются попытки определения внутренней структуры поступающих в сеть данных с целью распределить об­разцы по категориям (модели Кохонена).

При смешанном обучении часть весов определяется посредст­вом обучения с учителем, а другая часть получается с помощью алгоритмов самообучения.

Обучение по примерам характеризуется тремя основными свойствами: емкостью, сложностью образцов и вычислительной сложностью. Емкость соответствует количеству образцов, кото­рые может запомнить сеть. Сложность образцов определяет спо­собности нейронной сети к обучению. В частности, при обуче­нии ИНС могут возникать состояния «перетренировки», в кото­рых сеть хорошо функционирует на примерах обучающей выбор­ки, но не справляется с новыми примерами, утрачивая способ­ность обучаться.

Рассмотрим известные правила обучения ИНС. Правило коррекции по ошибке. Процесс обучения ИНС состо­ит в коррекции исходных значений весовых коэффициентов межнейронных связей, которые обычно задаются случайным об­разом. При вводе входных данных запоминаемого примера (сти­мула) появляется реакция, которая передается от одного слоя нейронов к другому, достигая последнего слоя, где вычисляется результат. Разность между известным значением результата и ре­акцией сети соответствует величине ошибки, которая может ис­пользоваться для корректировки весов межнейронных связей. Корректировка заключается в небольшом (обычно менее 1%) увеличении синаптического веса тех связей, которые усиливают правильные реакции, и уменьшении тех, которые способствуют ошибочным. Это простейшее правило контролируемого обуче­ния (дельта-правило) используется в однослойных сетях с одним уровнем настраиваемых связей между множеством входов и мно­жеством выходов. При этом на каждом шаге для нейрона вес i-й связи вычисляется по формуле где

— известное (правильное) значе­ние выхода нейрона; — рассчитанное значение выхода нейрона; — величина сигнала на i-м входе, - коэффициент скорости обучения.

Оптимальные значения весов межнейронных соединений можно определить путем минимизации среднеквадратичной ошибки с использованием детерминированных или псевдослу­чайных алгоритмов поиска экстремума в пространстве весовых коэффициентов. При этом возникает традиционная проблема оптимизации, связанная с попаданием в локальный минимум.

Правило Хебба. Оно базируется на следующем нейрофизи­ологическом наблюдении: если нейроны по обе стороны синапса активизируются одновременно и регулярно, то сила их синапти-ческой связи возрастает. При этом изменение веса каждой меж­нейронной связи зависит только от активности нейронов, обра­зующих синапс. Это существенно упрощает реализацию алгорит­мов обучения.

Обучение методом соревнования. В отличие от правила Хебба, где множество выходных нейронов может возбуждаться одновре­менно, в данном случае выходные нейроны соревнуются (конкурируют) между собой за активизацию. В процессе сорев­новательного обучения осуществляется модификация весов свя­зей выигравшего нейрона и нейронов, расположенных в его окрестности («победитель забирает все»).

Метод обратного распространения ошибки. Он является обоб­щением процедуры обучения простого перцептрона с использо­ванием дельта-правила на многослойные сети. В данном методе необходимо располагать обучающей выборкой, содержа­щей «правильные ответы», т.е. выборка должна включать множе­ство пар образцов входных и выходных данных, между которыми нужно установить соответствие. Перед началом обучения меж­нейронным связям присваиваются небольшие случайные значе­ния. Каждый шаг обучающей процедуры состоит из двух фаз. Во время первой фазы входные элементы сети устанавливаются в заданное состояние. Входные сигналы распространяются по сети, порождая некоторый выходной вектор. Для работы алгоритма требуется, чтобы характеристика вход-выход нейроподобных элементов была неубывающей и имела ограниченную производ­ную. Обычно для этого используют сигмоидальные функции. Полученный выходной вектор сравнивается с требуемым (пра­вильным). Если они совпадают, то весовые коэффициенты свя­зей не изменяются. В противном случае вычисляется разница между фактическими и требуемыми выходными значениями, ко­торая передается последовательно от выходного слоя к входному.

Модификация весов производится после предъявления каж­дой пары вход-выход. Однако если коэффициент определяю­щий скорость обучения, мал, то можно показать, что обобщенное дельта-правило достаточно хорошо аппроксимирует минимиза­цию общей ошибки функционирования сети D методом гради ентного спуска в пространстве весов. Общая ошибка фу МйфоЙЙ-рования сети определяется по формуле

Обучение продолжается до тех пор, пока ошибка не умень­шится до заданной величины. Эмпирические результаты свиде­тельствуют о том, что при малых значениях система находит до­статочно хороший минимум D. Один из основных недостатков алгоритма обратного распространения ошибки заключается в том, что во многих случаях для сходимости может потребоваться многократное (сотни раз) предъявление всей обучающей выбор­ки. Повышения скорости обучения можно добиться, например, используя информацию о второй производной D или путем уве­личения

Алгоритм обратного распространения ошибки используется также для обучения сетей с обратными связями. При этом ис­пользуется эквивалентность многослойной сети с прямыми свя­зями и синхронной сети с обратными связями на ограниченном интервале времени (слой соответствует такту времени).

В настоящее время предложены алгоритмы обучения, более привлекательные в смысле биологической аналогии. Примером является алгоритм рециркуляции для сетей, в которых скрытые блоки соединены с входными. При обучении веса связей перест­раиваются таким образом, чтобы минимизировать частоту смены активности каждого блока. Таким образом, обученная сеть имеет стабильные состояния и может функционировать в режиме ассо­циативной памяти.



Просмотров 4053

Эта страница нарушает авторские права




allrefrs.su - 2025 год. Все права принадлежат их авторам!