екоторого непусто и ограничено. Тогда существует точка глобального минимума на .
При анализе единственности точки экстремума применяются следующие рассуждения:
Точка минимума называется локально единственной, если в некоторой ее окрестности нет других локальных минимумов. Считается, что - невырожденная точка минимума, если в ней выполнено достаточное условие экстремума второго порядка (,).
Доказано, что точка минимума (строго) выпуклой функции (глобально) единственна.
Проблема устойчивости решения возникает в связи со следующим кругом вопросов:
Пусть метод оптимизации приводит к построению минимизирующей последовательности, следует ли из этого ее сходимость к решению?
Если вместо исходной задачи минимизации решается задача, сходная с ней, можно ли утверждать близость их решений?
В [77] приводится следующее определение устойчивости:
Точка локального минимума называется локально устойчивой, если к ней сходится любая локальная минимизирующая последовательность, то есть если найдется такое, что из следует .
При обсуждении проблемы устойчивости решения задачи оптимизации можно выделить следующие важные теоремы.
Точка локального минимума непрерывной функции локально устойчива тогда и только тогда, когда она локально единственна.
Пусть - локально устойчивая точка минимума непрерывной функции , а - непрерывная функция. Тогда для достаточно малых функция имеет локально единственную точку минимума в окрестности и при .
Пусть - невырожденная точка минимума , а функция непрерывно дифференцируема в окрестности точки . Тогда для достаточно малых существует - локальная точка минимума функции в окрестности , причем .
Помимо качественной характеристики точки минимума (устойчива она или нет) существенным является вопрос количественной оценки устойчивости. Такие оценки, позволяющие судить о близости точки к решению , если близко к записываются следующим образом:
Для сильно выпуклых функций:
,
где - константа сильной выпуклости.
Для невырожденной точки минимума:
,
где - наименьшее собственное значение матрицы .
Как видно, в каждом из этих определений играет роль характеристики «запаса устойчивости» точки минимума.
Кроме в качестве характеристики устойчивости точки минимума используют «нормированный» показатель , называемый обусловленностью точки минимума .
,
.
Можно сказать, что характеризует степень вытянутости линий уровня в окрестности - «овражность» функции (чем больше , тем более «овражный» характер функции).
Наиболее важны в идейном отношении следующие методы безусловной оптимизации: градиентный и Ньютона.
Идея градиентного метода заключается в том, чтобы достигнуть экстремума путем итерационного повторения процедуры последовательных приближений начиная с начального приближения в соответствии с формулой , где - длина шага.
Сходимость данного метода подтверждается в доказательстве следующей теоремы:
Пусть функция дифференцируема на , градиент удовлетворяет условию Липшица:
,
ограничена снизу:
и удовлетворяет условию
.
Тогда в градиентном методе с постоянным шагом градиент стремится к 0: , а функция монотонно убывает: .
Для сильно выпуклых функций доказываются более сильные утверждения о сходимости градиентного метода.
При решении задачи оптимизации методом Ньютона используется подход, заключающийся в итерационном процессе вида
и в нахождении точки экстремума как решения системы из n уравнений с n неизвестными
.
В методе Ньютона производится линеаризация уравнений в точке и решение линеаризованной системы вида
.
Анализ достоинств и недостатков итерационных методов оптимизации можно свести в таблицу (см. табл. 3).
Таблица 3
Достоинства и недостатки итерационных методов оптимизации
|
Метод
|
Достоинства
|
Недостатки
|
|
Градиентный
|
Глобальная сходимость, слабые требования к , простота вычислений
|
Медленная сходимость, необходимость выбора .
|
|
Ньютона
|
Быстрая сходимость
|
Локальная сходимость, жесткие требования к , большой объем вычислений.
|
|
|
Видно, что достоинства и недостатки этих методов взаимно дополнительны, что делает привлекательной идею создания модификаций этих методов, объединяющих достоинства методов и свободных от их недостатков.
Модификацией градиентного метода является метод наискорейшего спуска:
, .
Модификация метода Ньютона с целью придания ему свойства глобальной сходимости возможна, например, способом регулировки длины шага:
.
Такой метод называют демпфированным методом Ньютона. Возможные подходы к способу выбора шага :
Вычисление по формуле ;
Итерационный алгоритм, заключающийся в последовательном дроблении шага на константу начиная со значения до выполнения условия , или условия , .
Демпфированный метод Ньютона глобально сходится для гладких сильно выпуклых функций.
Помимо одношаговых методов, к которым относятся градиентный метод и метод Ньютона, существует целый класс многошаговых методов, использующих для оптимизации информацию, полученную с предыдущих шагов. К ним относятся:
Метод тяжелого шарика, использующий итерационную формулу , где , - некоторые параметры. Введение инерции движения (член ) в некоторых случаях приводит к ускорению сходимости за счет выравнивания движения по «овражистому» рельефу функции;
Метод сопряженных градиентов. Здесь параметры оптимизации находятся из решения двумерной задачи оптимизации:
,
.
Кроме всех вышеперечисленных методов оптимизации существует еще класс методов, основанных на идее восстановления квадратичной аппроксимации функции по значениям ее градиентов в ряде точек. К ним относятся:
Квазиньютоновские методы, имеющие общую структуру , где матрица пересчитывается рекуррентно на основе информации, полученной на k-й итерации, так что . К числу таких методов относятся ДФП (метод Давидона-Флетчера-Пауэлла) и BFGS или БФГШ (метод Бройдена-Флетчера-Гольдфарба-Шанно) [46].
Методы переменной метрики и методы сопряженных направлений, согласно которым метод , , может рассматриваться как градиентный в метрике , а оптимальным выбором метрики является .
1.7 нейронные сети
В данной работе задачи распознавания образов и восстановления зависимостей будут решаться в основном с применением нейронных сетей. Обзор данной темы основан на [1]-[6], [8]-[15], [22],[23], [32]-[34], [36]-[41], [59], [64], [67]-[70], [83]-[88].
1.7.1 Основные элементы
Нейронная сеть представляет собой структуру взаимосвязанных клеточных автоматов, состоящую из следующих основных элементов:
Нейрон - элемент, преобразующий входной сигнал по функции:
где x - входной сигнал, c - параметр, определяющий крутизну графика пороговой функции, а cm - параметр спонтанной активности нейрона.
Сумматор - элемент, осуществляющий суммирование сигналов поступающих на его вход:
Синапс - элемент, осуществляющий линейную передачу сигнала:
где w - “вес” соответствующего синапса.
1.7.2 Структура сети
Сеть состоит из нейронов, соединенных синапсами через сумматоры по следующей схеме:
1.7.3 Прямое функционирование сети
Сеть функционирует дискретно по времени (тактами). Тогда синапсы можно разделить на “синапсы связи”, которые передают сигналы в данном такте, и на “синапсы памяти”, которые передают сигнал с выхода нейрона на его вход на следующем такте функционирования. Сигналы, возникающие в процессе работы сети разделяются на прямые (используемые при выдаче результата сетью) и двойственные (использующиеся при обучении) и могут быть заданы следующими формулами:
Для i-го нейрона на такте времени T:
где mi0 - параметр инциации сети, xi1 - входные сигналы сети, поступающие на данный нейрон, fiT - выходной сигнал нейрона на такте времени T, Ai1 - входной параметр i-го нейрона на первом такте функционирования сети, AiT - входной сигнал i-го нейрона на такте времени T, aji - вес синапса от j-го нейрона к i-му, aMi - вес синапся памяти i-го нейрона, ai1 - параметр нейрона и ai2 - параметр спонтанной активности нейрона, AiT-1 - входной сигнал i-го нейрона на такте T-1, fjT-1 - выходной сигнал j-го нейрона на такте T-1 и fiT,A - производная i-го нейрона по его входному сигналу.
Для синапса связи от i-го нейрона к j-му:
где sjT - входной сигнал синапса от i-го нейрона к j-му, fiT - выходной сигнал i-го нейрона, aij - вес данного синапса, sijT - выходной сигнал синапса на такте времени T.
Для синапса памяти i-го нейрона:
1.7.4 Обучение сети
В данной задаче обучение будет происходить по “коннекционистской” модели, то есть за счет подстройки весов синапсов.
Суть обучения состоит в минимизации функции ошибки , где W- карта весов синапсов. Для решения задачи минимизации необходимо вычисление градиента функции по подстраиваемым параметрам:
1.7.5 Обратное функционирование
Расчет градиента ведется при обратном отсчете тактов времени по следующим формулам:
Для синапса связи:
Для синапса памяти:
Окончательно после прохождения q тактов времени частные производные по весам синапсов будут иметь вид для синапсов памяти и для синапсов связи соответственно:
Выводы главы 1
Применяемый в психодиагностике математический аппарат недостаточно удовлетворяет современным требованиям.
Насущной является потребность во внедрении в психодиагностические методики математического аппарата, связанного с распознаванием образов и восстановлением зависимостей.
Существующие математические методы и алгоритмы слишком сложны и трудоемки для применения их специалистами - предметниками, в том числе и психодиагностами и не позволяют компьютерным методикам непосредственно по прецедентам перенимать опыт человека-специалиста.
Использование математического аппарата нейронных сетей при создании нейросетевых экспертных психологических систем позволяет свести к минимуму требования к математической подготовке их создателей.
Глава 2. Решение нейросетями классических задач психодиагностики
2.1 Классический эксперимент
Специфические особенности математического аппарата нейронных сетей, детально описанные в [36], [41] и опыт их применения в различных областях знания (см. например [5], [8], [10], [13], [84], [86]) подсказали возможность решения при их помощи и психологических задач.
Предполагалось проверить несколько возможностей использования нейронных сетей, а именно:
- Во первых - ожидалось решение серьезной проблемы, возникающей у разработчиков и пользователей компьютерных психологических тестов, а именно адаптивности методик. Математическое построение современных объективных диагностических тестов основано на сравнении, сопоставлении выявленного состояния с нормой, эталоном [21], [71]. Однако понятно, что нормы выработанные для одной социокультурной группы вовсе не обязательно являются таковыми же для другой (в качестве примера можно привести сложности, которые приходится преодолевать при адаптации зарубежных методик). Нейросетевые же имитаторы обладают полезной в данном случае особенностью дообучаться по тому материалу, который предоставит конкретный исследователь.
- Во вторых - предполагалось использование нейросетевого имитатора как рабочего средства исследователя.
- В третьих - оценка возможности создания при помощи нейронных сетей новых, нестандартных тестовых методик. Предполагалось проверить возможность выдачи непосредственных рекомендаций по преобразованию реального состояния объекта, минуя стадию выставления диагноза (построения "измеренной индивидуальности" [26]).
Исследование было выполнено с применением нейросетевых программных имитаторов объединения "НейроКомп" [36], [41], [70], [85], [87] на психологическом материале, собранном в Красноярском гарнизонном военном госпитале.
В первую очередь предстояло выяснить, доступен ли нейросетям тот уровень диагностики, который уже достигнут при помощи стандартных психологических тестов. Для получения результатов максимальной достоверности была выбрана достаточно проверенная клинической практикой психологическая методика ЛОБИ [57] (Личностный Опросник Бехтеревского института). Кроме того, немаловажным фактором в выборе именно этого теста было и то, что методика четко алгоритмизована и имеет реализацию в виде компьютерного теста.
Итак задачей эксперимента было определить, насколько адекватно нейросетевой имитатор может воспроизвести результаты типовой психологической методики в постановке диагноза пациенту.
Рассмотрев данную задачу, а также имеющиеся в наличии нейросетевые программы было решено воспользоваться нейросетевым имитатором MultiNeuron (описание пакета см. в [85], [87]).
Пакет программ MultiNeuron представляет собой программный имитатор нейрокомпьютера, реализованный на IBM PC/AT, и, в числе прочих функций, предназначен для решения задач n-арной классификации. Данный пакет программ позволяет создавать и обучать нейросеть для того, чтобы по набору входных сигналов (например, по ответам на заданные вопросы) определить принадлежность объекта к одному из n (n<9) классов, которые далее будем нумеровать целыми числами от 1 до n. Необходимая для обучения выборка была составлена из результатов обследования по методике ЛОБИ 203 призывников и военнослужащих проходящих лечение в Красноярском гарнизонном военном госпитале и его сотрудников. При этом было получено 12 файлов задачника для MultiNeuron (по гармоническому типу выборка содержала недостаточно данных - 1 пример с наличием данного типа).
Задачники были сформированы из строк ответов, представляющих собой цепочку из 162 сигналов, каждый из которых отвечал за 1 из вопросов опросника ЛОБИ по следующему принципу: -1 - выбран негативный ответ на данный вопрос, 1 - выбран позитивный ответ, 0 - вопрос не выбран. Данная система обозначений была выбрана, исходя из желательности нормировки входных сигналов, подаваемых на вход нейронов на интервале [-1,1]. Ответ задавался классами, 1 класс - тип отсутствует, 2 класс - тип диагностируется. При этом для чистоты эксперимента по собственно типам реакции на стресс было принято решение отказаться от диагностики негативного отношения к исследованию и исключить из обучающей выборки такие примеры.
В общих чертах суть экспериментов сводилась к следующему: часть примеров исходной выборки случайным образом исключалась из процесса обучения. После этого нейронная сеть обучалась на оставшихся, а отобранные примеры составляли тестовую выборку, на которой проверялось, насколько вычисленные ответы нейронной сети соответствуют истинным.
В процессе обучения нейронных сетей с различными характеристиками автор пришел к выводу, что для данной задачи можно ограничиться числом нейронов равным 2 (то есть по 1 нейрону на каждый из классов). Наилучшие результаты при тестировании на проверочной выборке показали сети с характеристическим числом нейронов c=0.4.
Для подробной обработки была взята выборка, отвечающая за эргопатический тип ЛОБИ. Серия экспериментов по обучению сети показала, что полносвязная сеть, обучаемая на выборке из 152 примеров, не показывает результат лучше, чем 90% правильных ответов (в среднем же - около 75%). Тот же результат подтвердился при проведении сквозного тестирования, когда обучение производилось на 202 примерах, а тестировался 1. После обучения 203 сетей по такой методике был получен сходный результат - уверенно правильно было опознано 176 примера (86.7%), неуверенно правильно - 4 (1.97%), неверно - 28 (13.79%), то есть общий процент правильных ответов составил 88.67. Следует, однако, отметить, что рост числа примеров обучающей выборки до 200 позволили улучшить число правильных ответов до гарантированной величины 88.67% (см. выше). Следует предположить, что дальнейшее увеличение обучающей выборки позволит и еще улучшить данный результат. Кроме того, причина ошибок в определении эргопатического типа по ЛОБИ может скрываться в недостаточном числе примеров с наличием данного типа (отношение примеров с наличием и отсутствием типа составляет 29:174). Это подтверждается также и тем, что среди примеров с наличием типа процент неверных ответов ( 12 из 29 или 41.38%) несопоставимо выше чем в выборке в целом. Можно, таким образом, сделать вывод, что нейронные сети при использовании определенных методов улучшения результатов (см. ниже) позволяют создавать компьютерные психологические тесты, не уступающие ныне применяющимся методикам, но обладающие новым и очень важным на практике свойством - адаптивностью.
2.2 Оценка значимости вопросов теста
Представляет также интерес результат, полученный при оценке значимости входных сигналов (соответственно - вопросов ЛОБИ).
Пусть некоторый функциональный элемент нейронной сети преобразует поступающий на него вектор сигналов A по какому-либо закону , где - вектор адаптивных параметров. Пусть H - функция оценки, явно зависящая от выходных сигналов нейросети и неявно от входных сигналов и параметров нейросети. При двойственном функционировании будут вычислены частные производные для элемента v. Эти производные показывают чувствительность оценки к изменению параметра, чем больше , тем сильнее изменится H при изменении этого параметра для данного примера. Может также оказаться, что производная по какому-либо параметру очень мала по сравнению с другими, это означает, что параметр практически не меняется при обучении. Таким образом, можно выделить группу параметров, к изменениям которых нейросеть наименее чувствительна, и в процессе обучения их вовсе не изменять. Разумеется, что для определения группы наименьшей или наибольшей чувствительности необходимо использовать частные производные функции оценки по параметрам в нескольких циклах обучения и для всех примеров задачника. Во время обучения нейросети динамика снижения функции оценки меняется на разных этапах обучения. Бывает важным определить, какие входные сигналы на данном этапе обучения существенны для нейросети, а какие нет. Такая информация полезна в тех случаях, когда размерность вектора входных сигналов велика и время обучения также оставляет желать лучшего, поскольку позволяет уменьшить размерность вектора входных сигналов без ухудшения обучаемости нейросети.
Предлагается следующий алгоритм решения такой задачи: через несколько циклов после начала обучения нейронной сети включаем процедуру вычисления показателей значимости. Момент начала запуска данной процедуры желательно подбирать индивидуально в каждом конкретном случае, поскольку в первые несколько циклов обучения нейросеть как-бы "рыскает" в поисках нужного направления и показатели значимости могут меняться на диаметрально противоположные. Далее происходит несколько циклов обучения, в ходе которых накапливаются показатели чувствительности в какой-либо норме.
1)
2)
где - норма для i-го сигнала, - оценка значимости i-го сигнала в k-м примере, M - число циклов подсчета значимости. После того, как показатели подсчитаны, можно произвести уменьшение числа входных сигналов. Уменьшение следует производить исходя из того, что чем меньше значение тем менее оно влияет на процесс обучения.
2.3 Контрастирование сети по значимости вопросов теста
Таким образом, наряду с вычислением показателей значимости для оценки степени обученности нейросети, определением групп значимых сигналов появляется возможность на ранних этапах отсеивать сигналы, маловлияющие на процесс обучения и работу обученной нейросети.
Однако следует отметить, что данный алгоритм не страхует от того, что параметр, оказавшийся неважным в начале обучения, не станет доминирующим при окончательном доучивании нейронной сети.
Исходя из таких посылок, автор произвел расчет параметров значимости сигналов (вопросов) опросника ЛОБИ. При выборе сигналов с максимальной значимостью был получен список номеров вопросов, важных для определения данного типа, причем он в существенной части совпадал с ключевой выборкой для данного типа по ЛОБИ. При отсечении малозначимых входов был получен интересный результат - качество обучения сети существенно улучшилось (на 2-х таких сетях был получен результат 95.24% и 90.48%, или 20 и 19 правильных ответов из 21 тестового примера). Какой же вывод позволяет сделать данный результат?
Из самых грубых оценок необходимого объема экспериментальной выборки при создании тестовой методики следует, что если размерность "ключевой последовательности" составляет N вопросов, то для вычисления весовых коэффициентов при этих вопросах необходимая выборка должна составлять порядка N*N примеров. Как раз примерно такое соотношение (N - порядка 15, N*N - порядка 200) имело место в описанном эксперименте. Однако следует помнить, что множество вопросов теста, как правило, гораздо шире, чем необходимо для диагностики данного признака, поскольку методики в большинстве своем предназначены для определения нескольких признаков. А, следовательно, возникает следующая проблема: для определения параметров модели требуется M*M примеров, где M - общее число вопросов. Стоит, видимо, напомнить, что для методики ЛОБИ, например, M=162, тогда число примеров должно составить 26244, что практически нереально для практика - одиночки, не имеющего за спиной мощного исследовательского центра.
В случае же, когда выборка имеет недостаточный размер, возникает феномен "ложных корреляций" - модель определяет влияние на выходной результат тех параметров, которые на самом деле слабо с ним коррелируют. Именно такие "ложные корреляции" и вызывают ошибки при отнесении исследуемых к классу наличия или отсутствия диагностируемого типа.
2.4 Результаты экспериментов с контрастированными сетями
В следующей серии экспериментов был использован прием, называемый "контрастированием". В нейроимитаторе "MultiNeuron" имеется возможность отключать часть входных сигналов. Достигается это тем, что синапсу, отвечающему за отключаемый вход, присваивается фиксированное значение - 0, которое не может быть изменено в процессе обучения. Тогда этот вход не влияет на процесс обучения сети. В данном эксперименте автор исходил из того, что входы, обладающие минимальной значимостью в области подстроечных параметров, которая соответствует обученному состоянию сети, являются несущественными для диагностики типа. Следовательно, при их отключении снижается размерность пространства входов, а следовательно - и потребный размер обучающей выборки. Кардинальное улучшение результатов обучения, достигнутое после проведения контрастирования подтверждает этот факт, ведь полученный из общих представлений объем экспериментальной выборки как раз оказался достаточным для обучения контрастированной сети.
Итак, на вопрос, заданный выше, мы можем ответить: улучшение результатов обучения после анализа и настройки входов свидетельствует о том, что контрастирование является средством борьбы с ложными корреляциями, и следовательно позволяет сократить объем экспериментальной выборки для многоплановых методик.
Кроме того, побочным результатом обработки может служить набор вопросов, существенных для данного типа, что может дать предмет для размышлений психологам - теоретикам.
Выводы главы 2
Полносвязная нейронная сеть позволяет производить психодиагностику исследуемых на базе опросников классических тестов с вероятностью правильного ответа 95%.
Для создания нейросетевых экспертных систем не нужно вмешательства математика, данная технология позволяет программе непосредственно перенимать опыт психодиагноста.
Психодиагностическая методика, созданная на базе технологии нейросетевых экспертных систем адаптивна к смене социокультурных групп.
При помощи возможностей программных нейроимитаторов можно выполнять исследование параметров психодиагностических методик и уточнять их структуру.
Глава 3. Интуитивное предсказание нейросетями взаимоотношений
3.1 Проблема оценки взаимоотношений
В работе практических психологов, имеющих дело с подбором персонала или исследующих взаимоотношения внутри уже сложившихся групп (примером первого может служить психолог-консультант по подбору персонала, примером второго - офицер по работе с личным составом в частях, классный руководитель в школе) постоянно возникает задача установления и прогноза межличностных отношений в группе.
Под отношением в данной работе понимается психологический феномен, сутью которого является возникновение у человека психического образования, аккумулирующего в себе результаты познания конкретного объекта действительности (в общении это другой человек или группа людей), интеграции всех состоявшихся эмоциональных откликов на этот объект, а также поведенческих ответов на него [24]. Кроме того, общение обыкновенно происходит в условиях определенной ситуации: в присутствии других людей, которые для общающихся в разной степени субъективно значимы, на фоне какой-то конкретной деятельности, при действии каких-либо экспериментальных факторов.
3.2 Общая задача экспериментов
В данной работе была поставлена задача смоделировать и, по возможности, спрогнозировать систему взаимоотношений в группе на основе состояния и поведения исследуемых, оставляя в стороне такие аспекты формирования отношений между людьми, как внешний облик, приписываемые человеку цели и мотивы [24]. Оценке и прогнозу подвергались межличностные «статусно-ролевые» [79] отношения в группах. Оценка совместимости «человек-человек» и «группа-человек» велась по оценке статуса исследуемых - индивидуальной (от каждого к каждому) и групповой (от группы к человеку).
Задача моделирования и прогнозирования взаимоотношений людей в группе (коллективе) неоднородна - она может быть условно подразделена на следующие подзадачи:
прогноз вхождения исследуемого в сложившийся коллектив;
прогноз совместимости между собой двух исследуемых.
Кроме того, при проведении экспериментов предполагалось апробировать к задаче прогноза межличностных отношений методику интуитивной выдачи предсказания минуя создание описанной (дескриптивной) [26] реальности.
3.3 Применяемые в экспериментах психологические методики
Для определения фактических отношений в исследуемых группах применялась социометрическая методика. Данная методика позволяет определить положение исследуемого в системе межличностных отношений той группы, к которой он принадлежит. Социометрическое исследование группы обычно проводится тогда, когда группа включает в себя не менее 10 человек и существует не менее одного года. Всем членам исследуемой группы предлагается оценить каждого из товарищей (включая и самого себя - появляется возможность изучения самооценки исследуемых). В стандартном варианте методики оценка ведется по трехступенчатой шкале предпочтений - «приемлю - безразличен - отвергаю». Однако для получения большей разрешающей способности методики шкала была модифицирована до десятибалльной. В используемом варианте социометрического исследования применялось следующее задание: «Оцените своих товарищей, задав себе вопрос: «Насколько я бы хотел работать с этим человеком в одной группе?». Поставьте в соответствующей графе оценку от 1 до 10 баллов по следующему принципу: 1 - не хочу иметь с ним ничего общего, 10 - с этим человеком я бы хотел работать сильнее всего».
Результатом исследования для каждого из испытуемых в группе являлась стеновая оценка статуса и экспансивности. Стен [20] представляет собой усредненную оценку, нормированную в предположении, что оценки распределены по закону нормального распределения и, следовательно, выполняется правило «трех сигм». Статусом именуется стеновый балл всех оценок, сделанных данному члену группы, экспансивностью - стеновый балл всех оценок, сделанных данным испытуемым всем остальным представителям группы.
В процессе экспериментов предполагалось подтвердить (или отвергнуть) гипотезу о том, что нейросеть позволяет на основе психологических особенностей людей (представителей группы) моделировать взаимоотношения в группе и выдавать прогноз по вхождению в группу нового члена и по взаимоотношениям двух индивидуумов. Предполагалось также оценить качество прогноза - возможные значения ошибок и их распределение.
Описание личностных качеств испытуемых предполагалось получить на основе опросника, составленного А.Г. Копытовым (ППФ КГУ). Опросник включает в себя три субтеста, каждый из которых составлен из вопросов, предназначенных для определения константных свойств человеческой личности - темперамента, эмоциональности, контактности и т. п. Общее число вопросов - 90, в первом субтесте - 29, во втором - 25 и в третьем - 36. Текст опросников - см. Приложение 3.
Сбор данных производился путем проведения одновременного анкетирования в студенческих учебных группах по опроснику А.Г. Копытова и социометрического исследования. Затем результаты социометрии обрабатывались на специально разработанной программе (см. Приложение 2), рассчитывающей стеновые оценки статуса и экспансивности.
Эксперименты по обучению нейронных сетей производились на нейросетевом имитаторе MultiNeuron v2.0 в режиме предиктора, то есть нейросети, имеющей на выходе вещественное число (подробное описание - см. [85], [87]).
3.4 Эксперименты по предсказанию группового статуса
В этой серии экспериментов предполагалось проверить, насколько нейронные сети способны моделировать вхождение в группу отдельного человека.
По вышеописанной методике были обследованы три студенческие группы - третьего, четвертого и пятого курсов, общее число собранных анкет - 48 (19, 17 и 12 по группам соответственно). Результаты анкетирования каждой из групп был составлен задачник, представляющий собой реляционную таблицу, включающую следующие поля:
№ - автоиндексируемый номер записи, ID - номер испытуемого по списку группы, w1_1 - w1_29 - ответы на вопросы первого субтеста, w2_1 - w2_25 - ответы на вопросы второго субтеста, w3_1 - w3_36 - ответы на вопросы третьего субтеста, to1 - to30 - оценки, выставленные данным испытуемым членам группы (строка социометрической матрицы), St - значение стеновой оценки статуса данного испытуемого, Ex - экспансивности.
Для первого и третьего субтестов, у которых вопрос имел два варианта ответа («Да»/«Нет»), ответ кодировался по принципу 1 - «Да», 2 - «Нет». Второй субтест, имеющий три варианта ответов («а», «б, «в») - 1 - вариант «а», 2 - «б», 3 - «в».
При формирования структуры задачника поля w1_1 - w3_36 были обозначены как входные, поле Ex - как выходное. Нейросеть в процессе обучения должна была приобрести умение предсказывать статус члена группы по его ответам на опросник А.Г. Копытова.
Таблица 1
Результаты экспериментов по подбору оптимальных параметров нейросети, решающей задачу предсказания статуса исследуемых.
|
№№
|
Характеристики сети
|
Hвыб
|
|
|
Nneu
|
?
|
|
|
1
|
16
|
0.1
|
2,475
|
|
2
|
16
|
0,4
|
2,791
|
|
3
|
16
|
0,7
|
2,488
|
|
4
|
32
|
0,1
|
2,569
|
|
5
|
32
|
0,4
|
3,006
|
|
6
|
32
|
0,7
|
3,384
|
|
7
|
64
|
0,1
|
2,891
|
|
8
|
64
|
0,4
|
2,703
|
|
9
|
64
|
0,7
|
2,676
|
|
|
На первом этапе были проведены эксперименты для выяснения оптимальных параметров нейросети, предназначенной для решения задачи предсказания статуса члена группы. Из-за малочисленности выборок эксперименты велись в режиме «скользящего тестирования», когда для решения задачи обучается столько же сетей, сколько задач в задачнике. При обучении каждой из сетей одна задача исключалась, и потом сеть тестировалась по ней. Для оценки качества предсказания Hвыб применялся средний модуль ошибки , чем ниже значение - тем, соответственно лучше предсказание. Результаты этого этапа экспериментов сведены в таблицу 1.
Значения чисел нейронов - Nneu - были взяты из следующих соображений: нейросети с числом нейронов менее 16 обучались решению задачи неустойчиво, процесс оптимизации постоянно заходил в тупик, а Hвыб во всех таких экспериментах превышало 3 (30% относительной погрешности). 64 является максимально допустимым значением числа нейронов для программы MultiNeuron v.2.0. Значения характеристических чисел нейронов были распределены в интервале от 0.1 до 0.7, поскольку данный интервал является, по опыту, накопленному в группе «НейроКомп» [32], [33], [34], [36], [39], [41], [59], [84], [86], интервалом, в котором как правило лежат оптимальные характеристические числа нейронов.
Таким образом, по результатам данной серии экспериментов оптимальным было признано количество нейронов, равное 16, и характеристический параметр нейрона равный 0.1, поскольку данные значения обеспечивают наилучшую выборочную оценку качества прогноза Hвыб.
Следующим этапом работы была серия экспериментов, позволяющих оценить точность предсказания статуса исследуемых внутри групп. Для каждой из групп было выполнено обучение сетей для проведения скользящего контроля. Затем результаты скользящего контроля фиксировались и сводились в табл. 2.
Таблица 2
Результаты экспериментов по установлению точности предсказания стауса исследуемых внутри групп
|
№
|
Количество испытуемых
|
Hвыб
|
|
1
|
19
|
2,587
|
|
2
|
17
|
2,854
|
|
3
|
12
|
2,475
|
|
|
Однако, по опыту применения нейроимитаторов, известно, что на одних и тех же обучающих выборках предсказание выдаваемое сетью может существенно разниться.
Причина этого в том, что начальная карта синаптических весов генерируется случайным образом. Для преодоления данной проблемы в практике создания нейросетей (см. например [36]) используется предсказание ответов группой сетей, обученных на одних и тех же данных - консилиумом.
Решено было применить этот метод и для данной задачи. При проведении скользящего контроля по выборке для каждого из случаев обучалась не одна нейросеть, а десять.
Фиксировались средние выборочные значения ошибки предсказания статуса каждым из экспертов, а затем, оценивалась погрешность предсказания всем консилиумом.
Таблица 3
Оценки погрешностей предсказания статуса исследуемых в группах консилиумами сетей.
|
Nиссл
|
H1
|
p
|
H3
|
H4
|
H5
|
H6
|
H7
|
H8
|
H9
|
H10
|
Hср
|
Hвыб
|
|
19
|
3,02
|
3,68
|
3,88
|
4,13
|
3,14
|
3,38
|
4,09
|
3,46
|
2,82
|
3,32
|
3,49
|
2,83
|
|
17
|
3,32
|
4,80
|
4,33
|
4,50
|
4,46
|
3,15
|
3,72
|
4,31
|
3,20
|
4,51
|
4,03
|
3,84
|
|
12
|
2,20
|
2,68
|
3,23
|
2,59
|
3,86
|
2,96
|
2,82
|
3,28
|
3,52
|
2,58
|
2,97
|
2,41
|
|
|
Для этого в качестве ответа на каждую из задач скользящего контроля подавалось среднее значение ответов десяти нейросетей - экспертов. Результаты этого эксперимента представлены в табл. 3.
Здесь Nиссл - число исследуемых в данной группе, H1 - H10 - средние ошибки предсказания статуса для каждой из сетей консилиума, Hср - среднее значение ошибки по всем сетям консилиума, Hвыб - ошибка предсказания всем консилиумом.
Таким образом по трем группам средний модуль ошибки составляет 3,08 (или, в относительных цифрах, средняя погрешность составляет 30,8%).
Такая погрешность является удовлетворительной для задачи предсказания статуса членов группы, поскольку как правило не выводит испытуемого из групп классификации - «лидер»-«середняк»-«аутсайдер», то есть отражает тенденцию вхождения в группу нового человека.
Кроме того, при статистическом исследовании экспериментальных выборок было вычислено среднее расстояние между случайными оценками и
,
где N - количество элементов выборки.
Можно считать, что характеризует математическое ожидание расстояния между двумя случайными примерами выборки.
Для экспериментов установления статуса тестируемых в группе , или 40.33%. Таким образом можно утверждать, что полученная сетью погрешность (30,8%) значимо отличается от случайной.
Следующая серия экспериментов производилась с целью уяснения, насколько можно предсказывать результаты вхождения в одну группу на базе опыта, накопленного сетью по другой группе.
В ходе экспериментов для каждой из групп был обучен консилиум из десяти нейросетей (их характеристики, как и в предыдущих экспериментах, Nneu=16, ?=0,1). Здесь задачник подавался для обучения полностью, то есть сеть обучалась предсказанию статуса по всем представителям группы. Затем на сетях этого консилиума тестировались две другие группы.
Для сглаживания фактора случайности при генерации сетей в качестве вычисленных значений при расчете ошибки определения статуса брались по каждой оценке средние значения из вычисленных десятью сетями консилиума. Результаты этой серии экспериментов представлены в табл. 4.
Таблица 4
Результаты перекрестного тестирования
|
Об.
|
Тст.
|
H1
|
p
|
H3
|
H4
|
H5
|
H6
|
H7
|
H8
|
H9
|
H10
|
Hср
|
Hвыб
|
|
1
|
2
|
1,87
|
3,96
|
2,85
|
3,65
|
4,62
|
1,82
|
2,82
|
1,97
|
1,77
|
4,32
|
2,97
|
2,48
|
|
1
|
3
|
2,26
|
3,98
|
3,58
|
3,61
|
2,36
|
2,46
|
3,64
|
2,16
|
2,55
|
3,11
|
2,97
|
1,79
|
|
2
|
1
|
4,31
|
4,03
|
3,92
|
3,48
|
4,17
|
3,66
|
3,83
|
4,33
|
4,03
|
3,78
|
3,95
|
3,5
|
|
2
|
3
|
3,82
|
1,81
|
2,91
|
3,43
|
2,75
|
3,13
|
3,08
|
2,53
|
2,57
|
3,06
|
2,91
|
2,05
|
|
3
|
1
|
3,4
|
4,09
|
3,21
|
2,91
|
2,76
|
3,65
|
3,03
|
2,56
|
2,89
|
3,51
|
3,20
|
2,79
|
|
3
|
2
|
3,60
|
3,28
|
3,72
|
2,94
|
4,24
|
4,30
|
3,91
|
4,35
|
3,60
|
4,13
|
3,81
|
3,77
|
|
|
Здесь Об. - порядковый номер группы, по которой обучались нейронные сети консилиума, Тст. - порядковый номер группы, по которой сети тестировались.
При анализе данной серии экспериментов заметны следующие закономерности:
предсказание социального статуса испытуемых нейронными сетями, обученными по другим группам (не по тем, в которой производилось определение статуса при социометрическом опросе) по своему качеству несколько хуже, чем такое же предсказание, сделанное нейросетями, обученными на этой же группе;
однако, в большинстве случаев (в двух третях из проведенных экспериментов) оценка качества (средний модуль ошибки Hвыб) является приемлемой (менее 3 баллов или, в относительных значениях - менее 30%);
хорошо видно, как при предсказании статуса испытуемых в группах реализуется принцип создания надежных систем из ненадежных элементов, заложенный в концепцию нейронных сетей: ошибка предсказания одной нейросетью может составлять неприемлемо большую величину, однако консилиум из нескольких нейросетей решает задачу существенно лучше - ошибка предсказания консилиумом сетей меньше большинства из ошибок отдельных сетей, она также всегда меньше чем среднее значение ошибок отдельных сетей консилиума.
После оценки качества предсказания между группами решено было проверить гипотезу о том, что нейросеть может накапливать опыт не только по отдельной группе, но и аккумулировать его по любой заданной последовательности испытуемых. Для проверки гипотезы была предпринята следующая серия экспериментов: данные по всем группам были объединены в один задачник, по которому проводилось скользящее тестирование консилиума из десяти сетей - экспертов. Результаты данной серии из 480 экспериментов представлены в табл. 5.
Таб ...........
Страницы: 1 | [2] | 3 | 4 |
|