3275 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ЭКОНОМИЧЕСКИХ ПРОЦЕССОВ

Лабораторная работа № 8

ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Цель работы. Дискриминантный анализ служит для разбиения множества объектов на классы с заранее заданными свойствами, причем свойства каждого класса определяются путем анализа множества образцов объектов этого класса. Сами объекты задаются в виде многомерной статистической выборки X раз­мером m×n, где m - число признаков, n - число объектов. В лабораторной работе рассматривается простейший случай дискриминантного анализа, когда имеется всего два класса объектов.

Объекты, отнесенные к классу 2 считаются нормальными в том смысле, что по отношению к ним не требуется применения каких-либо специ­альных мер. В класс 1 входят объекты, отличающиеся от нормальных, т.е. являющиеся дефектными и требующие принятия специальных мер для нейтра­лизации отрицательных качеств этих объектов. Примером, используемым в лабораторной работе, служит разбиение предприятий на платежеспособные и неплатежеспособные по четырем признакам: уровень самофинансирования, коэффициент текущей ликвидности, оборачиваемость активов, рентабель­ность продаж. Задачей дискриминантного анализа является выделение неплатежеспособных из общей массы предприятий.

Краткие теоретические сведения

Обозначим через Θ множество, вкючающее в себя множества θj, j=1,2 образцов объектов 1-го и 2-го классов. Предполагаем, что соответствующие статистические выборки Xj, j=1,2 подчиняются многомер­ному нормальному распределению с параметрами: Mj - вектор математичес­ких ожиданий и Q j - ковариационная матрица, т.е.

W(x|θj) = N(Mj,Q j),  j=1,2.

Задача дискриминантного анализа рассматривается как задача на проверку гипотезы. Поскольку целью является выявление объектов, относя­щихся к классу  θ1, то проверяется гипотеза H1 - “цель есть” против аль­тернативной гипотезы H2 – “цели нет”. При этом могут получится как правильные решения :

H11,   H22,

так и ошибочные:

H21 - ошибка первого рода или “пропуск цели” (отнесение дефект­ного объекта к классу нормальных),

H12 - ошибка второго рода или “ложная тревога” (отнесение нор­мального объекта к классу дефектных). Конечно же эти ошибки являются нежелательными. Но раз они имеют место, нужно по крайней мере знать, сколь часто они могут происходить, т.е. нужно знать вероятности этих ошибок:

α = p(H21) - вероятность ошибки первого рода,

β = p(H12) - вероятность ошибки второго рода.

Для формулировки правила принятия решения в многомерном прост­ранстве признаков вводится линейная скалярная функция

h(x) = vTx + v0,

где x = (x1,...,xm)T - вектор признаков объекта, vT = (v1,...,vm) - вектор коэффициентов, v0 - скаляр.

Решающее правило, относящее расс­матриваемый объект к 1-му или 2-му классу, имеет вид

H=H1, если h(x)<0,    H=H2, если h(x)>0.             ( a )

Поверхностью, разделяющей классы, будет гиперплоскость h(x)=0. Поскольку вектор признаков x является случайным с нормальным законом распределения,  то и h(x)  будет случайной скалярной величиной  с нормальным законом распределения

p(h(x) |qj) = N( aj, σj 2),   j=1,2,

математическое ожидание aj и дисперсия σj2 которого связаны с величи­нами v и v0  соотношениями

aj = E[h(x)|qj] = vTMj + v0,                                         ( 1 )

σj 2 = E[(h(x)-aj)|qj] = vTQjv.                                       ( 2 )

При любом выборе параметров v и v0 решающее правило (a) может дать  как правильные, так и неправильные решения. Вероятности ошибок первого и второго рода будут равны

 

 

что более компактно может быть записано в виде

α = 1 - Ф (t1),     β = Ф (t2),                             ( 3 )

где

tj = -ajj ,  j=1,2;   Ф (x) - интеграл вероятностей.

Параметры разделяющей гиперплоскости v и v0 следует подобрать так,  чтобы минимизировать ошибки как первого, так и второго рода. Но решить задачу оптимизации, удовлетворяющую одновременно двум критери­ям, невозможно. Поэтому для нахождения оптимального решения используем критерий Неймана-Пирсона, в соответствии с которым задаемся приемлемым значением ошибки первого рода α и решаем задачу минимизации ошибки второго рода β:

Ф (t2) = min,    1 - Ф (t1) = α.

Сформулированная задача является задачей на условный экстремум. Решая ее по методу неопределенных множителей Лагранжа, находим выраже­ния для подсчета значений v и v0. Поскольку невозможно заранее опреде­лить, при каком значении α получается приемлемый результат, вводится вспомогательный параметр s, 0<s<1 и решение оптимизационной задачи производится при нескольких значениях s, из которых и выбирается при­емлемый результат. Выражения для v и v0 получаются следующими:

v=[sQ1+(1-s)Q2]-1(M2-M1),                            ( 4 )

v0=-[sσ12vTM2+(1-s) σ22vTM1]/[sσ12+(1-s) σ22].              ( 5 )

В лабораторной работе реализуются четыре этапа вычислительной процедуры.

1. Задаемся рядом значений s в интервале [0,1].

2. Для каждого s по формуле (4) вычисляем v(s),  а затем последо­вательно по формулам (2), (5), (1), (3)  величины σj 2(s), v0(s),  aj(s), α (s), β (s). Таким образом для каждого значения s находятся параметры разделительной гиперплоскости v(s), v0(s) и вероятности ошибок первого и второго рода α (s), β (s).

3. Поскольку определение вероятностей ошибок по выборкам образцов конечного объема может дать лишь оценки этих вероятностей, то оконча­тельный выбор значения s осуществляется по объединенной выборке об­разцов объектов   1-го и 2-го классов путем построения при разных s раз­делительной гиперплоскости и подсчета числа ошибок первого и второго рода. Оптимальным считаем вариант с минимальным числом ошибок.

4. Теперь имеется возможность путем построения разделительной ги­перплоскости отнести любой новый объект к 1-му или 2-му классу. Если имеется несколько объектов, то полученная разделительная гиперплоскость разобьет их на объекты 1-го и 2-го классов.

Порядок выполнения работы

Получите у преподавателя номер выполняемого варианта и приступите к выполнению работы, руководствуясь приводимой ниже таблицей с переч­нем программ и номерами используемых файлов.

1. Для указанного варианта задания по программе Md_Msa2 получите матрицы наблюдения X1 и X2 для образцов объектов первого и второго класса с числом объектов порядка 50 - 60, а также матрицу наблюдений X3, объединяющую образцы обоих классов. Занесите эти матрицы в указан­ные в таблице файлы  (файлы id с буквенным и цифровым обозначением).

2. По программе Krl_Rg1 каждой из полученных выборок припишите номер класса образцов объектов, а для выборок 1-го и 2-го классов оп­ределите и занесите в файлы kmp их векторы математических ожиданий Mi и ковариационные матрицы  Qi.

3. По программе Dscr_a по полученным векторам Mi и матрицам Qi, i=1,2 для значений s=1,..,Ms, где Ms следует взять порядка 18 - 20, получите параметры разделительной гиперплоскости v(s) и v0(s) и оцен­ки вероятностей ошибок α (s),   β (s).

4. Окончательный выбор значения s осуществите по программе Kmp_Da1 для объединенной выборки образцов id-3 путем построения разде­лительной гиперплоскости при различных s и подсчета числа ошибочно классифицированных образцов. Найдите значение s, дающее минимальное суммарное число ошибок первого и второго рода, а также значения s, при которых обращается в нуль число ошибок первого или второго рода, т.е. определяющих зону риска. На основании полученных данных окончательно определите приемлемое значение s.

5. По программе Md_Msa2 сформируйте выборку небольшого числа  (12-15) объектов, подлежащих классификации и запишите ее в файл id-4. По программе Krl_Rg1 присвойте всем объектам этой выборки класс 1 и  перейдите к программе Kmp_Da1.  При найденном значении s построите разделительную гиперпоскость и найдите ошибочно  классифицированные  объекты.

Все их отнесите к классу 2 и заново перепишите выборку под тем же именем. Теперь объектам выборки присвоены номера классов. Для того чтобы просмотреть номера классов отдельных объектов, нужно заново ввести выборку в программу Kmp_Da1.

Перечень программ и наименование файлов для хранения результатов вычислений в задаче дискриминантного анализа

Наименование

программ

Ввод в

программу

Вывод

из программы

Файлы

для хранения данных

Md_Msa2

Модель № 1

Дискримин.

анализ

Образцы

кл.1

кл.2

кл.1 + кл.2

 

id-1

id-2

id-3

Krl_Rg1

Id-1

Id-2

Id-3

Выборка,

ковариационная

матрица.

кл.1,    id-1,     kmp-1

кл.2,    id-2,     kmp-2

kl.3,     id-3

Dscr_a

Kmp-1

Kmp-2

Ns = 18

Gpr-1

Kmp_Da1

Id-3

Gpr-1

Опробование

различных s

Фиксация

ошибок

Md_Msa2

Модель № 1

Дискримин.

анализ

Объекты,

подлежащие

идентификации

 

id-4

 

Krl_Rg1

id-4

Выборка

Кл.1,    id-4

Kmp_Da1

id-4

gpr-1

Разбиение

выборки

на классы

 

id-4

 

Kmp_da1

id-4

gpr-1

Просмотр

выборки

Номера объектов

1-го и 2-го кл.

Примечание. Номера используемых файлов носят лишь рекомендательный характер. Фактически используемые номера файлов согласуйте с преподавателем.

Содержание отчета

Отчет должен содержать распечатки полученных при выполнении работы матриц с пояснениями по методике их получения, а также выводы и заключения по каждому пункту программы.

Библиографический список

1. Андерсон Т.  Введение в многомерный статистический анализ. М.: Физматгиз, 1963.

  1. Коршунов Ю.М. Лекции по курсу “Математическое моделирование экономических процессов”
  2. Коршунов Ю.М. Альбом таблиц для расчетов по математической статистике.