2
Київський національний університет
імені Тараса Шевченка
Клюшин Дмитро Анатолійович
УДК 519.234.3+519.234.7
НЕПАРАМЕТРИЧНІ МЕТОДИ РОЗПІЗНАВАННЯ
З ГАРАНТОВАНИМ РІВНЕМ ЗНАЧУЩОСТІ
01.05.01 - теоретичні основи інформатики та кібернетики
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
доктора фізико-математичних наук
Київ - 2008
Дисертацією є рукопис.
Робота виконана на кафедрі
обчислювальної математики
Київського національного університету імені Тараса Шевченка
Науковий консультант
Член-кореспондент НАН України,
доктор фізико-математичних наук,
професор ЛЯШКО Сергій Іванович,
Київський національний університет імені Тараса Шевченка, завідувач кафедри
Офіційні опоненти
Доктор фізико-математичних наук, професор Кнопов Павло Соломонович, Інститут кібернетики ім.В.М. Глушкова НАН України, завідувач відділу
Доктор фізико-математичних наук Гасаненко Віталій Олексійович, Інститут математики НАН України, провідний науковий співробітник
Доктор фізико-математичних наук, професор
Бєлов Юрій Анатолійович, Київський національний
університет імені Тараса Шевченка, завідувач кафедри
Захист відбудеться “__27_” _11__________ 2008 р. о 14
годині на засіданні спеціалізованої вченої ради Д 26.001.09
Київського національного університету імені Тараса Шевченка,
Київ, 03680, пр. акад. Глушкова, 2, корп.6, факультет кібернетики, ауд.40
З дисертацією можна ознайомитися у Науковій бібліотеці
Київського національного університету імена Тараса Шевченка,
Київ, вул. Володимирська, 58
Автореферат розісланий “__23_” ____10_______ 2008 року
Учений секретар спеціалізованої вченої ради В.П. Шевченко
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Математичне дослідження популяцій обєктів неможливе без зясування чи носять дані випадковий характер, наскільки коректним є застосування обраного методу статистичного аналізу, чи є досліджувана популяція неоднорідною і наскільки вірогідними є отримані результати.
Виявленню випадкового характеру досліджуваних даних присвячені роботи багатьох математиків (R. von Mises, A. Wald, A. Church, P. Martin-Lf, G. Chaitin, А.М. Колмогоров, В.І. Арнольд та інших). У працях цих математиків були досліджені різні аспекти випадковості, проте у прикладних дослідженнях розроблені математичні моделі випадкових подій наштовхуються на серйозні перешкоди, звязані з їх абстрактним характером.
Не менш актуальною є задача перевірки непараметричних статистичних гіпотез, до якої зводиться, наприклад, класифікація на основі навчаючих вибірок. Критерії для перевірки гіпотез такого типу були запропоновані в роботах W. Dixon, H. Mathisen, A. Wald, J. Wolfowitz, S. Wilks, F. Wilcoxon, H. Mann, D. Whitney, М.В. Смірнова й інших авторів. Незважаючи на величезний обсяг теоретичних досліджень, проведених у цій області, існує багато проблем, звязаних з вірогідністю висновків, зроблених на основі запропонованих критеріїв.
Методи побудови довірчих інтервалів для невідомої імовірності описані в роботах E. Wilson, S. Vollset, C. Blyth, H. Still, S. Beal, R. Mee, O. Miettinen, N. Nurminen, S. Wallenstein та інших. Втім, при деяких сполученнях ймовірності й обєму вибірки довірчий рівень цих інтервалів зменшується нижче необхідного. Точні довірчі інтервали при малих обсягах вибірки розглянуті в роботах С. Clopper, J. Pearson, T. Stern, E. Crow, S. Clunies-Ross, C. Blyth, H. Still, G. Cassella, S. Yoo, H. David, L. Brown, T. Cai, A. DasGupta та інших дослідників. Проте вони засновані на припущенні про незалежність двох біноміальних часток, що на практиці часто не виконується, а деякі з них мають недостатньо високу імовірність покриття.
Багато задач вимагають аналізу однорідності досліджуваної генеральної сукупності. Дослідження цієї властивості щільно звязано з поняттям одномодальності функції розподілу випадкової величини за О.Я. Хінчиним. Цій темі були присвячені роботи D. Cox, J. Hartigan, D. Muller, G. Sawitzki, B. Silwerman та інших. Застосуванню цих критеріїв заважає складність звязаних з ними алгоритмів.
Оцінка неоднорідності генеральної сукупності за допомогою лінійних сплайнів зводиться до розвязання серії операторних рівнянь Фредгольма першого роду. Як правило, такі рівняння не мають класичних розвязків. Теорія узагальнених розвязків лінійних операторних рівнянь викладена в багатьох роботах (С.Г. Крейн, С.І. Ляшко, Ю.І. Петунін та інших). Оскільки моделі, що виникають при дослідженні неоднорідності генеральних сукупностей можуть бути як лінійними, так і нелінійними, необхідно розробити більш широку теорію узагальнених рішень, що поширювалася б як на лінійні, так і нелінійні операторні рівняння.
Отже, розробка математичної теорії випадкових подій, яка б мала практичне застосування, побудова точних довірчих інтервалів, у яких рівень значущості завжди перевищує номінальний, і розробка надійних методів оцінки неоднорідності генеральних сукупностей досі є актуальними задачами.
Звязок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась у відповідності до плану наукових досліджень кафедри обчислювальної математики факультету кібернетики Київського національного університету імені Тараса Шевченка в межах таких науково-дослідних тем: “Розробка компютерних методів розпізнавання образів, що використовуються в онкології”, НДР № 379 (ДР № 0193U040548), "Розробка і застосування математичних методів в медико-біологічних дослідженнях", НДР № 02БП015-01 (ДР № 0112U005258); "Моделювання та оптимізація інформаційних систем", НДР №01БФ015-06 (ДР № 0101U002178).
Мета і задачі дослідження. Метою дисертаційної роботи є створення непараметричних методів розпізнавання з гарантованим рівнем значущості. Дисертація передбачала розвязання таких задач.
Розробка і дослідження структурної моделі випадкового експерименту.
Розробка непараметричних критеріїв еквівалентності генеральних сукупностей за допомогою мір близькості між вибірками.
Побудова непараметричних методів довірчого оцінювання основної маси генеральної сукупності за залежними спостереженнями.
Розробка статистичних критеріїв для порівняння двох ймовірностей в класичній і узагальнених схемах Бернуллі.
Розробка методів стратифікаційного аналізу генеральних сукупностей, а також розвиток теорії узагальнених розвязків нелінійних операторних рівнянь в метричних просторах.
Застосування розроблених методів в медико-біологічних дослідженнях, зокрема, для диференціальної діагностики, для визначення степеня значущості показників і для аналізу субпопуляцій.
Обєкт дослідження - теорія випадкових послідовностей, непараметричні критерії еквівалентності генеральних сукупностей, статистичні критерії для порівняння двох ймовірностей, предмет дослідження - структурна теорія випадкових експериментів, міри близькості між вибірками, точні довірчі інтервали для невідомої ймовірності, емпірична функція розподілу.
Методи дослідження. В дисертації використані теорія решіток, теорія напівупорядкованих просторів, методи варіаційної статистики, а також теорія узагальнених розвязків операторних рівнянь в метричних просторах, розроблена в роботах С.І. Ляшка та Ю.І. Петуніна.
Наукова новизна одержаних результатів. Всі основні результати дисертаційної роботи є новими.
Вперше побудовано структурну модель випадкового експерименту і запропоновано критерії випадковості подій.
Запропоновано нові непараметричні критерії еквівалентності генеральних сукупностей на основі мір близькості між вибірками.
Побудовано новий довірчий інтервал для основної маси генеральної сукупності за залежними спостереженнями.
Розроблено новий статистичний критерій для порівняння двох ймовірностей в класичній і узагальнених схемах Бернуллі.
Запропоновано нові методи стратифікаційного аналізу генеральних сукупностей.
Розвинуто нову концепцію узагальнених розвязків нелінійних операторних рівнянь в метричних просторах.
Практичне значення одержаних результатів. Результати роботи застосовуються в наукових дослідженнях, присвячених диференціальній діагностиці онкологічних захворювань, а також аналізу радіо - та хіміорезистентних ракових клітин, що проводяться в Інституті експериментальної патології, онкології та радіобіології ім.Р. Є. Кавецького НАН України. Теоретичні висновки лягли в основу спеціальних курсів з довірчого оцінювання параметрів та розпізнавання образів, які читаються на факультеті кібернетики Київського національного університету імені Тараса Шевченка.
Апробація результатів дисертації. Основні положення та результати наукових досліджень, що увійшли до дисертації, доповідалися на таких наукових конференціях, симпозіумах та семінарах: міжнародна конференція “Functional Analysis, Operator Theory, Stochastic Analysis and Statistics” (2001, Kyiv), міжнародна конференція “Моделювання та оптимізація складних систем” (2001, Київ), десята міжнародна наукова конференція імені академіка М. Кравчука (2004, Київ,), 27th International Conference on Information Technology Interfaces, ITI (2005, Cavtat, Chroatia), International Conference of Mathematics and Engineering techniques in Medicine and Biological Sciences (Las Vegas, 2001-2005), Conference on Bioinformatics & Computational Biology (2006, Las Vegas), International Conference on Scientific Computing (2007, Las Vegas).
Матеріали дисертаційного дослідження доповідалися та обговорювалися на науковому семінарі Київського національного університету імені Тараса Шевченка “Оптимальне керування лінійними розподіленими системами” (керівник проф. С.І. Ляшко), на науковому семінарі Міжнародного науково-навчального центру інформаційних технологій і систем НАН України і МОН України (керівник - канд. техн. наук В.І. Гриценко), на науковому семінарі відділу математичних методів дослідження операцій Інституту кібернетики ім.В.М. Глушкова НАН України (керівник - проф.П.С. Кнопов) і на науковому семінарі відділу теорії випадкових процесів Інституту математики НАН України (керівник - проф.А. А. Дороговцев).
Публікації. Основні результати дисертаційної роботи викладено у трьох монографіях [1-3], 32 статтях [4-35], із них 24 - у наукових провідних фахових виданнях України, що входять до переліку ВАК по фізико-математичних науках, та 8 - у виданнях інших країн. Результати роботи захищені трьома патентами на винахід [36-38] і опубліковані в збірках тез 8 наукових конференцій [39-46].
Структура та обсяг роботи. Дисертаційна робота складається із вступу, семи розділів, висновків та списку використаних джерел, що містить 324 посилання. Кожний розділ розбито на підрозділи, які, у свою чергу, поділяються на пункти. Кожний розділ має власну нумерацію формул, теорем, лем, зауважень тощо. Загальний обсяг дисертації становить 278 стор., основний текст роботи викладено на 249 стор.
ОСНОВНИЙ ЗМІСТ
У вступі обґрунтовано актуальність роботи, сформульовано основні задачі та обєкти дослідження, а також відзначено наукову новизну результатів. Перший розділ містить огляд літератури за темою дисертації та обґрунтування вибору напрямків досліджень.
У другому розділі розроблена структурна модель випадкового експерименту і введено її основні поняття.
Третій розділ присвячений доведенню гіпотези Хілла та побудові і дослідженню непараметричного критерію еквівалентності генеральних сукупностей на основі мір близькості між вибірками, які ґрунтуються на гіпотезі Хілла.
Четвертий розділ присвячений побудові довірчих інтервалів із гарантованим рівнем значущості в класичній і узагальненій моделях Бернуллі, а також відповідних статистичних критеріїв для перевірки гіпотези про еквівалентність функцій розподілу.
У пятому розділі викладено суть стратифікаційного аналізу генеральних сукупностей, задача якого полягає у визначенні кількості мод функції розподілу та їх параметрів на підставі кусково-лінійної емпіричної функції розподілу.
У шостому розділі викладено нову концепцію узагальненого розвязку операторних рівнянь у метричних просторах.
В сьомому розділі описано застосування непараметричних методів розпізнавання з гарантованим рівнем значущості, запропонованих у дисертації: 1) нового компютерного методу раннього розпізнавання раку молочної залози, 2) методу ретроспективного регресійного аналізу ступеня прогностичної значущості клінічних, цитогенетичних і морфологічних показників у хворих із злоякісною меланомою, 3) методу сплайнової регресії для виявлення залежності імовірності виникнення злоякісних новотворів від поглиненої дози опромінення, отриманої учасниками ліквідації наслідків аварії на ЧАЕС; 4) методу стратифікаційного аналізу популяцій радіо - та хіміорезистентних пухлин.
ВИСНОВКИ
У дисертації розроблені, теоретично обґрунтовані і застосовані на практиці нові непараметричні методи розпізнавання з гарантованим рівнем значущості, які у сукупності розвязують важливу наукову проблему компютерної ранньої діагностики онкологічних захворювань та статистичного аналізу популяцій радіо - та хіміорезистентних ракових клітин. Це включає в себе такі результати.
Запропоновано структурну модель випадкового експерименту на основі інтерпретації поля випадкових подій як напівупорядкованої множини з природним відношенням упорядкованості між випадковими подіями. Зокрема,
показано, що поле подій являє собою атомарно породжену повну цілком дистрибутивну булеву алгебру;
вивчено розподіл ймовірностей поля подій, породжений випадковими величинами;
установлено, що у випадку неперервних випадкових величин (як раціональних, так і дійсних) породжуваний ними розподіл ймовірностей не є злічено-адитивною функцію подій.
Доведено гіпотезу Хілла для симетрично залежних випадкових величин із абсолютно неперервною функцією розподілу. Проведено теоретичне обґрунтування алгоритму побудови довірчих еліпсів на основі гіпотези Хілла та запропоновано його модифікацію.
Розроблено непараметричні критерії еквівалентності генеральних сукупностей на основі мір близькості між гіпотетичними і емпіричними вибірками із неперервної або дискретної генеральної сукупності, що складаються із симетрично залежних вибіркових величин. Доведено їх перевагу над статистиками Колмогорова-Смірнова і Вілкоксона. Зокрема, показано, що для p-статистики можна побудувати наближені довірчі межі, що відповідають заданому рівню значущості у випадку, коли нульова гіпотеза H не є вірною;
доведено, що p-статистика є більш ефективною при перевірці гіпотези про еквівалентність генеральних сукупностей з однаковими чи близькими математичними сподіваннями;
продемонстровано, що p-статистика має високий поріг чутливості у всіх проаналізованих прикладах вибірок з різних генеральних сукупностей;
показано, що атомарна міра близькості є найбільш стійкою до коливань обємів вибірок, забезпечуючи при цьому високий рівень розпізнавання.
Розроблено нові статистичні критерії для порівняння двох ймовірностей в класичній і узагальненій схемах Бернуллі. Зокрема,
досліджено правило 3 для залежних спостережень;
розроблено метод обчислення довірчих меж для невідомої ймовірності в MП-моделі;
розроблено метод обчислення точних довірчих меж для невідомої ймовірності в узагальненій моделі Бернуллі.
Розроблено нові методи стратифікаційного аналізу генеральних сукупностей. Зокрема,
доведено аналог теореми Глівенка-Кантеллі для обернених модифікованих функцій розподілу і на її підставі запропоновано новий критерій одномодальності функції розподілу;
запропоновано новий метод розпізнавання складених або змішаних вибірок;
доведено практичну доцільність та обґрунтованість розробленого методу.
Уведено і досліджено нові поняття узагальненого розвязку, майже розвязку, псевдорозвязку та істотно узагальненого розвязку нелінійного операторного рівняння в метричному просторі. Зокрема,
доведено теореми про існування, єдиність і коректність узагальненого розвязку;
проведено топологічну класифікацію узагальнених розвязків, вивчено властивості розширення операторів та вкладення просторів;
описано застосування нової теорії для розвязання практичних задач.
Здійснено практичне застосування математичних методів, запропонованих в дисертації, в медико-біологічних дослідженнях. Зокрема,
розроблено математичні основи процесу розпізнавання і діагностики раку молочної залози на підставі даних сканограм ДНК інтерфазних ядер клітин слизової оболонки порожнини рота;
проведено ретроспективний регресійний аналіз ступеня прогностичної значущості клінічних, цитогенетичних і морфологічних показників у хворих на злоякісну меланому;
за допомогою сплайнової регресії проаналізовано залежність імовірності виникнення злоякісних новотворів від поглиненої дози опромінення, отриманої учасниками ліквідації наслідків аварії на ЧАЕС;
за допомогою розроблених методів стратифікаційного аналізу виявлено субпопуляції радіорезистентних клітин в генераціях клітин карциноми Герена в пацюків, а також субпопуляції хіміорезистентних клітин в популяціях пухлинних клітин плоскоклітинного раку ротової порожнини людини і карциноми Герена в пацюків, що піддавалися впливу цисплатина.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
Ляшко С.И., Клюшин Д.А., Тригуб А.С. Моделирование и оптимизация подземного массопереноса. - К.: Наукова думка, 1998.
Andrushkiw R.I., Boroday N. V., Klyushin D. A., Petunin Yu.I. Computer-aided cytogenetic method of cancer diagnosis. - New Jork: Nova Publishers, 2007.
Клюшин Д.А., Петунин Ю.И. Доказательная медицина. Применение статистических методов. - М.: Изд. дом “Вильямс”, 2007.
Ляшко С.И., Клюшин Д.А., Палиенко Л.И. Моделирование и обобщенная оптимизация в псевдогиперболических системах // Проблемы управления и информатики. - 1997. - № 5. - С.78-87.
Ляшко И.И., Ляшко С.И., Клюшин Д.А., Спивак Ю.В. Чисельний розв`язок псевдогіперболічних рівнянь // Доповіді НАН України. - 1998. - № 5. - С.29-33.
Клюшин Д.А. Оптимизация монотонных нелинейных систем с обобщенным воздействием // Журнал обчислювальної та прикладної математики - 1998. - № 1 (83). - С.36-40.
Клюшин Д.А., Петунин Ю.И., Налескина Л.А., Коровин С.И. Ретроспективное определение важности фактора в схеме линейной регрессии и вычисление доверительных границ показателя выживаемости больных злокачественной меланомой кожи // Доповіді НАН України. - 1998, № 7. - С.26-31.
Клюшин Д.А. Оптимизация эволюционных нелинейных систем с обобщенным воздействием // Волинський математичний вісник. - 1999. - Вип.6. - С.85-88.
Клюшин Д.А., Кущан А.А., Ляшко С.И. Номировский Д.А., Петунин Ю.И. Обобщенное решение некоторых операторных уравнений в банаховых пространствах // Журнал обчислювальної та прикладної математики. - 2001. - № 1 (86). - С.29-50.
Клюшин Д.А., Петунин Ю.И. Концепция обобщенного решения нелинейных операторных уравнений в метрических пространствах // Журнал обчислювальної та прикладної математики. - 2002. - № 1(87). - С.11-23.
Петунін Ю.І., Клюшин Д.А., Ганіна К.П., Бородай Н.В., Андрушків Р.І. Компютерна діагностика раку молочної залози // Вісник Київскього університету. Сер. кібернетика. - 2001. - вип.2. - С.58-68.
Клюшин Д.А., Кущан А.А., Ляшко С.И. Номировский Д.А., Петунин Ю.И. Узагальнений розв`язок деяких операторних рівнянь у банахових просторах // Вісник Київського університету. Сер. кібернетика. - 2002. - № 3. - С.47-49.
Петунин Ю.І., Клюшин Д.А. Структурний підхід до розв`язання шостої проблеми Гільберта. I // Журнал обчислювальної та прикладної математики. - 2003. - № 89(2). - С.80-90.
Клюшин Д.А., Петунин Ю.И. Непараметрический критерий эквивалентности генеральных совокупностей, основанный на мере близости между выборками // Український математичний журнал. - 2003. - т.55, № 2. - С.147-163.
Петунин Ю.І., Клюшин Д.А. Структурний підхід до розв`язання шостої проблеми Гільберта. ІI // Журнал обчислювальної та прикладної математики. - 2004. - № 90(1). - С.83-88.
Петунін Ю.І., Клюшин Д.А. Структурний підхід до розв`язання шостої проблеми Гільберта // Теорія ймовірностей і математична статистика - 2004. - Вип.71. - С.145-159.
Клюшин Д.А., Петунін Ю.І. Точні довірчі межі для невідомої ймовірності в класичній та узагальненій моделях Бернуллі // Вісник Київського університету. Сер. фіз-мат науки. - 2005. - № 2. - С.241-247.
Петунин Ю.И., Клюшин Д.А., Кулик Г.И., Юрченко О.В., Тодор И.Н., Чехун В.Ф. Стратификационный анализ морфологических показателей популяций раковых клеток с фенотипом лекарственной резистентности // Кибернетика и системный анализ. - 2005, № 6. - с.158-167.
Клюшин Д.А. Міра близькості між вибірками, що містять атоми // Вісник Київського університету. Сер. фіз-мат науки. - 2005. - № 3. - С.292-297.
Клюшин Д.А., Петунін Ю.І. Статистичний критерій для порівняння двох ймовірностей // Вісник Київського університету. Сер. кібернетика. - 2005. - № 6, С.35-40.
Клюшин Д.А. Міра близькості між вибірками із дискретних генеральних сукупностей // Вісник Київського університету. Сер. фіз-мат науки. - 2006. - № 4. - С.177-185.
Клюшин Д.А., Петунін Ю.І., Савкіна М.Ю. Аналог теореми Глівенка-Кантеллі для обернених функцій розподілу // Вісник Київського університету. Сер. кібернетика. - 2006. - № 7. - С.31-34.
Петунин Ю.И., Демина Э.А., Клюшин Д.А., Савкина М.Ю. Оценка влияния величины дозы облучения на вероятность развития злокачественных новообразований на основе сплайновой регрессии // Кибернетика и системный анализ. - 2006. - № 3. - С.168-176.
Клюшин Д.А., Ляшко Н.И., Онопчук Ю.Н. Математическое моделирование и оптимизация внутриопухолевого распределения лекарств // Кибернетика и системный анализ. - 2007. - № 6. - С.147-154.
Ляшко С.И., Клюшин Д.А., Семенов В.В., Шевченко К.В. Лагранжово-ейлеровий підхід до розвязання оберненої задачі конвективної дифузії // Доповіді НАН України. - 2007. - № 10. - С.38-43.
Клюшин Д.А. Новые критерии одномодальности функций распределения // Журнал обчислювальної та прикладної математики. - 2007. - № 1 (94). - С.35-41.
Ляшко С.І., Ляшко Н.І., Клюшин Д.А. Математичне моделювання конвективного переносу цитостатиків усередині ракової пухлини // Доповіді НАН України. - 2008. - № 2. - С.30-35.
Petunin Yu.I., Klyushin D. A., Andrushkiw R.I. Nonlinear algorithms of pattern recognition for computer-aided diagnosis of breast cancer // Nonlinear analysis, Theory, Methods & Applications. - 1997. - vol.30, N 8 - P.5431-5436.
Bairamov I. G., Klyushin D. A., Petunin Yu.I. Consruction of confidence limits for dependent sample values // Istatistik (Journal of the Turkish Statistical Assosiation). - 1998. - Vol.1, № 2. - PP.67-74.
Klyushin D. A., Petunin Yu.I., Bairamov I. G. Test of heterogeneity of general population // Istatistik (Journal of the Turkish Statistical Assosiation). - 1998. - Vol.1, № 3. - P. 19-29.
Andrushkiw R.I., Boroday N. V., Ganina K. P., Klyushin D. A., Petunin Yu.I. Computer-aided diagnosys of breast cancer // Istatistic. - 1999. - № 2, vol.2. - P.71-105.
Petunin Yu.I., Klyushin D. A., Ganina K. P., Boroday N. V., Bairamov I. Statistical investigation of the malignancy associated changes in buccal epithelium under breast cancer // In: Applied Statistical Science (Nova Science Publishers, Inc., USA). - M. Assahnulah (ed), 1999. - P.159-173.
Petunin Yu.I., Klyushin D. A., Boroday N. V., Ganina K. P., Andrushkiw R.I. Computer-aided differential diagnosys of breast cancer and fibroadenomatosis based on malignancy-associated changes in buccal epithelium // Automedica. - 2001, v. 19, 3-4. - P.135-164.
Klyushin D. A., Petunin Yu.I., Andrushkiw R.I., Boroday N. V., Ganina K. P. Analysis of malignancy associated changes in the nuclei of buccal epithelium in the pathology of the thyroid and mammary gland // Annals of the New York Academy of Sciences. - 2002. - v.980. - P.1-12.
Lyashko S.I., Klyushin D. A., Semenov V. V., Schevchenko K. V. Identification of Point Contamination Source in Ground Water // International Journal of Ecology & Development. - Vol.5. - No F06, Fall 2006. - P.36-43.
Гомоляко И.В., Петунін Ю.І., Тумасова Е.П., Клюшин Д.А., Швадчин І.О. Спосіб діагностики раку шлунку. - Деклараційний патент (11) 31650 А (51) 6 А61В 10/00.
Ганіна К.П., Бородай Н.В., Петунін Ю.І., Клюшин Д.А. Спосіб диференціальної діагностики злоякісних та доброякісних проліферативних процесів у молочній залозі. - Патент на винахід № 99031467 від 15.03. 2003 (бюл. № 5).
Дьоміна Е.А., Клюшин Д.А., Петунін Д.А., Савкіна М.Ю. Спосіб визначення величини дози опромінення. - Деклараційний патент на винахід № 2002042936 від 15.01. 2003 (Бюлетень № 1)
Petunin Yu.I., Klyushin D. A. Structure approach to solution of sixth Hilbert problem // In: Abstracts of the Conference “Functional Analysis, Operator Theory, Stochastic Analysis ans Statistics”. - Kyiv, Ukraine, October 19-22, 2001. - P.60.
Клюшин Д.А., Кущан А.А., Ляшко С.І., Номіровський Д.А. Петунін Ю.І. Обобщенное решение некоторых операторных уравнений в банаховых пространствах // В: Праці міжнародної конференції "Моделювання та оптимізації складних систем" (МОСС-2001). - Том.1. - Київ, Україна, 25-28 січня 2001 р. - С.30-32.
Андрушків Р.І., Бородай Н.В., Клюшин Д.А., Петунін Ю.І. Застосування статистичних методів розпізнавання образів для діагностики раку молочної залози // В: Матеріали Десятої міжнародної наукової конференції імені академіка М. Кравчука. - Київ, Україна, 13-15.05. 2004. - С.565.
Andrushkiw R.I., Klyushin D. A., Petunin Yu.I., Savkina M. Yu. The “exact” confidence limits for unknown probability in Bernoulli models // In: Proceedings of the 27th International Cobference on Information Technology Interfaces, ITI 2005. - Cavtat, Chroatia, June 20-23, 2005. - P.175-179.
Klyushin D. A., Petunin Yu.I., Andrushkiw R.I., Boroday N. V., Ganina K. P. Pattern recognition of malignancy-associated changes in the nuclei of buccal epithelium in the pathology of the thyroid and mammary glands // In: Proceedings of the International Conference of Mathematics and Engineering techniques in Medicine and Biological Sciences (METMBS01) - Las Vegas, Nevada, USA, June 25-28, 2001. - P.167-173.
Andrushkiw R.I., Klyushin D. A, Petunin Yu.I., Lysyuk V., Boroday N. V. Diagnosis of breast cancer by modified nearest neighbor recognition method // In: Proceedings of the International Conference of Mathematics and Engineering Techniques in Medicine and Biological Science (METMBS02). - Las Vegas, Nevada, USA, June 24-27, 2002. - Volume 1. - P.176-180.
Andrushkiw R.I., Klyushin D. A., Petunin Yu.I., Lysyuk V. N. Construction of the bulk of general population in the case of exchangeable sample values // In: Proceedings of the International Conference of Mathematics and Engineering Techniques in Medicine and Biological Science (METMBS03). - Las Vegas, Nevada, USA, June 26-29, 2003. - P.486-489.
Andrushkiw R.I., Klyushin D. A., Golubeva E., Pokoyoviy M., Romanov A. Computer-Aided Cytogenetic Method of Breast Cancer Diagnosis, Part II-Test Criteria // In: Proceedings of the 2006 International Conference on Bioinformatics & Computational Biology BIOCOMP06. - Las Vegas, Nevada, USA, June 25-28, 2007. - P.210-213.
Особистий внесок здобувача. Всі основні результати дисертаційної роботи отримано особисто або за участю автора [1-35]. В монографії [1] автору належить узагальнена постановка задач математичної фізики із сингулярними впливами. В монографії [2] автором сформульована структурна теорія випадкового експерименту (роздiл 3.1), описані нові непараметричні критерії значущості (розділи 3.6-3.8), а також нові статистичні методи розпізнавання, що використовуються для диференціальної діагностики (розділи 4.1, 4.2 і 4.4). В монографії [3] автором введено в науковий обіг основні поняття нової теорії випадкового експерименту (розділи 1.2-1.4), викладено нові статистичні методи оцінки неоднорідності генеральної сукупності, нові методи довірчого оцінювання невідомих параметрів і нові міри близькості (розділи 2.7-2.14), а також описано застосування цих методів в медицині і біології (розділи 3.1-3.9). В статтях [4-5, 7, 10-18, 20, 22-25, 27-30] автору належать основні результати. В статті [9] автору належить теорема 5. Решта статей [6, 8, 19, 21, 26] написана без співавторів.
В монографії [1] С.І. Ляшком отримані достатні умови керованості та існування оптимальних керувань в класі узагальнених впливів скінченого порядку. В монографії [2] Ю.І. Петуніним написані розділи 3.2-3.5, де викладено обґрунтування правила 3, метод побудови довірчого інтервалу для основної розподіленої маси генеральної сукупності та узагальнені моделі Бернуллі, Н.В. Бородай написала частину 2, де викладені основи цитогенетичного методу діагностики онкологічних захворювань, а Р.І. Андрушків - вступ і розділ 4.3, де описаний модифікований метод найближчого сусіди. В монографії [3] Ю.І. Петунін написав розділи 1.5, де викладено основи теорії випадкових процесів і послідовностей, а також розділи 2.1-2.6, в яких сформульовано методи оцінки імовірнісних характеристик випадкових подій. В роботах [4-5, 7, 10-18, 20, 22-25, 27-30] співавтори брали участь в постановці задачі, виборі напрямків дослідження і обговоренні результатів. Окрім цього, в статті [9] Д.А. Номіровський сформулював і довів теореми 2, 4, 13 і леми 4, 7, а також результати розділів 2-5.А. А. Кущан написав розділ 6. Ю.І. Петуніну та С.І. Ляшку належить загальна концепція узагальненого розвязку лінійного операторного рівняння в банаховому просторі. В статті [10] Ю.І. Петунін сформулював поняття майже розвязку операторного рівняння (розділ 2) та метод обчислення узагальненого розвязку (розділ 5). В роботах [24, 27] Н.І. Ляшко належать математичні моделі переносу ліків всередині пухлин. В роботах [1, 2] Л.І. Палієнко і Ю.В. Співаку належать теореми щодо існування узагальненого розвязку псевдогіперболічних задач в неоднорідних середовищах. В роботах [25, 35] В.В. Семенов запропонував загальну схему досліджень, а К.В. Шевченко довела теореми щодо оптимального керування цим процесом, а також провела обчислення.
АНОТАЦІЯ
КЛЮШИН Д.А. Непараметричні методи розпізнавання з гарантованим рівнем значущості. - Рукопис.
Дисертація на здобуття наукового ступеня доктора фізико-математичних наук за спеціальністю 01.05.01 - теоретичні основи інформатики та кібернетики - Київський національний університет імені Тараса Шевченка, Київ, 2008.
Створено математичний апарат для розвязання задач, що виникають при статистичному аналізі експериментальних даних та проведенні диференціальної діагностики в медико-біологічних дослідженнях. Розроблено структурну модель випадкового експерименту. Розроблено і досліджено непараметричні критерії еквівалентності генеральних сукупностей за допомогою мір близькості між вибірками. Побудовано і досліджено непараметричні методи довірчого оцінювання основної маси генеральної сукупності за залежними спостереженнями. Розроблено статистичні критерії для порівняння двох ймовірностей в класичній і узагальнених схемах Бернуллі. Створено і досліджено методи стратифікаційного аналізу генеральних сукупностей, а також розвинуто теорію узагальнених розвязків нелінійних операторних рівнянь в метричних просторах. Запропоновані методи застосовані в медико-біологічних дослідженнях, зокрема, для диференціальної діагностики онкологічних захворювань за цитогенетичними даними; для визначення степеня значущості показників і прогнозу розвитку захворювання у хворих на меланому, а також для аналізу субпопуляцій радіо - і хіміорезистентних пухлинних клітин.
Ключові слова: перевірка гіпотез, довірчий інтервал, розпізнавання образів, міра близькості, операторне рівняння, узагальнений розвязок.
КЛЮШИН Д.А. Непараметрические методы распознавания с гарантированным уровнем значимости. - Рукопись.
Диссертация на соискание научной степени доктора физико-математических наук по специальности 01.05.01 - теоретические основы информатики и кибернетики. - Киевский национальный университет имени Тараса Шевченко, Киев, 2008.
В диссертации разработан математический аппарат для статистического анализа экспериментальных данных и проведения дифференциальной диагностики в медико-биологических исследованиях, в основе которого лежат непараметрические методы распознавания на основе обучающих выборок. Для выявления характера экспериментальных данных предложен критерий, позволяющий различать случайные, псевдослучайные и хаотические данные. Разработана структурная модель случайного эксперимента, позволяющая установить коммутативность экспериментов на основе вероятностного изоморфизма и корректно определить операции над случайными величинами в рамках структурной модели.
В частности, предложена новая теория случайного эксперимента на основе интерпретации поля случайных событий как полуупорядоченного множества с естественным отношением упорядоченности между случайными событиями. Показано, что поле событий представляет собой атомарно порожденную полную вполне дистрибутивную булеву алгебру. Изучено распределение вероятностей на поле событий, порожденном случайными величинами. Установлено, что для непрерывных случайных величин (как рациональных, так и действительных) порождаемое ими распределение вероятностей не является счетно-аддитивной функцией событий.
Доказана гипотеза Хилла для симметрично зависимых случайных величин с абсолютно непрерывной функцией распределения. Предложены меры близости между гипотетическими и эмпирическими выборками из непрерывной или дискретной генеральной совокупности, состоящей из симметрично зависимых выборочных значений. Доказаны их преимущества над статистиками Колмогорова-Смирнова и Уилкоксона. Показано, что для p-статистики можно построить приближенные доверительные границы, соответствующие заданному уровню значимости, когда нулевая гипотеза неверна. Доказано, что p-статистика более эффективна при проверке гипотезы об эквивалентности генеральных совокупностей с одинаковыми или близкими математическими ожиданиями. Продемонстрирована высокая чувствительность p-статистики при различии выборок из разных генеральных совокупностей. Показано, что атомарная мера близости является наиболее стойкой к колебаниям объемов выборок, обеспечивая при этом высокий уровень распознавания.
Построен новый доверительный интервал для основной массы генеральной совокупности по зависимым наблюдениям. Разработаны новые статистические критерии для сравнения двух вероятностей в классической и обобщенной схемах Бернулли. Проведено теоретическое обоснование алгоритма построения доверительных эллипсов на основе гипотезы Хилла и предложена его модификация. Доказан аналог теоремы Гливенко-Кантелли для обратных модифицированных функций распределения и на ее основе предложено новое понятие однородной и неоднородной генеральной совокупности. Предложен новый метод решения проблемы о распознавании составной и смешанной выборок. Доказана практическая целесообразность и обоснованность предложенного метода распознавания.
Разработана новая теория обобщенных решения нелинейных операторных уравнений в метрических пространствах. Введено понятие обобщенного решения, почти решения, псевдорешения и существенно обобщенного решения нелинейного операторного уравнения в метрическом пространстве. Доказаны теоремы о существовании, единственности и корректности обобщенного решения. Проанализированы свойства расширения операторов и вложения пространств.
В работе продемонстрировано применение новой теории для решения практических задач. Описаны математические основы процесса распознавания и диагностики рака молочной железы на основе сканограмм интерфазных ядер ДНК клеток слизистой оболочки полости рта. Продемонстрирована эффективность дифференциальной диагностики на основе доверительных эллипсов и процедуры непринятия решения с использованием фильтрующих критериев. Проведен ретроспективный анализ степени прогностической значимости клинических, цитогенетических и морфологических показателей у больных со злокачественной меланомой. Продемонстрировано использование сплайновой регрессии и модифицированного полигона для выявления зависимости вероятности возникновения злокачественных новообразований у участников ликвидации последствий аварии на Чернобыльской атомной электростанции от поглощенной дозы радиации. Найдена точка перехода, после которой вероятность возникновения онкологических заболеваний резко снижается. Показана эффективность разработанных методов стратификационного анализа поколений клеток карциномы Герена, подвергнутых рентгеновскому облучению. Доказана эффективность стратификационного анализа при исследовании морфометрических показателей клеток из интактной популяции плоскоклеточного рака полости рта человека, интактной популяции клеток карциномы Герена у крыс, а также при анализе влияния цисплатина на интактные популяции раковых клеток в обоих случаях.
Ключевые слова: проверка гипотез, доверительный интервал, распознавание образов, мера близости, операторное уравнение, обобщенное решение.
KLYUSHIN D. A. Non-parametrical methods of recognition with guaranteed significance level. - Manuscript.
Thesis for a doctors degree of physics and mathematics by speciality 01.05.01 - theoretical foundations of informatics and cybernetics. - Kiev Taras Shevchenko National University, Kyiv, 2008.
Mathematical tools for solving problems arising in statistical analysis of experimental data and differential diagnostics in medical and biological investigations are developed. A lattice model of random experiment is created. Non-parametrical tests of equivalence of general populations based on proximity measures between samples are developed and studied. Non-parametrical methods of confidence valuation of a bulk of general population on dependence observations are elaborated and investigated. Statistical tests for comparing two probabilities in classical and generalized Bernoulli schemes are developed. Methods of stratified analysis are developed and investigated. A theory of generalized solutions of non-linear operator equations in metric spaces is developed. The methods suggested in the dissertation were used in medical and biological investigations, in particular, for differential diagnostics of oncological diseases on cytogenetical data; for determination of significance importance of factors and making prediction about development of a disease in patients suffering from melanoma, and for analysis of subpopulations consisting of radioresistant and chemoresistant tumor cells.
Keywords: hypothesis testing, confidence interval, pattern recognition, proximity measure, operator equation, generalized solution.
|