N-T.ru / Текущие публикации / История науки

Долгое прощание с лысенковщиной

В.П. ЛЕОНОВ

Часть 6

Нормальное распределение в биомедицине
встречается не часто

В течение последних 10 лет автору этой статьи довелось по заказам исследователей провести достаточно детальный статистический анализ более 150 массивов данных из различных областей экспериментальной биологии и медицины, содержавших от 10 до 300 признаков и от 100 до нескольких десятков тысяч наблюдений. В 50...80% случаев количественные показатели биологических объектов не подчинялись нормальному распределению! Наиболее характерно это было для опытных групп (больные пациенты, животные или растения находящиеся под воздействием тех или иных препаратов и т.п.). По сравнению с группами контроля в опытных группах были затянуты левые или правые хвосты распределений, наблюдались также значительные изменения дисперсии, асимметрии и эксцесса. Предположим, применив один или несколько таких критериев, мы установили, что исследуемый признак подчиняется нормальному распределению в каждой из двух групп сравнения. Однако это требование является необходимым, но не достаточным для применения t-критерия Стьюдента. Следующее требование, которое должно выполняться, это равенство генеральных дисперсий в сравниваемых группах. Для проанализированных нами работ, в которых был использован двухвыборочный t-критерий Стьюдента, и приведены объемы выборок и среднеквадратичные отклонения, в 73% случаев выполненная нами проверка равенства генеральных дисперсий с помощью F-критерия Фишера дала отрицательный результат при уровне значимости 5%, а значит применть t-критерий Стьюдента было нельзя! Однако магия сравнения средних не позволяет сосредоточить внимание исследователей на сравнении дисперсий. В результате этого важнейшая информация об экстремальных значениях переменных в опытных группах теряется!

Проблема Беренса-Фишера и ANOVA

Проверка гипотезы о генеральных средних двух групп с нормальным распределением и неравными дисперсиями в математической статистике называется проблемой Беренса-Фишера и имеет в настоящее время только приближенные решения. Подробное изложение проблемы Беренса-Фишера можно найти в [56, с. 258, 57, с. 235, 58, с. 190, 55, с.93]. Почему так важно требование равенства дисперсий в сравниваемых группах? Не вдаваясь в детали этой проблемы, отметим, что чем больше различаются между собой дисперсии и объемы выборок, тем сильнее отличается распределение «вычисляемого t-критерия» от распределения «t-критерия Стьюдента». При этом различную величину имеет как сам t-критерий, так и такой параметр этих распределений, как число степеней свободы. В свою очередь число степеней свободы сказывается на величине достигнутого (критического) уровня значимости (р <...) определяемого для вычисленного значения t-критерия. Пренебрежение авторами работ, приведенными выше условиями допустимости использования t-критерия Стьюдента, приводит к существенному искажению результатов проверки гипотез о равенстве средних. Поэтому в работах, где проверка гипотез о равенстве двух средних производилась с помощью t-критерия Стьюдента, и нет упоминания критериев проверки нормальности распределения и равенства дисперсий, имеются основания предполагать некорректное использование авторами данного критерия, а стало быть, и сомнительность декларируемых ими выводов.

Другая частая ошибка – применение t-критерия Стьюдента для проверки гипотез о равенстве трех и более групповых средних. В этом случае необходимо применять так называемую общую линейную модель, реализованную в процедуре однофакторного дисперсионного анализа с фиксированными эффектами. Часто этот метод называют сокращенно ANOVA (Analysis of Variance – анализ отклонений, вариаций). Отметим, что дисперсионный анализ для подобной цели был использован всего лишь в 4% работ. О малоизвестности данного метода в среде кардиологов говорит не только мизерная частота его упоминания в публикациях, но и следующий известный автору реальный факт. Два исследователя из НИИ Кардиологии ТНЦ РАМН направили в английский журнал статью, которая была возвращена на доработку, с предложением применить метод ANOVA. Полгода авторы статьи потратили на то, чтобы установить, что ANOVA – это дисперсионный анализ, которому уже более 60 лет. Отметим, что это были не начинающие исследователи, а специалисты с учеными степенями, руководители научных коллективов имеющие большое количество публикаций. Очевидно, что рядовые исследователи имеют еще меньшее представление об этом методе.

Результаты аналогичных исследований
других авторов

Нам неизвестны аналогичные ни отечественные, ни зарубежные исследования, выполненные на материале диссертаций и монографий в области медицины и биологии. Однако исследования на материале журнальных публикаций периодически проводятся как отечественными, так и зарубежными авторами. Ниже мы приведем результаты нескольких подобных отечественных исследований. Так, достаточно известны два детальных исследования журнальных статей, инициированные известным российским статистиком, философом и методологом науки профессором МГУ В.В. Налимовым. Результаты первого из этих исследований были опубликованы в [69]. В работе изучалось состояние математизации в психиатрии. Авторы обсудили содержание обзора по использованию математических методов в психиатрии, и провели сравнение содержания «Журнал невропатологии и психиатрии им. С.С. Корсакова» за 1979...1981 гг. и за 1987 г. с 597 статьями, опубликованными в 1980 г. в трех ведущих англоязычных психиатрических журналах (АПЖ): American Journal of Psychiatry, British Journal of Psychiatry и Archives of General Psychiatry. Основные результаты этого сравнения приводятся в табл.4. Делается вывод о том, что существенно различаются по степени математизации англоязычные и русскоязычные статьи по психиатрии. Для иллюстрации этого утверждения мы приводим ниже одну из таблиц данной работы. Приведенные результаты сравнения столь очевидны, что не нуждаются в дополнительных комментариях. Обращает на себя внимание, что для отечественных публикаций структура распределения осталась практически неизменной на протяжении всего периода с 1979 по 1987 гг. Отметим, что в группе 4 под «методом Фишера» подразумевается разработанный им дисперсионный анализ (ANOVA), а в группе 8 при наборе видимо была допущена опечатка: вместо «некоррекционными» должно быть «некорреляционными». В пользу этого предположения говорит и тот факт, что в статье [70] в аналогичной таблице авторы использовали слово «некорреляционными».

Таблица 4.

Распределение публикаций в психиатрических журналах по годам [69]

Категория статейХарактеристики статей и используемые в них статистические методыАПЖЖурнал невропатологии психиатрии им. С.С. Корсакова
  19801979198019811987
1Описательные и обзорные сообщения28941019593
2Краткие сообщения без статистических данных12937504347
3Описательная статистика: таблица, графики, средние, вариабельность9035454355
4χ2, t-тесты, метод Фишера23630293852
5Корреляционные методы9437710
6Частотный анализ, F-тест791001
7Непараметрические ранговые методы360001
8Измерение связей некоррекционными методами320100
9Регрессионный анализ250002
10Дискриминантный и факторный анализ171211
11Оценки максимальной вероятности, интервальные оценки50000
12Кластер-анализ, классификации20101
13Анализ «выживаемости»30000
14Сериальный и спектральный анализ30000
15Планирование эксперимента: латинские квадраты, иерархические модели40000
16Байесовы методы10000

Спустя 6 лет данное исследование было продолжено уже в другом авторском составе и его результаты приведены в [70]. «В настоящее время в России существует уже несколько новых психиатрических журналов, существенно расширился диапазон публикаций, исследовательская психиатрия оснастилась компьютерами, с помощью которых легко использовать пакеты стандартных статистических программ. Можно было ожидать существенного расширения использования математических методов. Проверка этого предположения и стала главной целью настоящего исследования» [70]. Для проведения исследования авторами был выбран журнал «Социальная и клиническая психиатрия» (СКП). «Главная трудность анализа использования количественных методов в СКП лежит вне математики, в смысловой организации большей части работ, в их семантике. Это, прежде всего – нечеткость формулировки цели и задач, как работы в целом, так и отдельных ее фрагментов, в частности статистических, которые часто даются без какой-либо мотивировки и последующего обсуждения, то есть, используются формально. Последнее, особенно наглядно в тех работах, где существовал раздел «материалы и методы». В этом разделе иногда не было даже упоминаний о методах математической статистики, которые затем появлялись в тексте без какого-либо объяснения. Если же указания на такие методы и были, ни в одной работе не встретилось объяснения, почему выбраны именно эти методы, а не другие, и что с их помощью предполагалось получить» [70]. Результаты этого достаточно глубокого и беспристрастного анализа представлены авторами в виде графика и таблицы, которая приведена ниже.

Таблица 5.

Использование статистических методов в публикациях психиатрических журналов [70]

 АПЖКСКПОтличие от АП
Характер методов19801979...1981 и 19871991...1995ЖК
P <
СКП
P <
1 Описательные сообщения и обзоры1575002250,00010,0001
2. Описательная статистика: таблицы, графики, средние, вариабельность901781130,00010,0001
3. хи-квадрат, t-тесты, метод Фишера236149670,00010,0001
4. Корреляционные методы942760,00010,0001
5. Частотный анализ, F-тест79210,00010,0001
6. Непараметрические ранговые методы36100,00010,0001
7. Измерение связей некорреляционными методами32100,00010,0001
8. Регрессионный анализ25250,00010,001
9. Дискриминантный и факторный анализ17520,050,05
10. Оценки максимальной вероятности, интервальные оценки5010,01
11. Кластер-анализ, классификации220
12. Анализ «выживаемости»3000,050,05
13. Сериальный и спектральный анализ3000,050,05
14. Планирование эксперимента: латинские квадраты, иерархические модели4000,010,05
15. Байесовы методы100
16. Всего статей784867420  

АП – англоязычные журналы (Amer. J. Psychiat., Archives Gen. Psychiat.)
ЖК – Журнал невропатологии и психиатрии им. С.С. Корсакова
СКП – Социальная и клиническая психиатрия

«Прежде всего, обращает внимание резкое доминирование t-оценок в статьях СКП, которые почти полностью исчерпывают категорию 3 (см. таблицу) в отличие от АП, где широко используется метод χ2 и дискриминантный анализ. Существенно отметить и то, что метод Стьюдента используется в статьях СКП без какого-либо его анализа его приложимости. Между тем этот метод разработан для показателей, имеющих нормальное... распределение, тогда как количественные данные некоторых статей показывают, что это условие не выполняется. А это значит, что неприменима не только t-статистика, но также вычисление средней величины Большинство статей, где используется t-статистика, имеет многофакторную структуру. В подавляющей части таких работ предполагалось обнаружить зависимость одного (например, прогноза) или нескольких явлений (например, диагностические группы) от каких-либо нескольких факторов (клинических, лабораторных, социальных и других или от типов течения определенной нозологической формы). Казалось, было очевидным решить эти задачи с помощью многофакторных математических методов, таких, например, как дисперсионный, факторный, дискриминантный, кластерный анализ или множественная регрессия. Однако за редчайшим исключением авторы опираются на t-статистику, иногда умножая ошибки, указанные в пункте «а» [70]. Далее авторы обращают внимание читателей на то, что «...поражает разрыв между трудоемкостью... исследования и простотой статистической обработки многопараметрических результатов, основанной на t-статистике, которая не вполне адекватна задаче исследования». В качестве иллюстрации этого утверждения приведем пример из нашего исследования, содержащий ссылки всего лишь на две докторские диссертации. Так, в диссертации «Роль гемопоэзининдуцирующего микроокружения в регуляции кроветворения при действии на организм миелоингибирующих факторов. Принципы фармакологической коррекции» (14.00.16 – пат. физиология, 1994 г.) автор сообщает «Всего было использовано 1418 мышей-самцов линии СВА и 120 мышей-самцов линии С 57В 1/6». Однако все выводы построены только на использовании t-критерия Стьюдента без проверки возможности его использования. В другой диссертации «Влияние нарушения кислотно-щелочного равновесия на динамику раннего постреанимационного периода» (14.00.16 – пат. физиология, 1993 г.) автор сообщает, что в работе было использовано 692 беспородных крысы и 531 кролик. И вновь все выводы построены только на применении t-критерия Стьюдента без проверки возможности его использования. Список подобных примеров мог бы занять несколько страниц. Авторы [70] отмечают, что «... большую группу составили работы, в которых статистика или вовсе не использовалась или была представлена только числовой характеристикой некоторых показателей В одной из работ описывается воздействие 9 факторов и 24 возможных исхода для выявления связи между ними. Однако статья не содержит ни количественных данных, ни тем более их статистической обработки. Совершенно ясно, что научная ценность такой работы исчезающе мала – не потому, что ее описательные выводы неверны, но, будучи недоказательными, становятся научным балластом» [70]. В последующем обсуждении результатов исследования авторы приходят к выводу что «компьютеризация исследовательских учреждений в последние годы не повлияла на расширение измерительных или количественных подходов. Как в прошлом веке, в российской психиатрии доминируют описательные, качественные методы» [70]. Продолжая анализ, авторы делают вывод о том, что продвижение математических методов в разделы психиатрии будет по сути дела обусловлено экономическими категориями. В качестве аргумента авторы приводят пример с зарубежной психофармакологией. «Это обусловлено, прежде всего, ответственностью ее практических решений, а также дороговизной ее производства и конкуренцией на рынке сбыта. Жесткость всех этих отношений заставила психофармакологов насытить математикой не только теоретический, но и прикладной раздел этой дисциплины (клиническое испытание новых препаратов). Почти тотальное обеспечение психофармакологии математикой стало одним из способов повышения ее эффективности и минимизации неудач Анализ литературы, предпринятый в настоящей работе, свидетельствует, что аналогичная задача еще не возникла перед российской психиатрией в середине 1990-х гг. Более того, часть российских статей по изучению эффективности психотропных препаратов или их сравнительному изучению, даже содержащие количественные данные, обходятся без статистического анализа, лишь изредка используется t-статистика» [70]. В качестве примера подобной работы мы можем привести докторскую диссертацию «Хронобиологические основы нейротропных эффектов солей лития», 14.00.17 – нормальная физиология, 14.00.25 – фармакология, 1997 г. В диссертации приведено 34 таблицы содержащих порядка 1000 выражений «M ± m» и «р < 0,05», полученных с помощью t-критерия Стьюдента без проверки условий возможности его использования. В этой же работе проверялись гипотезы о равенстве средних с помощью критерия Стьюдента для признака, который оценивался по 4-х балльной системе.

Подобные же результаты сравнения российских и англоязычных публикаций получены и авторами [71], где сообщены выводы наукометрического анализа статей журналов "ECOLOGY" и «ЭКОЛОГИЯ». Результаты анализа основаны на данных об индивидуальной и совместной частоте встречаемости в этих публикациях экологических и математических терминов. Некоторые результаты этой работы приведены ниже в табл.6.

Таблица 6.

Доля публикаций, использующих разные группы математических методов
(в % от числа статей из данного журнала) [71]

Математические методыЖурнал
"ECOLOGY"
Журнал
«ЭКОЛОГИЯ»
Описательные и обзорные сообщения без статистических данных424
Стандартные методы7769
Многомерные методы6013
Непараметрические методы350
Категоризованные данные150
Марковские процессы20
Дифференциальные уравнения20

Как видно из табл. 5, наблюдается значительное различие в частоте применения многомерных и непараметрических методов статистики в статьях сравниваемых журналов. Многие из перечисленных выше недостатков отмечались ранее и автором [83]. Немало интересного и поучительного относительно ошибок применения статистики в биологии можно найти и в работах известного пропагандиста биометрии Александра Александровича Любищева, который выделил две группы ошибок: «Ошибки от недостатка осведомленности» и «Ошибки, связанные с избытком энтузиазма» [72...74].

А как обстоит дело «у них»?

Первые зарубежные исследования, посвященные анализу применения статистических методов в медицине, относятся к 1929 г. [75] и 1932 г.[76]. Более поздние исследования были выполнены в 60-х [77], 80-х и 90-х годах. Результаты этих исследований свидетельствуют о том, что уже в 80-х годах зарубежные публикации стал отмечать достаточно высокий уровень использования статистических методов анализа экспериментальных данных. В табл. 7 приведены результаты наиболее известного зарубежного исследования [78].

Таблица 6.

Proportion of papers in New England Journal of Medicine using certain statistical methods of analysis in 1978...1979 and 1990 [78]

Procedure1978...1979
All papers (n=760), %
1978...1979 Original papers (n=332), %1990 Original papers (n=100), %
No statistical method or descriptive statistics only52711
t-test244439
Contingency tables152730
Pearson correlation71217
Non-parametric tests61125
Any survival analysis or logistic regression*1132
Regression for survival or logistic regression1*27
Life-table3*19
Other survival analysis1*15
Epidemiological statistics5913
Simple linear regression5818
Analysis of variance4814
Transformations378
Multiple regression356
Non-parametric correlation249
Multiway tables247
Multiple comparisons235
Adjustment and standardization231
Other methods2319

Достаточно высокая частота многих использованных методов говорит о том, что в большинстве статей используется сразу несколько методов. Кроме того, примерно равные частоты для половины методов позволяют сделать вывод о том, что в среде авторов данного журнала уже сложилось ядро из 7...9 основных используемых статистических методов. Более того, по большинству методов видна положительная динамика.

А есть ли хорошие отечественные примеры?

Среди удручающего обилия работ переполненных «M ± m», «p < 0,05» и t-критерием Стьюдента, изредка встречаются статьи и диссертации, в которых грамотно и глубоко используются достаточно современные методы прикладной статистики. Как правило, число авторов в таких статьях не превышает 3...4 человек. Ниже мы приведем небольшой список таких работ, отмечая набор использованных авторами статистических методов и критериев. Так в статье «Предикторы риска летальности больных в раннем периоде после операции аортокоронароного шунтирований» (В.А. Сандриков, М.Г. Гордон, М.К. Курдов, Кардиология, №8, 1997, стр. 24...28) авторами былп проведена проверка нормальности распределения признаков, использована ранговая корреляция а также модель логистической регрессии. В следующей статье «Прогноз осложнений, развившихся вследствие введения антиаритмических препаратов при пароксизмальных наджелудочковых тахиаритмиях на догоспитальном этапе лечения» (Ю.Г. Шварц, В.Ф. Киричук, Кардиология, №8, 1997, стр. 31...35) авторы использовали кроме t-критерия Стьюдента критерий Краскела-Уоллиса, провели анализ таблиц сопряженности, корреляционный и регрессионный анализ и также провели сравнение многомерных групп с помощью дискриминантного анализа. Мы не обнаружили, что география подобных работ ограничивается в основном только такими научными центрами, как Москва и Санкт-Петербург. Так, к примеру, если первая из вышеназванных работ была выполнена в Научном центре хтрургии РАМН и научно-исследовательском кинофотоинституте (г. Москва), то вторая работа выполнена на кафедре факультетской терапии лечебного факультета и кафедре нормальной физиологии Саратовского государственного медицинского университета. Напомним, что упоминавшаяся выше работа, в которой был использован мем «Полученные данные обрабатывали на ЭВМ методами многомерной статистики», была выполнена также на кафедре факультетской терапии, только уже другого медицинского университета – Санкт-Петербургского университета им. И.П. Павлова. Поэтому можно утверждать, что уровень применения статистических методов в биомедицинских работах не определяется географией расположения организаций в которых выполняются эти работы.

Авторы таких интересных работ осознают, что для получения глубокого знания о предмете исследования необходимы не только совершенное оборудование, но и современные сложные методы статистического анализа наблюдений. Подобные работы, выполненные как правило с участием специалиста по прикладной статистике, отмечает высокий уровень как выбора адекватных методов анализа, так и корректная интерпретация полученных при этом результатов. В качестве примеров таких достаточно глубоких (в смысле применения методов статистического анализа наблюдений) можно указать диссертации Н.В. Канской на тему «Роль взаимосвязи дислипопроидемий и иммунологических нарушений в патогенезе коронарного атеросклероза» (1990 г.), Е.Н. Кологривовой на тему «Соотношение систем общего и местного иммунитета при различных режимах функционирования гомеостатических механизмов организма человека» (1991 г.), Огородовой Л.М. «Реактивность нейтрофилов в системе механизмов воспаления – основа формирования и лечения атопического дерматита у детей» (1995 г.), Биндерис Н.С. «Влияние антогонистов кальция на префузию миокарда у больных гипертнической болезнью» (1995 г.), Горленко Л.В. «Влияние патологии гепатобилиарной системы на возникновение и развитие атерогенных нарушений у детей» (1996 г.), Гребенюк О.В. «Клинико-иммунологическая характеристика церебрального арахноидита» (1998 г.). Весьма интересные примеры продуктивного использования сложных статистических методов анализа данных опубликованы в 1998 г. в «Зоологическом журнале». Так, в статье Ю.Г. и Г.В. Пузанченко «Экологическая дифференциация грызунов сезонно-влажных тропических лесов Северного Вьетнама» (1998 г. том. 77 №1, стр. 117...132) использовано многомерное непараметрическое шкалирование. В следующей статье В.В. Гриценко, Н.В. Глотова и Д.Б. Орлинского «Эколого-генетический анализ изменчивости центральных элементов рисунка переднеспинки у колорадского жука (LEPTINOTARSA DECEMILINEATA)» (1998 г. том. 77 №3, стр. 277...284) авторами использован анализ 5-мерных таблиц сопряженности.

Отметим, что сравнение в целом работ по кардиологии и по радиобиологии, с точки зрения уровня использования прикладной статистики, явно не в пользу кардиологии. В статьях и диссертациях радиобиологической тематики наблюдается большее разнообразие использованных в работе статистических методов. В качестве примера такой статьи можно указать работу А.А. Конрадова [59] выполненную в Институте химической физики им. Н.Н. Семенова РАН РФ. Аналогичный уровень отмечен и для публикаций авторов филиала института Биофизики г. Озерск. Видимо, здесь сказывается специфика самой радиобиологии, базирующейся на фундаменте биофизики. Уровень использования статистических методов в публикациях академических журналов, значительно ниже, чем в публикациях отраслевых журналов. Приятным исключением можно считать публикации журнала «Клиническая медицина и патофизиология» издаваемого Военно-медицинской академией (г. Санкт-Петербург), которая имеет давние пионерские традиции использования методов статистики в медицинских исследованиях.

Сопоставление публикаций по уровню использования в них методов статистики свидетельствует о том, что лидирующее положение в этом смысле, как правило, занимают несколько авторских коллективов ведущих исследовательских центров того или иного научного направления. Так для подобных публикаций Государственного научно-исследовательского центра профилактической медицины Минздрава РФ характерно глубокое и комплексное применение методов статистики наряду с достаточно подробным изложением специфики этих методов и полученных при этом результатов. Эти же признаки отличает и ряд статей Института клинической кардиологии им. А.Л. Мясникова КНЦ РАМН. Особо следует выделить работу [60], эталонный уровень которой обеспечен наличием среди исполнителей этого исследования и авторов статьи профессионального статистика. Столь же высокий уровень использования методов прикладной статистики характерен и для работ [61...66].

 

Часть 7

Оглавление

 

Дата публикации:

15 августа 1999 года

Электронная версия:

© НиТ. Текущие публикации, 1997



В начало сайта | Книги | Статьи | Журналы | Нобелевские лауреаты | Издания НиТ | Подписка
Карта сайта | Cовместные проекты | Журнал «Сумбур» | Игумен Валериан | Техническая библиотека
© МОО «Наука и техника», 1997...2013
Об организацииАудиторияСвязаться с намиРазместить рекламуПравовая информация
Яндекс цитирования