Принципы применения статистических методов при проведении клинических испытаний лекарственных средств

П.Н. Бабич, инженер-системотехник, автор ряда работ по практическому применению экспериментально-статистических методов, разработчик оригинального программного обеспечения по анализу данных «ПРИАМ»; А.В. Чубенко, к. м. н., ведущий научный сотрудник ГП «Государственный фармакологический центр» МЗ Украины, заведующий отделом Института фармакологии и токсикологии АМН Украины; С.Н. Лапач, преподаватель Национального технического университета «Киевский политехнический институт»

С точки зрения доказательной медицины клинические исследования (КИ) – это инструмент получения доказательств эффективности и безопасности методов лечения. Планирование и проведение КИ без статистических методов невозможно. В первой части данной публикации («Медична газета «Здоров’я України» №8 (93) было дано определение статистики, как неотъемлемого элемента современного научного поиска. Рассмотрены вопросы планирования КИ – разработки дизайнов (планов) КИ с точки зрения математической статистики.
Следующими этапами проведения КИ являются оптимизация выбранного дизайна с учетом влияния систематической ошибки; перенесение результатов, полученных в выборке, на всю генеральную совокупность; выбор метода статистического анализа с учетом целого ряда ограничений. Именно эти вопросы мы и рассмотрим далее.

Оптимизация дизайна
После того как в общих чертах дизайн испытания выбран, необходимо принять определенные меры для его оптимизации с точки зрения статистических параметров. Для этого необходимо сделать следующее:
• принять меры для минимизации смещения оценки результатов (минимизация систематической ошибки);
• добиться максимально возможной точности оценки результатов;
• принять меры для обоснованной возможности распространения результатов на всю генеральную совокупность.
Рассмотрим, каким образом устранить или учесть влияние систематической ошибки. Систематической ошибкой называется неслучайное, однонаправленное отклонение результатов испытаний от истинных значений. Графическая интерпретация систематической ошибки приведена на рисунке 1.
Систематическая ошибка (смещение) бывает разных видов. Например, это может быть ошибка, связанная с нарушением правил отбора единиц из генеральной совокупности, то есть, главным образом, принципа беспристрастного, непреднамеренного отбора. Наличие такого типа ошибки может привести к полной непригодности результатов наблюдения. Для борьбы со смещением и получения надежных данных используются организационные методы (например, рандомизация, маскировка вида терапии и т.п.), а также внесение поправок, учитывающих величину систематических ошибок.
Разновидностью систематической ошибки при метаанализе является ошибка, возникающая в связи с преимущественной публикацией положительных результатов и более редкой публикацией отрицательных результатов исследований.
При проведении сравнительных КИ нескольких методов лечения ошибка указанного вида может возникать из-за:
• систематических различий в сравниваемых группах (смещение, связанное со способом формирования выборки);
• влияния каких-либо побочных факторов или сопутствующего лечения, помимо исследуемого метода лечения (систематическая ошибка, связанная с проведением испытания);
• выбывания или исключения пациентов из исследования (систематическая ошибка, связанная с отсевом);
• метода выявления исходов (смещение, связанное с выявлением исхода).
Следует также отметить, что наличие систематической ошибки не обязательно обусловлено предвзятостью исследователя, например, вследствие желания получить определенные результаты.
Основными методами устранения систематической ошибки при проведении КИ являются следующие: наличие группы сравнения, маскирование метода лечения как для пациентов, так и для исследователей, использование рандомизации.
Если необходимость наличия группы сравнения или контрольной группы особых комментариев не требует, то маскирование метода лечения может быть различным:
• простое слепое исследование (пациенту неизвестно, какой из методов лечения к нему применяется);
• двойное слепое исследование (ни пациент, ни врач, оценивающий исход, не знают о методе лечения);
• тройное слепое исследование (метод лечения конкретной группы не знают ни больной, ни врач, ни биостатистик, обрабатывающий данные).
Мощным средством для борьбы с систематическими ошибками является рандомизация. Рандомизация – это процесс случайного распределения пациентов в группы лечения с целью исключить всякую необъективность и связанное с ней вероятное смещение оценки. При помощи рандомизации исследователь пытается обеспечить беспристрастность при формировании групп. Рандомизация гарантирует, что наши наклонности и предпочтения не повлияют на формирование групп с различными методами лечения; будет устранена опасность «перестараться» при учете личных предпочтений.
По поводу рандомизации в своей известной книге «Статистические методы для изучения таблиц долей и пропорций» Дж. Флейс приводит цитату Хилла (Hill, 1962): «Рандомизация обеспечивает три вещи: она гарантирует, что наши наклонности и предпочтения не повлияют на формирование групп с различными обработками; она предотвращает опасность, связанную с выбором на основе личных суждений, – считая, что наши суждения могут быть пристрастными, мы стараемся учесть и устранить пристрастность и при этом можем перестараться, ударяясь в другую крайность и приходя к противоположным смещениям; наконец, при случайном распределении обработок самый строгий критик не сможет сказать, что группы рассматривались по-разному вследствие наших предпочтений или нашей глупости».
В основе рандомизации лежит случайность. В качестве примеров генерирования случайных событий можно привести следующие: бросание игральной кости или монеты, лотерейный розыгрыш, таблица случайных чисел, генерирование случайных чисел на компьютере и т.д. На практике, при распределении пациентов на группы, различают такие виды рандомизации.
1. Фиксированная рандомизация:
• простая;
• блоковая;
• стратифицированная.
2. Динамическое распределение:
• метод «несимметричной монеты»;
• адаптивная рандомизация.
Под фиксированной рандомизацией понимают такую рандомизацию, когда на основе случайных чисел, полученных либо из таблиц, либо с помощью компьютера, пациентам назначают определенный вид лечения. В случае простой рандомизации дополнительные факторы не учитываются, а каждый пациент имеет шанс 50 на 50 попасть в ту или иную группу. Однако при такой рандомизации, если только пациенты не подбираются по парам, возможно возникновение дисбаланса. При блоковой рандомизации пациентов сначала распределяют по блокам, а потом внутри блоков проводят случайное распределение испытуемых на группы. Стратифицированная рандомизация производится с учетом слоев (страт), на которые разделяется целевая совокупность по каким-либо признакам, например по полу, возрасту или каким-либо другим, с целью достижения большей репрезентативности формируемой таким образом выборочной совокупности. Однако стратифицированная рандомизация также не позволяет полностью устранить дисбаланс между группами (особенно, если испытания проводятся на пациентах, поступающих в разное время и окончательное число пациентов в каждой группе до конца набора неизвестно).
Для дальнейшего уменьшения дисбаланса между группами используется так называемая концепция «несимметричной монеты», предложенная в 1971 г. Эфроном (Efron, 1971), которую впоследствии развили Покок и Саймон (Pocock and Simon, 1975). При использовании этой концепции, если поступающий пациент относится к группе, в которой большему числу больных назначено лечение одного вида, а меньшему числу – другое, то ему будет с вероятностью р>0,5 назначаться лечение, которое получила меньшая часть пациентов. Вероятность же назначения ему лечения, которое получила большая часть больных, будет равна 1 (р<0,5). Если число пациентов, получивших лечение одного вида, равно числу пациентов, получивших лечение другого вида, то новому пациенту назначается лечение с вероятностью р=0,5. На практике, при применении данного метода, обычно берут вероятность р = 2/3.
Адаптивная рандомизация применяется в адаптивных КИ, в которых проводят лечение таким образом, чтобы к концу испытаний большее число пациентов прошли курс лечения, считающийся более эффективным, а меньшее – менее эффективный курс лечения.
Фиксированная рандомизация выполняется одним из следующих способов:
• посредством списка кодов;
• используя запечатанные конверты;
• по пронумерованному препарату.
При динамическом распределении по группам используются следующие способы так называемой центральной рандомизации:
• посредством телефонной связи;
• по названию препарата;
• по номеру лота.

Генеральная совокупность. Обобщение результатов
Целью любого научного исследования, в том числе и КИ, является перенесение результатов, полученных на выборке, на всю генеральную совокупность. Для повышения точности оценки и обеспечения возможности обобщаемости результатов на всю генеральную совокупность важны следующие моменты.
1. Выбор адекватного метода измерений/оценки.
2. Расчет размера выборки до уровня значимости не более 0,05% и мощности не менее 80%.
3. Проверка мощности получаемых выводов путем обратного расчета по реальным данным.
4. Выбор уместного метода статистического анализа.
В основе возможности распространения результатов КИ на всю генеральную совокупность лежит теория статистического вывода (рис. 2). Статистический вывод – это перенос заключений, сделанных в результате статистического анализа выборочных данных, на целевую генеральную совокупность.
Однако, планируя распространить результаты исследований на всю генеральную совокупность, следует учитывать вероятность ошибки. В свое время премьер-министр Англии Б. Дизраэли сказал следующую фразу: «Имеются следующие виды лжи – ложь, наглая ложь, предвыборные обещания и статистика». Одним из наиболее ярких примеров фиаско в истории применения статистики является заключение, сделанное специалистами, обрабатывающими результаты проведенного в 1936 г. журналом «Литерари Дайджест» (Literary Digest) опроса. Редакцией этого журнала было разослано 10 млн опросных листов, в которых респондентам было предложено ответить на вопрос, за кого они будут голосовать на предстоящих президентских выборах – за республиканца А. Лэндона или демократа Ф. Рузвельта. Было возвращено более 2 млн заполненных опросных листов. На основании их был сделан вывод, что выборы выиграет республиканец Альфред М. Лэндон. Однако на выборах с большим отрывом, взяв 60% голосов избирателей, победил Франклин Делано Рузвельт. Причиной такого ложного статистического прогноза было то, что полученная таким образом выборка потенциальных избирателей была не репрезентативной, так как опросные листы были разосланы людям, адреса которых были взяты из телефонных книг, а также владельцам автомобилей (так как сведения о них были в полиции). Поэтому в выборке практически не были представлены менее состоятельные люди, которые в своей массе как раз и собирались голосовать за Рузвельта.
Кроме того, существуют две ошибки, которые можно допустить при принятии или отклонении статистической гипотезы. Рассмотрим это на примере работы суда. При судебном расследовании совершенного преступления судьям не известна истина и они пытаются ее установить. При этом они не застрахованы от ошибки. Варианты ошибок, которые они могут допустить при принятии решения, приведены в таблице 1. Как видно из таблицы, существует вероятность как осудить невиновного, так и оправдать виновного.
Аналогичная ситуация возникает при проверке статистической гипотезы относительно эффективности способа лечения. Варианты решений, которые можно принять, и варианты ошибок, которые при этом можно допустить, приведены в таблице 2. Таким образом, при проверке статистической гипотезы существует вероятность допустить две ошибки – ошибку 1-го рода и ошибку 2-го рода.
Ошибка 1-го рода – это вероятность того, что вывод о выявленных нами различиях методов лечения является ошибочным. Другими словами, это вероятность справедливости нулевой гипотезы об отсутствии различий. Касательно вероятности совершения этой ошибки можно сказать следующее.
1. При статистическом анализе обычно задается граничная вероятность совершения ошибки 1-го рода, называемая уровнем значимости α.
2. На практике довольно часто уровень значимости берут равным 0,05. Это означает, что допускается вероятность ошибки в 5% случаев.
Следует отметить, речь идет о так называемой нулевой гипотезе. В нашем случае нулевая гипотеза – это предположение об отсутствии различий между испытуемыми методами лечения. Особо следует остановиться на этой магической вероятности, обозначаемой как «p», которая встречается практически во всех отчетах и статьях. Так что же такое «p»? Это – вероятность справедливости нулевой гипотезы или, другими словами, достигнутый в эксперименте уровень значимости. Согласно правилу проверки нулевой гипотезы, если p<α, то эта гипотеза отклоняется.
Всегда следует помнить, что значение «р» не может быть доказательством эффективности лечения. Значение p<0,05 свидетельствует только о том, что различия между группами не случайны, но статистическая значимость выявленных различий может и не быть клинически значимой. Допустим, если величина систолического артериального давления в результате применения препарата снизилась со 180 до 170 мм рт.ст., то при большой выборке это снижение будет статистически значимым, в то время как клинического значения оно иметь не будет.
Особое внимание следует уделить возможности возникновения эффекта множественных сравнений. Под ним подразумевают эффект, возникающий при последовательном попарном сравнении более чем двух выборок, следствием которого является увеличение вероятности совершения ошибки 1-го рода.
Для борьбы с эффектом множественных сравнений обычно применяют следующие подходы: использование поправки Бонферрони и использование методов множественных сравнений. Суть поправки Бонферрони состоит в том, что если вы выполняете k сравнений, то искать различия необходимо при уровне значимости в k раз меньшем, чем изначально заданный. То есть, если в общем случае вы хотите проверить статистическую гипотезу при уровне значимости, равном 0,05, то для каждого отдельного сравнения необходимо брать уровень значимости равный 0,05/k.
Теперь рассмотрим ошибку 2-го рода. По определению, это вероятность сделать вывод о том, что два исследуемых метода лечения являются эквивалентными, в то время как в действительности один метод лечения эффективнее другого. Используя юридическую терминологию, можно сказать, что ошибка 2-го рода – это вероятность отпустить виновного на свободу (например, за недостаточностью улик). Данная ошибка обычно обозначается символом «β» и ее граничная величина на практике задается равной 0,2.
Весомое значение при КИ имеет мощность. Статистическая мощность – это вероятность обнаружить интересующее различие, если оно действительно существует. Математически мощность определяется следующим выражением:
МОЩНОСТЬ = 1 – β (ошибка 2-го рода).
Другое название мощности – чувствительность. Чувствительность зависит от величины различий, разброса данных и объема выборки. Обычно ее берут равной не ниже 80%. На чувствительность оказывают влияние следующие факторы:
• уровень значимости α (по мере уменьшения уровня значимости будет уменьшаться чувствительность);
• отношение величины различий к стандартному отклонению (чем больше это отношение, тем чувствительнее критерий);
• объем выборок (чем больше объем, тем выше чувствительность критерия);
• применяемый статистический критерий (для разных критериев чувствительность вычисляется по-разному).
Немаловажное значение для получения полезной информации имеет размер выборки. Требуемый размер выборки – это минимально достаточное количество испытуемых для получения клинически и статистически значимых результатов КИ. Для определения размера выборки необходимо оценить следующие параметры:
• проверяемая гипотеза (односторонняя/двусторонняя);
• уровень значимости;
• мощность статистического критерия;
• дизайн КИ;
• тип главной переменной;
• вариабельность значений главной переменной;
• величина клинически значимого эффекта.
Остановимся на последних трех параметрах. Главная переменная – это переменная, по которой в конечной точке делается основной вывод КИ об эффективности и/или безопасности сравниваемых препаратов. Вариабельность – это величина, характеризующая отклонение индивидуальных значений от среднего значения в группе лечения. Величина клинически значимого эффекта – это минимальное клинически значимое различие между группами лечения в конечной точке по главной переменной.
Важное значение для расчета размера выборки имеет тип главной переменной. На рисунке 3 схематически изображены типы переменной в зависимости от шкалы, в которой они измерены.

Методы статистического анализа
Наконец, необходимо выбрать, какой же метод статистического анализа, какой критерий следует применять, учитывая все изложенные ранее ограничения. Далее приведены данные (табл. 3), позволяющие выбрать требуемый статистический метод в зависимости от типа переменной и распределения, а также от решаемой задачи.
Однако приведенная таблица является неполной и не может охватить всего разнообразия проблем, которые могут возникать в реальной действительности. Завершая данный материал, хочется сказать, что если у вас возникли сомнения по поводу правильности применения статистических методов в ваших исследованиях, то не занимайтесь «самолечением», а обращайтесь за консультацией к соответствующим специалистам.

Литература
1. Чубенко А.В., Бабич П.Н., Лапач С.Н., Ефимцева Т.К. Применение современных статистических методов в практике клинических исследований. Сообщение первое. Сравнение двух пропорций // Український медичний часопис. – 2003. – № 4. – С. 139-143.
2. Чубенко А.В., Бабич П.Н., Лапач С.Н., Ефимцева Т.К., Мальцев В.И. и др. – Принципы применения статистических методов при проведении клинических испытаний лекарственных средств: Методические рекомендации. – К.: Издательский дом «Авиценна», 2003. – 60 с.
3. Лапач С.Н., Чубенко А.В., Бабич П.Н. Статистика в науке и бизнесе. – К.: МОРИОН, 2002. – 640 с.
4. Лапач С.Н., Чубенко А.В., Бабич П.Н. Основные принципы применения статистических методов в клинических испытаниях. – К.: МОРИОН, 2002. – 160 с.
5. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций: Пер. с англ. / Под ред. и с предисл. Ю.Н. Благовещенского. – М.: Финансы и статистика, 1989. – 319 с.: ил. – (Библиотечка иностранных книг для экономистов и статистиков). – Пер. изд.: США, 1981.
6. Петри А., Сэбин К. Наглядная статистика в медицине / Пер. с англ. В. Леонова. – М.: ГЭОТАР-МЕД, 2003. – 144 с.: ил. – (Серия «Экзамен на отлично»).
7. Большев Л.Н., Смирнов Н.В., Таблицы метематической статистики. – 3-е изд. – М.: Наука, 1983. – 416 с.
8. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере / Под ред. В.Э. Фигурнова. – М.: ИНФРА-М, 1998. – 528 c.
9. Закс Л. Статистическое оценивание / Пер. с нем. В.Н. Варыгина // Под ред. Ю.П. Алдера, В.Г. Горсокого.-М.: «Статистика», 1976.- 598 с.
10. Гланц С. Медико-биологическая статистика. – М.: Практика, 1999. – 459 с.
11. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с.
12. А как было раньше? – http://www.biometrica.tomsk.ru/lis.htm