10 видов регрессий. Какой использовать?
Блог время прочтения: 2 минуты

Стоит ли использовать линейную или логистическую регрессию? В каких контекстах? Существуют сотни видов регрессий. Вот обзор для исследователей данных и других аналитиков, чтобы помочь вам решить, какую регрессию использовать в зависимости от вашего контекста.
- Линейная регрессия: самый старый из всех видов регрессий, разработанный 250 лет назад; расчеты (на небольших данных) могут быть легко выполнены человеком по замыслу. Может использоваться для интерполяции, но не подходит для прогнозной аналитики; имеет много недостатков применительно к современным данным, например, чувствительность как к выбросам, так и кросс-корреляциям (как в области переменных, так и в области наблюдений), и подвержена чрезмерному соответствию. Лучшим решением является кусочно-линейная регрессия, особенно для временных рядов.
- Логистическая регрессия: широко используется в клинических испытаниях, оценке, когда ответ является двоичным (вероятность успеха или неудачи, например, для нового проверенного лекарства или транзакции по кредитной карте). Имеет те же недостатки, что и линейная регрессия (не устойчивая, зависящая от модели), и вычисление коэффициентов регрессии связано с использованием сложного итеративного, численно неустойчивого алгоритма. Может быть хорошо аппроксимирован линейной регрессией после преобразования ответа (логит-преобразование). Некоторые версии (регрессия Пуассона или Кокса) были разработаны для недвоичного ответа, для категориальных данных (классификация), упорядоченного целочисленного ответа (возрастные группы) и даже непрерывного ответа (деревья регрессии).
- Регрессия гребня: более надежная версия линейной регрессии, накладывающая ограничения на коэффициенты регрессии, чтобы сделать их намного более естественными, менее подверженными чрезмерной подгонке и легче интерпретировать.
- Регрессия Лассо: аналогично регрессии гребня, но автоматически выполняет переменное уменьшение ( позволяя коэффициентам регрессии быть равными нулю ).
- Экологическая регрессия: в отличие от всех видов регрессий состоит в выполнении одной регрессии на страты, если ваши данные сегментированы на несколько достаточно крупных базовых страт, групп или бинов. Остерегайтесь проклятия больших данных в этом контексте: если вы выполните миллионы регрессий, некоторые из них будут полностью ошибочными, а лучшие будут омрачены шумными с большим, но искусственным совершенством: большая проблема, если вы попытаетесь выявить экстремальные явления и причинно-следственные связи.
- Регрессия в необычных пространствах: пример – чтобы определить, происходят ли фрагменты метеоритов из одного и того же небесного тела, или провести обратную разработку формулы Кока-Колы.
- Логическая регрессия: используется, когда все переменные являются двоичными, обычно в алгоритмах оценки. Это специализированная, более устойчивая форма логистической регрессии (полезная для обнаружения мошенничества, где каждая переменная является правилом 0/1), где все переменные были объединены в двоичные переменные.
- Байесовская регрессия: чем-то похожая на регрессию гребня – более гибкая и стабильная, чем традиционная линейная регрессия. Предполагается, что у вас есть какие-то предварительные знания о коэффициентах регрессии и об ошибке: смягчение предположения о том, что ошибка должна иметь нормальное распределение (ошибка должна быть независимой от наблюдений). Однако на практике предшествующее знание переводится на искусственные (сопряженные) априорные значения – слабость этой техники.
- Квантильная регрессия: используется в связи с экстремальными событиями.
- LAD регрессия: аналогично линейной регрессии, но с использованием абсолютных значений (пространство L1), а не квадратов (пространство L2).
- Регрессия складного ножа: это новый тип регрессии, также используемый в качестве общей техники кластеризации и сокращения данных. Она решает все недостатки традиционной регрессии, обеспечивает приблизительное, но очень точное и надежное решение проблем регрессии и хорошо работает с «независимыми» переменными, которые коррелированы и / или ненормальны (например, данные, распределенные по смешанной модели с несколькими режимами). Идеально подходит для алгоритмов прогнозирования черного ящика. Достаточно хорошо аппроксимирует линейную регрессию, но он гораздо более надежен и работает, когда допущения традиционной регрессии (некоррелированные переменные, нормальные данные, гомоскедастичность) нарушаются.
Примечание: регрессия складного ножа не имеет никакого отношения к складочному ножу Брэдли Эфрона, бутстрапу и другим методам повторной выборки, опубликованным в 1982 году; на самом деле это не имеет ничего общего с методами повторной выборки.
Читайте другие статьи в нашем Блоге.