Недостатки методов прогнозного моделирования

На основании моего мнения. Приглашаем к обсуждению. Обратите внимание, что большинство из этих методов развивались с течением времени (за последние 10 лет) до такой степени, что большинство недостатков было устранено — что делает обновленный инструмент значительно отличающимся и лучше, чем его первоначальная версия. Как правило, эти плохие методы все еще широко используются.

  1. Линейная регрессия. Полагается на нормальную, гетероскедастичность и другие допущения, не фиксирует сильно нелинейные, хаотические паттерны. Склонен к переоснащению. Параметры трудно интерпретировать. Очень нестабильно, когда независимые переменные сильно коррелированы. Исправления: уменьшение переменной, применение преобразования к вашим переменным, использование регрессии с ограничениями (например, регрессия Риджа или Лассо)
  2. Традиционные деревья решений. Очень большие деревья решений очень нестабильны и их невозможно интерпретировать, и они склонны к чрезмерной подгонке. Исправление: объединяйте несколько маленьких деревьев решений вместе вместо большого дерева решений.
  3. Линейный дискриминантный анализ. Используется для контролируемой кластеризации. Плохая техника, потому что она предполагает, что кластеры не перекрываются и хорошо разделены гиперплоскостями. На практике они никогда не делают. Вместо этого используйте методы оценки плотности.
  4. K-означает кластеризацию. Используется для кластеризации, имеет тенденцию производить круговые кластеры. Не работает с точками данных, которые не являются смесью гауссовых распределений. 
  5. Нейронные сети. Трудно истолковать, нестабильно, подвержено чрезмерной подгонке.
  6. Оценка максимального правдоподобия. Требует, чтобы ваши данные соответствовали заранее заданному вероятностному распределению. Не управляемый данными. Во многих случаях заранее заданное распределение Гаусса очень плохо подходит для ваших данных.
  7. Оценка плотности в больших габаритах. С учетом того, что называется проклятием размерности . Исправлено: использовать (непараметрические) оценки плотности ядра с адаптивной пропускной способностью.
  8. Наивный байесовский. Используется, например, для обнаружения мошенничества и спама, а также для оценки. Предполагается, что переменные являются независимыми, если нет, то с треском провалится. В контексте обнаружения мошенничества или спама переменные (иногда называемые правилами) имеют высокую корреляцию. Исправлено: группировать переменные в независимые кластеры переменных (в каждом кластере переменные сильно коррелированы). Применяйте наивный байесовский эффект к кластерам. Или используйте методы сокращения данных. Плохая техника интеллектуального анализа текста (например, базовые правила «слова» при обнаружении спама) в сочетании с наивным байесовским алгоритмом дает абсолютно ужасные результаты со многими ложными и ложными отрицаниями.

И не забывайте использовать надежные методы перекрестной проверки при тестировании моделей!

Дополнительные комментарии :

Причины, по которым такие плохие модели все еще широко используются:

  1. Многие учебные планы университетов по-прежнему используют устаревшие учебники, поэтому многие студенты не знакомы с лучшими методами обработки данных.
  2. Люди, использующие статистическое программное обеспечение черного ящика, не знающие ограничений, недостатков или того, как правильно настроить параметры и оптимизировать различные ручки, или не понимающие, что на самом деле производит программное обеспечение.
  3. Правительство вынуждает регулируемые отрасли (фармацевтика, банковское дело, Базель) использовать те же 30-летние процедуры SAS для статистического соответствия. Например, более эффективные методы оценки  кредитного рейтинга, даже если они доступны в SAS, не допускаются и произвольно отклоняются властями. То же самое касается анализов клинических испытаний, представленных в FDA, SAS является обязательным программным обеспечением, которое должно использоваться для обеспечения соответствия, позволяя FDA копировать анализы и результаты фармацевтических компаний.
  4. Современные наборы данных значительно сложнее и отличаются от старых наборов данных, которые использовались при первоначальной разработке этих методов. Короче говоря, эти методы не были разработаны для современных наборов данных.
  5. Не существует идеального статистического метода, который применим ко всем наборам данных, но есть много плохих методов.

Кроме того, плохая перекрестная проверка позволяет плохим моделям совершать разрез, переоценивая истинный подъем, ожидаемый в будущих данных, истинную точность или истинную рентабельность инвестиций за пределами учебного набора. Хорошие перекрестные проверки состоят в том, чтобы:

  • разбить ваш тренировочный набор на несколько подмножеств (тестовые и контрольные подмножества), 
  • включать различные типы клиентов и более свежие данные в контрольные наборы (чем в тестовые наборы)
  • проверить качество прогнозируемых значений на контрольных наборах
  • вычислить доверительные интервалы  для отдельных ошибок (ошибка, определенная, например, как | истинное значение минус прогнозное значение |), чтобы убедиться, что ошибка достаточно мала и не слишком изменчива (имеет небольшую дисперсию во всех наборах элементов управления)

Вывод

Я описала недостатки популярных методов прогнозного моделирования, которые используются многими практиками.