Первый и самый критичный недостаток — "жадность" к данным. Глубокие нейронные сети, особенно архитектуры-трансформеры, показывают выдающиеся результаты только на огромных размеченных датасетах. Для сравнения: классические алгоритмы машинного обучения (например, градиентный бустинг на деревьях решений — XGBoost, LightGBM) часто достигают сопоставимой или даже лучшей точности на структурированных данных среднего объема (тысячи-десятки тысяч строк). Сбор и разметка данных для DL — это колоссальные затраты времени и денег. В нишевых доменах (медицинская диагностика редких заболеваний, промышленная дефектоскопия) таких данных может просто не существовать.
Следующая проблема — интерпретируемость, или "черный ящик". Решение, принятое моделью градиентного бустинга, можно проследить по цепочке правил в деревьях. Решение глубокой нейронной сети, особенно сверточной (CNN) или трансформера, интерпретировать крайне сложно. Методы объяснимого ИИ (XAI), такие как Grad-CAM или LIME, дают лишь приблизительные и не всегда устойчивые инсайты. В регулируемых отраслях (финансы, медицина, страхование) невозможность объяснить, почему модель отказала в кредите или поставила диагноз, является юридическим и этическим барьером для внедрения.
Вычислительная сложность и стоимость обучения. Обучение state-of-the-art модели с нуля требует GPU-кластеров и недель вычислений, что сопряжено с гигантскими энергозатратами и углеродным следом. Fine-tuning предобученных моделей дешевле, но все равно требует серьезных ресурсов. В то время как классические модели на структурированных данных могут быть обучены на CPU за минуты. С точки зрения MLOps, эксплуатация тяжелой DL-модели в реальном времени требует специальных inference-серверов (TensorFlow Serving, Triton), что усложняет пайплайн.
Хрупкость и адверсариальные атаки. Глубокие сети удивительно чувствительны к небольшим, незаметным для человека изменениям входных данных. Известный пример: добавление специфического шума к изображению панды заставляет модель с высокой уверенностью классифицировать его как гиббона. Для классических моделей на табличных данных такая проблема выражена меньше. Это делает DL-системы уязвимыми в критически важных приложениях, таких как беспилотные автомобили или системы безопасности.
Проблема обобщения (Out-of-Distribution, OOD). DL-модель блестяще работает на данных, распределение которых совпадает с обучающей выборкой, но может катастрофически ошибаться на данных даже с небольшими отклонениями. Модель, обученная на фотографиях собак, сделанных днем, может не узнать ту же собаку в сумерках. Классические методы часто более робастны к плавным изменениям распределения. Для DL борьба с OOD — это отдельное направление исследований (Out-of-Distribution detection), которое еще не дало универсальных решений.
Сравнивая с альтернативами, стоит отметить:
- Задачи на табличных данных: Ансамбли деревьев (Random Forest, Gradient Boosting) часто выигрывают у нейронных сетей по точности, скорости обучения, интерпретируемости и требуемому объему данных.
- Задачи с небольшими изображениями: Традиционные методы компьютерного зрения (SIFT, SURF) в комбинации с классификаторами могут быть эффективнее CNN при недостатке данных.
- Задачи обработки текста: Для простой классификации документов или извлечения сущностей методы на основе TF-IDF и линейных моделей (Logistic Regression) могут показать результат быстрее и дешевле, чем BERT.
Комментарии (16)