Логистическая регрессия
Логистическая регрессия – конспект
—
1. Введение 📌 Логистическая регрессия – это метод машинного обучения и статистики, используемый для решения задач бинарной классификации (да/нет, 0/1, истина/ложь).
📌 В отличие от линейной регрессии, логистическая регрессия предсказывает вероятность принадлежности объекта к классу.
📌 Используется в медицине, финансах, маркетинге, распознавании изображений, прогнозировании событий.
—
2. Основная идея логистической регрессии 🔹 Прогнозирует вероятность события P(y = 1 | X). 🔹 Для этого использует сигмоидную функцию (логистическую функцию):
где: - – линейная комбинация признаков. - – вероятность принадлежности к классу 1. - – веса модели, которые настраиваются при обучении.
📌 Интерпретация результата: - Если → относим к классу 1. - Если → относим к классу 0.
📌 Пример: - Если вероятность болезни 0.9 (90 - Если вероятность банкротства клиента 0.3 (30
—
3. Функция потерь и обучение модели
3.1. Функция потерь (Log Loss, кросс-энтропия) Логистическая регрессия минимизирует логарифмическую функцию потерь:
где: - – реальное значение (0 или 1). - – предсказанная вероятность. - – количество примеров.
📌 Идея: чем ближе предсказанная вероятность к истинному классу, тем меньше ошибка.
—
3.2. Обучение модели Логистическая регрессия обучается методом градиентного спуска: 1️⃣ Вычисляем градиент функции потерь. 2️⃣ Обновляем веса по формуле: где – скорость обучения. 3️⃣ Повторяем, пока ошибка не минимизируется.
📌 Популярные оптимизаторы: SGD, Adam, Newton’s Method.
—
4. Вариации логистической регрессии
🔹 Бинарная логистическая регрессия – 2 класса (болен/здоров, платит/не платит). 🔹 Мультиклассовая (Softmax, One-vs-All) – для задач с 3+ классами (например, классификация фруктов). 🔹 Регуляризованная логистическая регрессия (L1, L2, ElasticNet) – защищает от переобучения.
—
5. Применение логистической регрессии
🚀 Медицина – диагностика болезней (есть/нет COVID-19). 🚀 Финансы – кредитный скоринг (вероятность дефолта). 🚀 Маркетинг – вероятность клика на рекламу (CTR). 🚀 Спам-фильтры – классификация писем (спам/не спам). 🚀 Прогнозирование оттока клиентов – кто уйдёт, кто останется.
📌 Пример: - Банк использует логистическую регрессию, чтобы определить, давать кредит клиенту или нет. - Больница применяет модель, чтобы оценить риск инфаркта у пациента.
—
6. Достоинства и недостатки
✅ Плюсы: ✔ Простота и интерпретируемость. ✔ Быстрое обучение даже на больших данных. ✔ Хорошо работает на линейно разделимых данных.
❌ Минусы: ⚠ Плохо работает на сложных нелинейных зависимостях. ⚠ Чувствительна к выбросам и коррелированным признакам. ⚠ Не работает, если классы плохо сбалансированы (решается балансировкой выборки).
📌 Решения: - Для сложных задач → использовать нейросети или SVM. - Для несбалансированных данных → upsampling/downsampling, взвешенные потери.
—
7. Итог 📌 Логистическая регрессия – простой и мощный алгоритм классификации, который широко применяется в медицине, финансах, маркетинге и анализе данных. 🚀📊