Логистическая регрессия

Innen: testwiki
Ugrás a navigációhoz Ugrás a kereséshez

Sablon:Rusf

  1. Sablon:Label logisztikus regresszió

Логистическая регрессия – конспект

1. Введение 📌 Логистическая регрессия – это метод машинного обучения и статистики, используемый для решения задач бинарной классификации (да/нет, 0/1, истина/ложь).

📌 В отличие от линейной регрессии, логистическая регрессия предсказывает вероятность принадлежности объекта к классу.

📌 Используется в медицине, финансах, маркетинге, распознавании изображений, прогнозировании событий.

2. Основная идея логистической регрессии 🔹 Прогнозирует вероятность события P(y = 1 | X). 🔹 Для этого использует сигмоидную функцию (логистическую функцию):

σ(z)=11+ez

где: - z=w0+w1x1+w2x2+...+wnxn – линейная комбинация признаков. - σ(z) – вероятность принадлежности к классу 1. - w – веса модели, которые настраиваются при обучении.

📌 Интерпретация результата: - Если P(y=1)>0.5 → относим к классу 1. - Если P(y=1)<0.5 → относим к классу 0.

📌 Пример: - Если вероятность болезни 0.9 (90 - Если вероятность банкротства клиента 0.3 (30

3. Функция потерь и обучение модели

3.1. Функция потерь (Log Loss, кросс-энтропия) Логистическая регрессия минимизирует логарифмическую функцию потерь:

J(w)=1mi=1m[yilog(y^i)+(1yi)log(1y^i)]

где: - yi – реальное значение (0 или 1). - y^i – предсказанная вероятность. - m – количество примеров.

📌 Идея: чем ближе предсказанная вероятность к истинному классу, тем меньше ошибка.

3.2. Обучение модели Логистическая регрессия обучается методом градиентного спуска: 1️⃣ Вычисляем градиент функции потерь. 2️⃣ Обновляем веса w по формуле: w=wαJ(w) где α – скорость обучения. 3️⃣ Повторяем, пока ошибка не минимизируется.

📌 Популярные оптимизаторы: SGD, Adam, Newton’s Method.

4. Вариации логистической регрессии

🔹 Бинарная логистическая регрессия – 2 класса (болен/здоров, платит/не платит). 🔹 Мультиклассовая (Softmax, One-vs-All) – для задач с 3+ классами (например, классификация фруктов). 🔹 Регуляризованная логистическая регрессия (L1, L2, ElasticNet) – защищает от переобучения.

5. Применение логистической регрессии

🚀 Медицина – диагностика болезней (есть/нет COVID-19). 🚀 Финансы – кредитный скоринг (вероятность дефолта). 🚀 Маркетинг – вероятность клика на рекламу (CTR). 🚀 Спам-фильтры – классификация писем (спам/не спам). 🚀 Прогнозирование оттока клиентов – кто уйдёт, кто останется.

📌 Пример: - Банк использует логистическую регрессию, чтобы определить, давать кредит клиенту или нет. - Больница применяет модель, чтобы оценить риск инфаркта у пациента.

6. Достоинства и недостатки

Плюсы: ✔ Простота и интерпретируемость. ✔ Быстрое обучение даже на больших данных. ✔ Хорошо работает на линейно разделимых данных.

Минусы: ⚠ Плохо работает на сложных нелинейных зависимостях. ⚠ Чувствительна к выбросам и коррелированным признакам. ⚠ Не работает, если классы плохо сбалансированы (решается балансировкой выборки).

📌 Решения: - Для сложных задач → использовать нейросети или SVM. - Для несбалансированных данных → upsampling/downsampling, взвешенные потери.

7. Итог 📌 Логистическая регрессия – простой и мощный алгоритм классификации, который широко применяется в медицине, финансах, маркетинге и анализе данных. 🚀📊

Sablon:Rusl