import numpy as np

from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_curve,
    roc_auc_score,
    confusion_matrix,
    fbeta_score,
    precision_recall_curve,
    auc,
    average_precision_score,
    classification_report,
)
from sklearn.model_selection import train_test_split

import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="dark", font_scale=1.7)

X, y = make_blobs(
    n_samples=(500, 50),
    centers=[[2, 2], [-2, -2]],
    cluster_std=2.5,
    random_state=42,
)

plt.figure(figsize=(8, 5))
plt.title("Сгенерированная выборка")
plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8, cmap="Accent")
plt.grid()
plt.xlabel("Признак 1"), plt.ylabel("Признак 2")
plt.show()

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((385, 2), (165, 2), (385,), (165,))

clf = LogisticRegression(random_state=42)
clf.fit(X_train, y_train)

LogisticRegression(random_state=42)

LogisticRegression(random_state=42)

clf.coef_

array([[-0.57299364, -0.87707157]])

clf.intercept_

array([-2.07537329])

x0_grid, x1_grid = np.meshgrid(
    np.linspace(-10, 10, 2001), np.linspace(-10, 10, 2001)
)
ravel_grid = np.array([x0_grid, x1_grid]).reshape((2, 2001 * 2001)).T
prob_grid = clf.predict_proba(ravel_grid)
prob_grid = prob_grid[:, 0].reshape((2001, 2001))

plt.figure(figsize=(9, 9))
plt.pcolormesh(x0_grid, x1_grid, prob_grid, cmap="Oranges")
plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8, cmap="Accent")
plt.xlim((-10, 10))
plt.ylim((-10, 10))
plt.xlabel("Признак 1"), plt.ylabel("Признак 2")
plt.title("Предсказание вероятности класса");

accuracy = accuracy_score(y_test, clf.predict(X_test))
print(f"Accuracy = {accuracy:.3f}")

Accuracy = 0.927

matrix = confusion_matrix(y_test, clf.predict(X_test))
(TN, FP), (FN, TP) = matrix
print(f"TN = {TN}")
print(f"FP = {FP}")
print(f"FN = {FN}")
print(f"TP = {TP}")

TN = 145
FP = 4
FN = 8
TP = 8

precision = precision_score(y_test, clf.predict(X_test))
print(f"Precision = {precision:.3f}")

Precision = 0.667

recall = recall_score(y_test, clf.predict(X_test))
print(f"Recall = {recall:.3f}")

Recall = 0.500

precision_grid = np.linspace(0, 1, 100)[1:]
recall_grid = np.linspace(0, 1, 100)[1:]
precision_mesh, recall_mesh = np.meshgrid(precision_grid, recall_grid)
mean_values = (precision_mesh + recall_mesh) / 2
min_values = np.minimum(precision_mesh, recall_mesh)
f1_values = 2 * precision_mesh * recall_mesh / (precision_mesh + recall_mesh)

levels = np.linspace(0, 1, 15)

plt.figure(figsize=(8, 18))

plt.subplot(3, 1, 1)
plt.contour(precision_grid, recall_grid, min_values, levels=levels)
plt.xlabel("Precision")
plt.ylabel("Recall")
plt.title("Агрегация минимумом", y=1.01)

plt.subplot(3, 1, 2)
plt.contour(precision_grid, recall_grid, mean_values, levels=levels)
plt.xlabel("Precision")
plt.ylabel("Recall")
plt.title("Агрегация средним арифметическим", y=1.01)

plt.subplot(3, 1, 3)
plt.contour(precision_grid, recall_grid, f1_values, levels=levels)
plt.xlabel("Precision")
plt.ylabel("Recall")
plt.title("Агрегация средним гармоническим ($F_1$-мера)", y=1.01)

plt.tight_layout()
plt.show()

f1 = f1_score(y_test, clf.predict(X_test))
print(f"F1 = {f1:.3f}")

F1 = 0.571

fbeta = fbeta_score(y_test, clf.predict(X_test), beta=2)
print(f"FBeta-score (beta=2): {fbeta:.3f}")

FBeta-score (beta=2): 0.526

roc_auc = roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1])
print(f"AUC-ROC: {roc_auc:.3f}")

AUC-ROC: 0.929

fpr, tpr, thresholds = roc_curve(y_test, clf.predict_proba(X_test)[:, 1])

plt.figure(figsize=(6, 6))
plt.plot(fpr, tpr, lw=4, label="ROC curve")
plt.plot([0, 1], [0, 1])
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.grid(ls=":")
plt.title("ROC curve")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.show()

y_true = np.zeros(100_000)
y_score = np.arange(100_000)[::-1]
y_true[np.arange(10, 101, 10)] = 1
roc_auc_value = roc_auc_score(y_true=y_true, y_score=y_score)
print(f"AUC-ROC: {roc_auc_value:.5f}")

AUC-ROC: 0.99949

FPR = [0]*(n+1)
TRP = [0]*(n+1)
AUC = 0
for i in range(1, n+1):
    if y[i-1] == 1:
        FPR[i] = FPR[i-1]
        TPR[i] = TPR[i-1] + 1/m_plus
    else:
        FPR[i] = FPR[i-1] + 1/m_minus
        TPR[i] = TPR[i-1]
        AUC += 1/m_minus * TPR[i]

precisions, recalls, thresholds = precision_recall_curve(
    y_test, clf.predict_proba(X_test)[:, 1]
)

plt.figure(figsize=(8, 6))
plt.plot(recalls, precisions, lw=2, label="PR curve")
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.grid(ls=":")
plt.title("PR curve")
plt.xlabel("Recall")
plt.ylabel("Precision")
plt.show()

auc_pr = auc(recalls, precisions)
print(f"AUC-PR: {auc_pr:.3f}")

AUC-PR: 0.692

average_precision = average_precision_score(
    y_test, clf.predict_proba(X_test)[:, 1]
)
print(f"Average precision: {average_precision:.3f}")

Average precision: 0.698

X, y = make_blobs(
    n_samples=(500, 250, 50),
    centers=[[2, 2], [-2, -2], [2, -2]],
    cluster_std=2.5,
    random_state=42,
)

plt.figure(figsize=(8, 5))
plt.title("Сгенерированная выборка")
plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8, cmap="Accent")
plt.grid()
plt.xlabel("Признак 1"), plt.ylabel("Признак 2")
plt.show()

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)

clf = LogisticRegression(random_state=42)
clf.fit(X_train, y_train)

LogisticRegression(random_state=42)

LogisticRegression(random_state=42)

f1_micro = f1_score(y_test, clf.predict(X_test), average="micro")
print(f"F_1 (micro): {f1_micro:.3f}")

F_1 (micro): 0.821

f1_macro = f1_score(y_test, clf.predict(X_test), average="macro")
print(f"F_1 (macro): {f1_macro:.3f}")

F_1 (macro): 0.589

print(classification_report(y_test, clf.predict(X_test)))

              precision    recall  f1-score   support

           0       0.86      0.91      0.89       150
           1       0.77      0.79      0.78        75
           2       0.25      0.07      0.11        15

    accuracy                           0.82       240
   macro avg       0.63      0.59      0.59       240
weighted avg       0.79      0.82      0.80       240

Phystech@DataScience ¶

Метрики качества в задачах классификации¶

1. Построение модели¶

1.1. Данные¶

1.2. Модель¶

1.3. Результат¶

2. Метрики качества классификации (пороговые)¶

2.1. Accuracy (доля правильных ответов)¶

2.2. Confusion matrix (матрица ошибок)¶

2.3. Precision (точность)¶

2.4. Recall (полнота)¶

2.5. Precision vs. recall¶

2.6. $F_1$-мера¶

2.6.1. Обобщенная F-мера ($F_{\beta}$-мера)¶

3. Беспороговые метрики¶

3.1. Площадь под ROC-кривой (Area Under ROC Curve, AUC-ROC)¶

Алгоритм подсчета¶

3.2. Площадь под PR-кривой (Area Under PR Curve, AUC-PR)¶

4. Обобщение метрик классификации на многоклассовый случай.¶

Phystech@DataScience¶

Метрики качества в задачах классификации¶

1. Построение модели¶

1.1. Данные¶

1.2. Модель¶

1.3. Результат¶

2. Метрики качества классификации (пороговые)¶

2.1. Accuracy (доля правильных ответов)¶

2.2. Confusion matrix (матрица ошибок)¶

2.3. Precision (точность)¶

2.4. Recall (полнота)¶

2.5. Precision vs. recall¶

2.6. $F_1$-мера¶

2.6.1. Обобщенная F-мера ($F_{\beta}$-мера)¶

3. Беспороговые метрики¶

3.1. Площадь под ROC-кривой (Area Under ROC Curve, AUC-ROC)¶

Алгоритм подсчета¶

3.2. Площадь под PR-кривой (Area Under PR Curve, AUC-PR)¶

4. Обобщение метрик классификации на многоклассовый случай.¶

Phystech@DataScience ¶