!pip install scikit-learn

import numpy as np
import matplotlib.pyplot as plt

# обратите внимание, что Scikit-Learn импортируется как sklearn
from sklearn import datasets
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# фиксируем seed для воспроизводимости результатов
random_state = 42

mnist = fetch_openml("mnist_784")

plt.figure(figsize=(15, 3))

for i in range(20):
    plt.subplot(2, 10, i + 1)
    plt.imshow(
        np.array(mnist["data"])[i].reshape(28, 28), cmap="gray"
    )  # выводим само изображение
    plt.title(
        f"Класс = {mnist['target'][i]}"
    )  # выводим истинные и предсказанные метки
    plt.axis("off")
plt.show()

digits = datasets.load_digits()

plt.figure(figsize=(15, 3))

for i in range(20):
    plt.subplot(2, 10, i + 1)
    plt.imshow(digits["images"][i], cmap="gray")  # выводим само изображение
    plt.title(
        f"Класс = {digits['target'][i]}"
    )  # выводим истинные и предсказанные метки
    plt.axis("off")
plt.show()

n_samples = len(digits["images"])
X, y = digits["images"].reshape(n_samples, -1), digits["target"]

X.shape, y.shape

((1797, 64), (1797,))

X_train, X_test, y_train, y_test = train_test_split(
    X, y, train_size=0.7, random_state=random_state
)

model = KNeighborsClassifier(n_neighbors=5, algorithm="brute")

model.fit(X_train, y_train)

KNeighborsClassifier()

KNeighborsClassifier()

y_pred = model.predict(X_test)

y_pred.shape, y_pred[:15]

((540,), array([6, 9, 3, 7, 2, 1, 5, 2, 5, 2, 1, 9, 4, 0, 4]))

def get_random_image(X, predicted_labels, real_labels):
    """Выбирает случайный элемент из выборки и возвращает матрицу изображения,
    метки класса, предсказанные моделью, и реальные.

    Принимает:
    * X - Матрица изображений.
    * predicted_labels - Массив предсказанных меток классов.
    * real_labels -  Массив реальных меток классов.
    Возвращает:
    * random_digit_image - Случайное изображение, преобразованное в матрицу размером 8x8.
    * random_digit_label - Предсказанная метка класса для выбранного изображения.
    * real_label - Реальная метка класса для выбранного изображения.
    """

    random_digit_number = np.random.randint(
        1, len(y_test)
    )  # выбираем случайный индекс из тестовой выборки
    random_digit_image = X[random_digit_number].reshape(
        int(np.sqrt(X.shape[1])), int(np.sqrt(X.shape[1]))
    )  # преобразуем вектор признаков обратно в матрицу
    random_digit_label = predicted_labels[
        random_digit_number
    ]  # предсказанная метка
    real_label = real_labels[random_digit_number]  # реальная метка

    return random_digit_image, random_digit_label, real_label

plt.figure(figsize=(13, 6))

for i in range(24):
    plt.subplot(3, 8, i + 1)
    image, predicted_label, real_label = get_random_image(
        X_test, y_pred, y_test
    )
    plt.imshow(image, cmap="gray")  # выводим само изображение
    plt.title(
        f"predicted = {predicted_label} \n real = {real_label}"
    )  # выводим истинные и предсказанные метки
    plt.axis("off")
plt.show()

score = accuracy_score(y_test, y_pred)
print(f"метрика accuracy = {score*100:.2f}%")

метрика accuracy = 99.26%

vals, counts = np.unique(y_train, return_counts=True)
naive_class = vals[np.argmax(counts)]
print(f"Самый популярный класс - {naive_class}")

Самый популярный класс - 1

y_pred = np.full(len(y_test), naive_class)
score = accuracy_score(y_test, y_pred)
print(f"метрика accuracy = {score*100:.2f}%")

метрика accuracy = 9.26%

Введение в анализ данных ¶

Распознавание рукописных цифр с помощью kNN¶

1. Датасет mnist¶

2. kNN классификация¶

3. Визуализация результатов¶

4. Метрика и качество модели¶

Введение в анализ данных¶

Распознавание рукописных цифр с помощью kNN¶

1. Датасет mnist¶

2. kNN классификация¶

3. Визуализация результатов¶

4. Метрика и качество модели¶

Введение в анализ данных ¶