import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import sklearn
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold,\
                                    ShuffleSplit,\
                                    StratifiedKFold,\
                                    StratifiedShuffleSplit,\
                                    GroupKFold,\
                                    GroupShuffleSplit
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

import seaborn as sns
sns.set_theme(style='dark', font_scale=1.3)

import warnings
warnings.filterwarnings('ignore')

# Bot check

# HW_ID: phds_sem5
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.

# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше.
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.
# Никакие значения в этой ячейке не влияют на факт сдачи работы.

data = pd.read_csv("pulsar_data_train.csv")

data.head()

data.info()

data.isna().sum()

data = <...>

needed_columns = [' Mean of the integrated profile',
       ' Standard deviation of the integrated profile',
       ' Skewness of the integrated profile', ' Mean of the DM-SNR curve',
       ' Excess kurtosis of the DM-SNR curve']  # используем только эти столбцы

X = data[needed_columns]
y = data["target_class"]

y.value_counts()

sns.set_theme(font_scale=0.8)

plot = sns.PairGrid(data, x_vars=needed_columns, y_vars=needed_columns,
                    hue="target_class", diag_sharey=False)

plot.map_diag(sns.kdeplot)
plot.map_lower(sns.scatterplot, alpha=0.2)
plot.add_legend();

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

sklearn.metrics.get_scorer_names()

# словарь параметров
parameters_grid = {
    <...>
}

# задаем стратегию кросс-валидации
cv_strategy = <...>

# задаем имя метрики для максимизации, str
scorer_name = <...>

# задаем модель
model = DecisionTreeClassifier()

# # определяем поиск по сетке
# search = RandomizedSearchCV(
#     # модель для обучения
#     estimator=model,
#     # сетка значений гиперпараметров
#     param_distributions=parameters_grid,
#     # сколько комбинаций признаков будет проверено
#     n_iter=<...>
#     # метрика качества, можно задать строкой
#     scoring=scorer_name,
#     # GridSearchCV, RandomizedSearchCV отлично параллелятся на несколько ядер
#     # n_jobs=-1 означает, что мы используем все доступные ядра
#     n_jobs=-1,
#     # стратегия кросс-валидации
#     cv=cv_strategy,
#     # сообщения с логами обучения: больше значение - больше сообщений
#     verbose=10,
#     # значение, присваиваемое scorer в случае ошибки при обучении
#     error_score='raise'
# )


# # определяем поиск по сетке
# search = GridSearchCV(
#     # модель для обучения
#     estimator=model,
#     # сетка значений гиперпараметров
#     param_grid=parameters_grid,
#     # метрика качества, можно задать строкой
#     scoring=scorer_name,
#     # GridSearchCV, RandomizedSearchCV отлично параллелятся на несколько ядер
#     # n_jobs=-1 означает, что мы используем все доступные ядра
#     n_jobs=-1,
#     # стратегия кросс-валидации
#     cv=cv_strategy,
#     # сообщения с логами обучения: больше значение - больше сообщений
#     verbose=10,
#     # значение, присваиваемое scorer в случае ошибки при обучении
#     error_score='raise'
# )

%%time
# выполняем поиск по сетке
# обучаем, конечно, не тренировочной части данных
search.fit(X_train, y_train)

<...>

<...>

best_tree = <...>

<...>

<...>

Phystech@DataScience ¶

Валидация и метрики качества¶

1. Cкачаем датасет о предсказании пульсаров.¶

2. Предобработаем данные.¶

3. Графики¶

4. Разделим датасет¶

5. Подберем оптимальные гиперпараметры¶

Phystech@DataScience¶

Валидация и метрики качества¶

1. Cкачаем датасет о предсказании пульсаров.¶

2. Предобработаем данные.¶

3. Графики¶

4. Разделим датасет¶

5. Подберем оптимальные гиперпараметры¶

Phystech@DataScience ¶