# Bot check

# HW_ID: phds_hw2
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то

# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler


import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
sns.set_theme(palette='Set2')

data = pd.read_csv('breast_cancer_disbalances.csv')
data.head()

...

fig, axs = plt.subplots(1, 2, figsize=(10, 5))
data.groupby("Class")['Bare Nuclei'].hist(ax=axs[0], alpha=0.5)
data.groupby("Class")['Bare Nuclei'].plot(kind='kde', ax=axs[1])
axs[0].set_title('Гистограмма для Bare Nuclei', fontsize=20)
axs[1].set_title('KDE для Bare Nuclei', fontsize=20);

data = pd.read_csv('asteroid_cut.csv')
data.info()

fig, axs = plt.subplots(1, 2, figsize=(10, 5))
data.groupby("pha")['rms'].hist(ax=axs[0], density=True)
data.groupby("pha")['rms'].plot(kind='kde', ax=axs[1])
axs[0].set_title('Гистограмма для H', fontsize=20)
axs[1].set_title('KDE для H', fontsize=20);

features = ['epoch', 'ma', 'tp', 'rms']

...

X = ...
y = ...
X_train, X_test, y_train, y_test = ...

...

...

...

original = <...>.value_counts() # Колонка таргета из изначального датасета
train = <...>.value_counts() # Колонка таргета из тренировочного датасета
test = <...>.value_counts() # Колонка таргета из тестового датасета

fig, axes = plt.subplots(1, 3, figsize=(15, 5))
sns.barplot(x=original.index, y=original, ax=axes[0], palette=['blue'])
axes[0].set_title('Распределение классов в data')
axes[0].set_ylabel('Количество')

sns.barplot(x=train.index, y=train, ax=axes[1], palette=['green'])
axes[1].set_title('Распределение классов в train')

sns.barplot(x=test.index, y=test, ax=axes[2], palette=['orange'])
axes[2].set_title('Распределение классов в test')

plt.show()

...

threshold = ...
class_weights = {<класс_1>: threshold, <класс_2>: 1 - threshold}
# если использовать class_weights = 'balanced' модель сама подсчитает веса

weighted_model = LogisticRegression(class_weight=class_weights, random_state=0)
...

accuracy = ...
print(f"accuracy = {accuracy}")

penguins = pd.read_csv('penguins.csv')
penguins.head()

cat_features = [...]

onehotencoder = ...
encoded = pd.DataFrame(onehotencoder.fit_transform(...), dtype=int)

penguins_encoded = penguins.drop(cat_features, axis=1).join(...)
penguins_encoded = penguins_encoded.rename(str, axis="columns")

penguins_encoded.head()

X = penguins_encoded.drop('body_mass_g', axis=1)
y = penguins_encoded['body_mass_g']
X_train, X_test, y_train, y_test = ...

class MyLinearRegression:
    """
    Класс, реализующий линейную регрессию c помощью МНК.
    """

    def __init__(self):
        pass

    def fit(self, X, Y):
        """
        Функция обучения модели.

        Предполагается модель Y = X * theta + epsilon.
        где X --- регрессор (матрица размера n x d),
        Y --- отклик (матрица размера n x 1),
        epsilon-ы имеют нормальное распределение

        Обратите внимание, здесь нет intercept_
        """

        self.n, self.d = X.shape[0], X.shape[1]

        self.theta = МНК-оценка

        return ...


    def predict(self, X):
        """
        Возвращает предсказание отклика на новых объектах X.

        X --- матрица объектов размера n x d
        """

        y_pred =  ...
        return ...

MyModel = ...

...

...

...

Phystech@DataScience ¶

Домашнее задание 2¶

Легкая часть¶

Задача 1¶

1. Загрузка данных и предобработка¶

Профиль биология¶

Профиль физика¶

2. Обучение модели¶

Задача 2¶

Датасет penguins¶

Задача 3¶

Phystech@DataScience¶

Домашнее задание 2¶

Легкая часть¶

Задача 1¶

1. Загрузка данных и предобработка¶

Профиль биология¶

Профиль физика¶

2. Обучение модели¶

Задача 2¶

Датасет penguins¶

Задача 3¶

Phystech@DataScience ¶