# Bot check

# HW_ID: fpmi_ad6
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.

# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше.
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.
# Никакие значения в этой ячейке не влияют на факт сдачи работы.

import re
import time
from collections import Counter, OrderedDict
from string import punctuation
from typing import List

import matplotlib.pyplot as plt
import nltk
import numpy as np
import pandas as pd
import seaborn as sns
from IPython.display import clear_output
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from tqdm import tqdm

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.utils.rnn import pad_sequence
from torch.utils.data import DataLoader, Dataset

nltk.download("stopwords")
sns.set(style="whitegrid", palette="Set2")

device = (
    "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"
)

dataset = pd.read_csv("salary_data.csv")
dataset.head()

dataset.iloc[0]["FullDescription"]

def simple_tokenize(text: str) -> List[str]:
    """Базовая предобработка и токенизация по словам"""
    # Приведение к нижнем регистру
    text = ...
    # Убираем пунктуацию, заменяя её на пробел
    text = re.sub(r"[^\w\s]", " ", text)
    # Разбиваем текст на слова
    tokens = ...
    return tokens


stop_words = nltk.corpus.stopwords.words("english")  # стоп-слова
punc = list(punctuation)  # пунктуация

ordered_dict = ...

list(ordered_dict.items())[:10]

class Vocabulary:
    """
    Класс для создания и управления словарем токенов, обеспечивающий
    преобразование между токенами и их индексами.

    ...
    """

    ...


# Создание словаря
vocab = Vocabulary(ordered_dict)

unk_token = "<unk>"
pad_token = "<pad>"


def add_special_tokens(vocab: Vocabulary) -> Tuple[Vocabulary, int, int]:
    """
    Функция для добавления специальных токенов в словарь.
    Специальные токены:
        - <unk>: Токен для обозначения неизвестных слов.
        - <pad>: Токен для паддинга последовательностей.

    Параметры:
        vocab: Словарь Vocabulary для добавления специальных токенов.

    Возвращает:
        vocab: Обновленный словарь Vocabulary.
        unk_idx: Индекс токена <unk>.
        pad_idx: Индекс токена <pad>.
    """
    ...


vocab, UNK_IDX_EN, PAD_IDX_EN = ...
num_tokens = len(vocab)

class SalaryPredictionDataset(Dataset):
    """
    Класс датасета для предсказания зарплаты в формате torch.Dataset
    Элементами этого датасета должны быть пары (текст, таргет)
    """

    def __init__(self, texts: List[List[int]], target: List[float]):
        """
        Параметры.
        1) texts (list) — корпус токенизированных текстов, на котором будет
                          происходить обучение
        2) labels (list) — истинные метки текстов
        """
        ...

    def __len__(self) -> int: ...

    def __getitem__(self, idx: int) -> Tuple[List[int], float]: ...

def pad_collate(
    batch: List[Tuple[List[int], int]],
) -> Tuple[torch.Tensor, torch.Tensor]:
    """
    Формирует тензоры из токенизированных текстов и меток, а также
    дополняет последовательности токенов до максимальной длины в батче с UNK_IDX

    Параметры:
        batch: Список примеров, где каждый пример - кортеж из:
            - Списка индексов токенов
            - Целевая переменная

    Возвращает:
        Кортеж содержащий:
            - Тензор текстов с паддингом, shape = (batch_size, max_len)
            - Тензор целевых переменных, shape = (batch_size,)
    """
    texts, targets = zip(*batch)

    ...
    return texts_tensors, target_tensor

tokens = ...
target = ...

for i in range(3):
    print(f"Количество токенов в {i}-м тексте - {len(tokens[i])}:\n  ", end="")
    for token in tokens[i][:10]:
        print(token, end=", ")
    print("...\nТаргет:", target[i], "\n")

...

train_data = SalaryPredictionDataset(...)
valid_data = SalaryPredictionDataset(...)
len(train_data), len(valid_data)

...

BATCH_SIZE = ...

train_loader = ...
valid_loader = ...

class SimpleRNNRegressor(nn.Module):
    """Модель для задачи регрессии на основе RNN."""

    def __init__(
        self,
        num_tokens: int,
        emb_size: int = 512,
        hidden_size: int = 64,
    ):
        super(self.__class__, self).__init__()
        self.emb = nn.Embedding(...)
        self.rnn = nn.RNN(..., batch_first=True)
        self.regressor = nn.Linear(...)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        ...

        predictions = ...
        return predictions

def mse(preds: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
    """
    Возвращает среднеквадратичную ошибку модели.

    Параметры.
    1) preds — предсказания модели,
    2) y — истинные значения таргета.
    """

    return F.mse_loss(preds, y, reduction="mean")

def training_loop(
    model_instance: nn.Module,
    criterion,
    optimizer: torch.optim.Optimizer,
    n_epochs: int = 10,
):
    """
    Функция для обучения нейронной сети.

    Параметры.
    1) model_instance — обучаемая модель,
    2) Лосс для обучения модели
    3) Оптимизатор для обучения
    4) n_epochs — количество эпох.
    """
    ...

# У нас задача регрессии, будем использовать MSELoss
criterion = nn.MSELoss()

# Задайте параметры сети
model = SimpleRNNRegressor(...).to(device)
# Используем оптимизатор Adam, о нем вы сможете узнать на курсах DS-потока!
optimizer = torch.optim.Adam(model.parameters(), lr=0.005)

# Посмотрите на получившуюся модель
model

...

...

...

assert torch.cuda.is_available(), "для этой части понадобится GPU"

...

...

Введение в анализ данных ¶

Домашнее задание 6. Основы обработки текстов¶

Задача 1. Предсказание заработной платы¶

Задача 2. Использование LLM.¶

Введение в анализ данных¶

Домашнее задание 6. Основы обработки текстов¶

Задача 1. Предсказание заработной платы¶

Задача 2. Использование LLM.¶

Введение в анализ данных ¶