Введение в анализ данных
Время: суббота 17:05-20:00. Начало 7 февраля.
Курс проходит очно в БХим.
Кафедра дискретной математики.
Организационная информация будет объявлена на первой лекции.
Занятия
Занятие
Задачи анализа данных. Метод ближайшего соседа (kNN). Теория о данных, обучение и применение моделей. Сбор и разметка данных для обучения, примеры, идеи краудсорсинга. Занятие
Библиотеки для анализа данных: numpy, pandas, matplotlib. Занятие
Линейная регрессия методом наименьших квадратов. Градиентный спуск и стохастический градиентный спуск. Методы простой обработки признаков. Занятие
Модель логистической регрессии, свойства логистической сигмоиды. Интерпретация энтропии и кросс-энтропии на примере из теории информации. Обучение логистической регрессии градиентными методами. Интерпретация оценок коэффициентов и проверка линейности логита. Стратегии в многоклассовом случае. Занятие
Классификация изображений. Стандартное представление изображения. Свёртка, Pooling. Предсказание вероятности. Перенос стиля. Генерация произвольных изображений. Upsampling. GAN. Диффузионные модели. Обзор задач в CV. Занятие
Введение в NLP. Кодирование текстов: Bag of Words, Word2Vec. Основные модели: 1D-свертка, RNN, Large Language Models (LLM). Примеры задач. Занятие
Вероятностные распределения и их свойства с практической точки зрения, генерация случайных чисел. Свойство независимости на практике применительно к понятию выборки, пример выборки, не являющейся независи мой. Свойство отсутствия памяти. Пример исследования реальных данных, время ожидания автобуса по реальным данным. Марковские цепи. Занятие
Условное математическое ожидание и условные распределения. Байесовские классификаторы, наивный Байес. Примеры ложных корреляций в данных.