Введение в анализ данных

Организационная информация, цели, блоки курса, система оценивания, перезачеты и правила комфорта.

Время:суббота 17:05–20:00
Начало:7 февраля 2026
Аудитория:Б Хим
Кафедра:дискретной математики

Цели курса

Основные

  • Дать представление об анализе данных
  • Обучить базовым инструментам анализа данных, включая python-библиотеки;
  • Научить базовым принципам построения моделей
  • Дать представление об особенностях современных AI-моделей

Вариативные

  • Научить строить и обучать нейросетевые модели
  • Дать базовое представление о компьютерном зрении и обработке естественного языка
  • Рассказать о практическом смысле объектов теории вероятностей
  • Научить базовой аналитике данных

Блоки курса

Основы анализа данных

  • Выводы по данным, построение предсказательных моделей и их сравнение
  • Метод ближайшего соседа для классификации и регрессии
  • Линейная регрессия, интерпретация моделей, градиентный спуск.
  • Python-библиотеки, необходимые для анализа данных
  • Современные AI-модели, их особенности, построение.

Машинное обучение

  • Логистическая регрессия, интерпретация моделей, калибровки вероятностей.
  • Нейронные сети: построение и обучение, практика на PyTorch.
  • Компьютерное зрение (CV), сверточные нейронные сети, классификация изображений.
  • Обработка естественного языка (NLP), рекуррентные нейронные сети.

Аналитика

  • Теория вероятностей на практике: практический смысл и применение.
  • Прикладные вероятностные модели.
  • Основы прикладной статистики, применение статистики для машинного обучения.
  • Разведочный анализ данных (EDA)
  • Профессия аналитик данных, основные задачи и обязанности.

Система оценивания

Оценка выставляется на основе скоров S, получить их можно выполняя домашние задания и отвечая на вопросы на лекциях.

Домашние задания после каждой лекции

  • Баллы за задачи указаны в каждом задании. Суммарно за семестр можно получить примерно M≈1800 баллов. Точное значение числа M будет уточнено в течение семестра.
  • Скоры за домашки определяются по формуле S_HW = 20*X/M, где X — сумма баллов за ДЗ, которую набрал студент в течение семестра.
  • Тем самым, максимально можно получить до 20 баллов за семестр. Округление по правилам математики.

Ответы на тестовые вопросы во время лекции

  • Время ответа 1-3 минуты.
  • За каждый вопрос можно получить 0, 1 или 2 балла.
  • Скоры за ответы S_Q получаются суммированием всех баллов и нормированием на 4. Округление по правилам математики.

Понижающие факторы

  • 3 балла за каждый случай списывания в домашках (включая злоупотребление ИИ)
  • 1 балл за каждый случай списывания тестов (включая использование ИИ)
  • 3 балла в случае если по домашкам 1 блока набрано менее 20% баллов
  • все случаи суммируются, сумму обозначим P

Итоговый скор

  • Итоговый скор: S = S_HW + S_Q - P
  • Возможные значения: 0 до 24

Что делать со скорами?

По курсу можно получить две оценки:

  • Дисциплина “Введение в анализ данных”, 1 з.е., обязательна для ПМИ
  • Дисциплина “Введение в анализ данных: доп. главы”, 1 з.е..

После получения итогового скора S каждый студент может самостоятельно выбрать две оценки S_1 и S_2 по соответствующим дисциплинам, при условии S_1 + S_2 = min(S, 20).

Самым топовым студентам по итогам курса будет специальный мерч “Затащил ВвАД” от команды ThetaHat 😊

Если студент получил S<3, он сдает тест на зачетной неделе. Максимальная оценка в таком случае — уд(3).

Перезачеты

Студент может перезачесть один или несколько блоков курса в случае, если он ранее где-либо изучал подобный материал.

Условия перезачета

До 14.02 включительно написать на почту thetahat@yandex.ru с темой "Перезачет ВвАД - блоки <список> - Фамилия Имя". Нужно предоставить следующую информацию:

  • программу пройденного курса, которая покрывает не менее 80% программы блока
  • подтверждение: сертификат или письмо от организатора курса

Перезачет происходит заменой домашних заданий и лекционных вопросов на самостоятельный анализ некоторого метода анализа данных или анализа научной литературы. Результат анализа нужно очно рассказать преподавателю и ответить на его вопросы. Условия обговариваются индивидуально.

Демонстрационное участие в оценке текстов, подробности на первой лекции.

В некоторых случаях в домашних заданиях возможны некоторые обязательные задачи.

Количество перезачетов предварительно ограничено 20 студентами. Увеличение возможно, но не гарантируется.

Правила комфорта

Мы стремимся создать комфортные условия для всех участников процесса: студенты, преподаватели, проверяющие.

На лекции

Постарайтесь задавать вопросы на занятии в тот момент, когда это актуально, не перебивая на полуслове. Другой вопрос лучше задать в перерыве или после занятия.

Общение в чате курса

Чат создан для коммуникации с командой курса и для развития классного сообщества. Пожалуйста, воздержитесь от токсичного общения, это не идет на пользу. Сообщения, грубо нарушающие принципы уважительного общения, будут удаляться.

При общении с проверяющими

В каком из случаев проверяющему больше захочется пойти навстречу автору вопроса?

“Объясните вашу претензию, почему вы мне сняли баллы, я же все сделал, я не согласен”
“Добрый день! По такой-то задаче вы написали ..., но я считаю ..., потому что ..., и у меня в работе написано …”

Домашки

Переносы дедлайнов

Для переноса дедлайна по домашнему заданию необходимо написать техкоординатору с информацией о датах и подтверждением наличия уважительной причины.

Уважительные причины

  • Медицинская справка с подписью и печатью.
  • Приказ по институту об освобождении.

На сколько можно перенести?

На количество дней пересечения интервала выполнения задания и датам по справке от даты дедлайна или окончания справки.

Переносы дедлайнов
Схема переноса дедлайна

Особенности проверки

  1. Первый этап. Проверка системой автоматической ИИ-проверки домашних заданий — ThetaGrader. Результаты этой проверки без указания баллов могут быть высланы студентам в качестве предварительных.
  2. Второй этап. Ручная допроверка результатов, включая валидацию, исправление, удаление замечаний и добавление новых.
  3. Третий этап. После рассылки результатов второго этапа студент может в течение недели задать вопросы проверяющему.

После ручной допроверки средний балл между проверяющими может немного разойтись. Такие случаи мы детектируем с помощью статистического критерия t-test.

Где курс будет полезен и где учитывается

DS-поток

  • Публичная страница: DS-поток
  • Необходимое условие: пройти курс Введение в анализ данных и получить скор S >= 16. Иначе говоря, получить две оценки “отлично”.

Также будет учитываться:

  • Работа в семестре по курсу Введение в анализ данных, грамотное оформление ДЗ.
  • Оценки по другим предметам, в особенности по Теории вероятностей.

Кафедра анализа данных (Яндекс)

  • Сайт кафедры: Кафедра анализа данных
  • Первый этап — очный письменный экзамен, он обязателен для всех. Следующие этапы при условии успешного прохождения очного экзамена:

Если за курс Введение в анализ данных получены две оценки “отлично”:

  • блиц-собеседование
  • мотивационное собеседование

Если студент попал в топ-5 по рейтингу DS-потока:

  • автоматическое зачисление на кафедру

В других случаях

  • блиц-собеседование
  • техническое собеседование с задачами
  • мотивационное собеседование

Дальнейшие курсы

Знания и навыки, полученные на курсе Введение в анализ данных, потребуются для успешного прохождения следующих дисциплин общей образовательной программы на 3-4 курсах:

  • Математическая статистика
  • Практикум по математической статистике
  • Машинное обучение
  • Методы оптимизации
  • Случайные процессы