Введение в анализ данных
Организационная информация, цели, блоки курса, система оценивания, перезачеты и правила комфорта.
Цели курса
Основные
- Дать представление об анализе данных
- Обучить базовым инструментам анализа данных, включая python-библиотеки;
- Научить базовым принципам построения моделей
- Дать представление об особенностях современных AI-моделей
Вариативные
- Научить строить и обучать нейросетевые модели
- Дать базовое представление о компьютерном зрении и обработке естественного языка
- Рассказать о практическом смысле объектов теории вероятностей
- Научить базовой аналитике данных
Блоки курса
Основы анализа данных
- Выводы по данным, построение предсказательных моделей и их сравнение
- Метод ближайшего соседа для классификации и регрессии
- Линейная регрессия, интерпретация моделей, градиентный спуск.
- Python-библиотеки, необходимые для анализа данных
- Современные AI-модели, их особенности, построение.
Машинное обучение
- Логистическая регрессия, интерпретация моделей, калибровки вероятностей.
- Нейронные сети: построение и обучение, практика на PyTorch.
- Компьютерное зрение (CV), сверточные нейронные сети, классификация изображений.
- Обработка естественного языка (NLP), рекуррентные нейронные сети.
Аналитика
- Теория вероятностей на практике: практический смысл и применение.
- Прикладные вероятностные модели.
- Основы прикладной статистики, применение статистики для машинного обучения.
- Разведочный анализ данных (EDA)
- Профессия аналитик данных, основные задачи и обязанности.
Система оценивания
Оценка выставляется на основе скоров S, получить их можно выполняя домашние задания и отвечая на вопросы на лекциях.
Домашние задания после каждой лекции
- Баллы за задачи указаны в каждом задании. Суммарно за семестр можно получить примерно M≈1800 баллов. Точное значение числа M будет уточнено в течение семестра.
- Скоры за домашки определяются по формуле S_HW = 20*X/M, где X — сумма баллов за ДЗ, которую набрал студент в течение семестра.
- Тем самым, максимально можно получить до 20 баллов за семестр. Округление по правилам математики.
Ответы на тестовые вопросы во время лекции
- Время ответа 1-3 минуты.
- За каждый вопрос можно получить 0, 1 или 2 балла.
- Скоры за ответы S_Q получаются суммированием всех баллов и нормированием на 4. Округление по правилам математики.
Понижающие факторы
- 3 балла за каждый случай списывания в домашках (включая злоупотребление ИИ)
- 1 балл за каждый случай списывания тестов (включая использование ИИ)
- 3 балла в случае если по домашкам 1 блока набрано менее 20% баллов
- все случаи суммируются, сумму обозначим P
Итоговый скор
- Итоговый скор: S = S_HW + S_Q - P
- Возможные значения: 0 до 24
Что делать со скорами?
По курсу можно получить две оценки:
- Дисциплина “Введение в анализ данных”, 1 з.е., обязательна для ПМИ
- Дисциплина “Введение в анализ данных: доп. главы”, 1 з.е..
После получения итогового скора S каждый студент может самостоятельно выбрать две оценки S_1 и S_2 по соответствующим дисциплинам, при условии S_1 + S_2 = min(S, 20).
Самым топовым студентам по итогам курса будет специальный мерч “Затащил ВвАД” от команды ThetaHat 😊
Если студент получил S<3, он сдает тест на зачетной неделе. Максимальная оценка в таком случае — уд(3).
Перезачеты
Студент может перезачесть один или несколько блоков курса в случае, если он ранее где-либо изучал подобный материал.
Условия перезачета
До 14.02 включительно написать на почту thetahat@yandex.ru с темой "Перезачет ВвАД - блоки <список> - Фамилия Имя". Нужно предоставить следующую информацию:
- программу пройденного курса, которая покрывает не менее 80% программы блока
- подтверждение: сертификат или письмо от организатора курса
Перезачет происходит заменой домашних заданий и лекционных вопросов на самостоятельный анализ некоторого метода анализа данных или анализа научной литературы. Результат анализа нужно очно рассказать преподавателю и ответить на его вопросы. Условия обговариваются индивидуально.
Демонстрационное участие в оценке текстов, подробности на первой лекции.
В некоторых случаях в домашних заданиях возможны некоторые обязательные задачи.
Количество перезачетов предварительно ограничено 20 студентами. Увеличение возможно, но не гарантируется.
Правила комфорта
Мы стремимся создать комфортные условия для всех участников процесса: студенты, преподаватели, проверяющие.
На лекции
Постарайтесь задавать вопросы на занятии в тот момент, когда это актуально, не перебивая на полуслове. Другой вопрос лучше задать в перерыве или после занятия.
Общение в чате курса
Чат создан для коммуникации с командой курса и для развития классного сообщества. Пожалуйста, воздержитесь от токсичного общения, это не идет на пользу. Сообщения, грубо нарушающие принципы уважительного общения, будут удаляться.
При общении с проверяющими
В каком из случаев проверяющему больше захочется пойти навстречу автору вопроса?
Домашки
- Выдаются на следующий день после лекции. Дедлайн обычно ставится за 1 час до начала следующей лекции.
- Сдача домашних заданий только через Телеграм-бот.
- Об ратите внимание на общие правила выполнения домашних заданий, где собраны примеры типичных ошибок и причин снижения баллов.
- Также действуют правила допустимого использования ИИ при выполнении домашних заданий.
Переносы дедлайнов
Для переноса дедлайна по домашнему заданию необходимо написать техкоординатору с информацией о датах и подтверждением наличия уважительной причины.
Уважительные причины
- Медицинская справка с подписью и печатью.
- Приказ по институту об освобождении.
На сколько можно перенести?
На количество дней пересечения интервала выполнения задания и датам по справке от даты дедлайна или окончания справки.

Особенности проверки
- Первый этап. Проверка системой автоматической ИИ-проверки домашних заданий — ThetaGrader. Результаты этой проверки без указания баллов могут быть высланы студентам в качестве предварительных.
- Второй этап. Ручная допроверка результатов, включая валидацию, исправление, удаление замечаний и добавление новых.
- Третий этап. После рассылки результатов второго этапа студент может в течение недели задать вопросы проверяющему.
После ручной допроверки средний балл между проверяющими может немного разойтись. Такие случаи мы детектируем с помощью статистического критерия t-test.
Где курс будет полезен и где учитывается
DS-поток
- Публичная страница: DS-поток
- Необходимое условие: пройти курс Введение в анализ данных и получить скор S >= 16. Иначе говоря, получить две оценки “отлично”.
Также будет учитываться:
- Работа в семестре по курсу Введение в анализ данных, грамотное оформление ДЗ.
- Оценки по другим предметам, в особенности по Теории вероятностей.
Кафедра анализа данных (Яндекс)
- Сайт кафедры: Кафедра анализа данных
- Первый этап — очный письменный экзамен, он обязателен для всех. Следующие этапы при условии успешного прохождения очного экзамена:
Если за курс Введение в анализ данных получены две оценки “отлично”:
- блиц-собеседование
- мотивационное собеседование
Если студент попал в топ-5 по рейтингу DS-потока:
- автоматическое зачисление на кафедру
В других случаях
- блиц-собеседование
- техническое собеседование с задачами
- мотивационное собеседование
Дальнейшие курсы
Знания и навыки, полученные на курсе Введение в анализ данных, потребуются для успешного прохождения следующих дисциплин общей образовательной программы на 3-4 курсах:
- Математическая статистика
- Практикум по математической статистике
- Машинное обучение
- Методы оптимизации
- Случайные процессы
