для студентов · МФТИ

DS-поток — чтобы думать, а не угадывать

Большинство программ по Data Science либо чисто теоретические, либо прикладные под тренды. DS-поток — это связка теории с практикой: здесь изучаются разные подходы, решаются задачи на каждую тему и формируется фундамент, который не ломается со временем.

Нагрузка высокая — да. Зато на выходе появляется навык широко мыслить и находить нестандартные решения.

Для кого и какие знания нужны

Про требования на входе и кому будет комфортно учиться на DS-потоке.
для кого
  • Студенты МФТИ от 3 курса, которым интересен анализ данных, машинное, глубокое обучение и работа с реальными задачами.
  • Те, кто хочет системные качественные курсы с подробными материалами и последовательным изложением.
  • Те, кто хочет не просто «освоить инструменты», а понять, как и почему работают методы.
  • Те, кому важно учиться мыслить и находить нестандартные решения.
  • Те, кто готов к высокой учебной нагрузке и системной работе в течение семестра.
  • Студенты, планирующие дальнейшее развитие в DS, ML, аналитике или смежных направлениях.
какие знания предполагаются
  • Базовая математика на уровне 1–2 курсов ФПМИ.
  • Теория вероятностей и понимание базовых статистических понятий.
  • Уверенное владение Python на уровне написания функций, работы с библиотеками и простого анализа данных.
  • Пройденный курс «Введение в анализ данных» или «Phystech@DataScience».

Как поступить

Базовое условие: учиться в бакалавриате МФТИ.

ФПМИ
1
Сдать «Введение в анализ данных» на «отлично».
2
По итогам курса заполнить заявку на DS-поток.
3
Ждать результаты отбора.
4
Подписать перевод на учебную программу.
другие физтех-школы
2
По итогам курса заполнить заявку на DS-поток.
3
Пройти собеседование.
4
Ждать результаты отбора.

После очередного семестра можно отказаться от дальнейшего прохождения программы.

Почему DS-поток?

Прочный фундамент теории и практики плюс современные темы, которые реально нужны сейчас.
главный тезис

DS-поток — это про системность: мы опираемся на сильный физтеховский фундамент, не боимся сложной математики и выстраиваем не узкий мостик между теорией и практикой, а целостную картину: от доказательств и ограничений метода до его устойчивого применения на реальных данных.

  • по полной используем физтеховскую теоретическую базу: формулировки, предположения, доказательства и аккуратные выводы
  • темы подбираются не «потому что так принято», а потому что они полезны в современной практике и/или науке
  • программа регулярно обновляется: мы пересматриваем материал, когда меняется реальный ландшафт Data Science
  • у каждой темы есть практическое задание, поэтому студенты не просто слушают материал, а обязательно пробуют его руками

Глубокая теория

Фундамент, который не устаревает: статистика, модели, постановка задач и математическая оптика на методы.

Современные темы

От A/B и CI до ADL, генеративных моделей и распределённого обучения — без застревания в старом учебном каноне.

Практика по каждой теме

Мы не рассказываем темы «просто так»: по каждой теме есть домашние задания, разбор ошибок и доработка решений.

Чем DS-поток отличается

Про посыл: не модно, не круто — а фундамент + практика + широта.
формула
  • В меру глубокая теория, всегда в связке с практикой
  • Разные подходы в анализе данных — от базовых до современных
  • Широкий круг задач и практические задания на каждую тему
  • Высокие нагрузки, которые конвертируются в результат
почему это важно

Обычно программы делятся на две крайности: фаршированный гусь теории или прикладное под сейчас. DS-поток — это третья опция.

Согласованные линейки статистики, ML и DL — чтобы оно складывалось в систему.

ML или аналитика?

И то, и другое — и главное: как их совмещать в одном решении.
Не только "DL"Для узкой специализации есть курсы. Здесь — фундамент и широта.
Сильный специалистразвит во всех скилах, но с доминирующими — DS-поток помогает это выстроить.
Пересечение областейстроить сложную ML-модель и прикручивать продвинутую аналитику.

План обучения

Сопоставление
4 семестра — от базы к продвинутым темам. Ниже — укрупнённо, по фактам.
5 семестрфундамент

В 5 семестре закладывается база: сильная статистика и системное машинное обучение с выходом в CV и NLP.

статистика
  • оценки параметров и доверительные интервалы, непараметрическое оценивание
  • комплексный подход к обучению проверке статистических гипотез
  • статистические свойства линейных моделей — теоретическое ядро методов A/B-тестирования
  • теория наилучших оценок и доказательство важных для практики теорем
машинное обучение
  • теория регуляризации, валидация моделей
  • случайный лес и градиентный бустинг, разбор продвинутых пакетов
  • теория и оптимизация нейросетей, обучение PyTorch
  • Computer Vision: классификация изображений, задачи сегментации и детекции
  • основы NLP, эмбеддинги, рекуррентные сети, языковые модели
6 семестрпродвинутые треки

В 6 семестре появляются целостные продвинутые блоки по современным направлениям Data Science и аналитики.

ADL

трансформеры в NLP и CV; техники обучения больших языковых моделей; визуально-языковые модели; Retrieval Augmented Generation; распределённое обучение; профилирование и оптимизация нейросетей; графовые нейросети

AB

современное A/B-тестирование, обучение критериев, понижение дисперсии, ratio-метрики, многовыборочные тесты. Aboba

CI

графовые модели, теория и практика propensity score, модели при жёстких ограничениях, uplift-моделирование

TS

временные ряды: классические и современные нейросетевые подходы, случайные процессы, последовательный анализ

BS

байесовский подход к статистике, теория и практика методов MCMC, байесовские A/B-тесты, байесовская оптимизация

7–8 семестрadvanced

В 7–8 семестрах добавляются продвинутые вероятностные и генеративные модели, RL, ranking и retrieval, а также собственные проекты и исследовательская практика.

вариационные байесовские модели

EM-алгоритм, вариационный вывод и его приложения, теория и практика Pyro, байесовские нейросети

генеративные модели

VAE, GAN, диффузионные модели, теория диффузионных моделей

продвинутые направления
  • обучение с подкреплением: MDP и его свойства, value-based и policy-based методы; семейство методов TRPO и их применение к LLM
  • методы Learning-to-Rank; классические и нейросетевые подходы к RecSys
  • метрическое обучение: контентный retrieval, распознавание лиц
  • распознавание речи
практика и проекты
  • практика изучения научных тем и воспроизведения статей
  • собственные практические проекты с менторством и решение kaggle-соревнований
  • написание научпоп-текстов по итогам своей работы: примеры

Цифры, чтобы понимать масштаб

за 4 семестра
120+
домашних заданий за всю траекторию — чтобы реально научиться решать
Это не «послушал лекции» — это постоянная практика + разбор ошибок.
100+
вопросов в боте за семестр
закрепляем темы до автоматизма
50
научных статей
разобраны студентами за время обучения
15
командных проектов
на реальных (или почти реальных) задачах
TOP-компании
где работают наши выпускники
Яндекс · T-Банк · Сбер · X5 · Авито
стало страшно от чисел?

Эти цифры про нагрузку и темп — входной уровень здесь не является решающим. При готовности учиться и работать результат обязательно придет!

Выпускники и студенты — про DS-поток

отзывы

«без шуток, впервые за время обучения на физтехе могу сказать, что нормально поняла и выучила предметы благодаря формату обучения и подаче материала!!»

Вероника Прохорова
Вероника Прохорова
студентка DS-потока, 4 курс

«На DS-потоке многие темы я именно понял, а не просто выучил формулировки. Науки о данных ты начинаешь "чувствовать", поэтому их становится легче применять на практике.»

Максим Иванов
Максим Иванов
студент DS-потока, 4 курс

«Самое ценное на DS-потоке – регулярные практические задания, постоянный индивидуальный фидбек, возможность исправлять свои ошибки»

Лидия Троешестова
Лидия Троешестова
выпускница DS-потока, студентка магистратуры ШАД + МФТИ

FAQ

Самые частые вопросы — коротко.