[ data scientist / portfolio ] open to work — q2 2026 planet earth  ·  sol-3  ·  orion arm  ·  milky way
Павел Смагло · DS & AI Automation

Не просто
обучаю модели —
довожу до продукта.

Data Scientist / спортивная аналитика · ML · CV · AI automation

Строю аналитические системы, ML-модели и автономные ИИ-архитектуры для спортивной индустрии. От разрозненного Excel — до единой системы принятия решений на основе данных.

Python PostgreSQL LightGBM SHAP YOLOv8 MediaPipe OpenCV PyTorch DataLens n8n OpenAI API LangChain RAG
( 01 )

Обо мне

Специализируюсь на превращении разрозненных данных спортивных федераций в управленческие решения.
pavel@ds ~ %
$ cat about.json

{
  "role": "Data Scientist & AI Automation Engineer",
  "focus": "Спортивная аналитика · ML · Computer Vision",
  "approach": "Полный цикл — от данных до продукта",
  "pm_exp": "5+ лет, бюджеты до 24 млн ₽",
  "superpower": "Не только модели, но и внедрение"
}

// пять лет управления проектами + пять лет в данных
// = ML-решения, которые реально доезжают до продакшена
PORTRAIT.ASCII
P. SMAGLO / 2026
⟶ LIVE
в продакшене
20+
проектов, доведённых до боевой среды с реальными пользователями.
в аналитической базе
3 M+
записей о спортсменах, тренерах, объектах и результатах.
рост ключевой метрики
300%
рост конверсии рассылок после сегментации на базе моделей.
что отличает
Пять лет управления проектами + пять лет в данных = ML-решения, которые действительно доезжают до продакшена, а не остаются в jupyter-ноутбуках.
( 02 )

Избранные кейсы

Пять проектов — от интерактивного дашборда для федерации до автономных ИИ-пайплайнов на n8n.
CASE 01 Data Engineering & Visualization

Карта развития водных видов спорта в России

Интерактивный аналитический дашборд для руководства Федерации водных видов спорта России: от разрозненных Excel-файлов до единой системы принятия решений на основе данных.

Проблема

Данные о спортсменах, тренерах, объектах и результатах хранились в десятках разных файлов и систем. На подготовку одного аналитического отчёта уходили недели ручной работы. Руководство не видело целостной картины развития отрасли.

Решение

  • Спроектировал реляционную БД (15+ таблиц, PostgreSQL) для объединения всех источников
  • Геокодирование — разместил более 3 600 бассейнов России на интерактивную карту
  • Комплексный индекс субъектов РФ из 124 абсолютных и 60 агрегированных показателей
  • Дашборд с рейтингами регионов, тепловыми картами и фильтрами
  • Система индексов: доступность инфраструктуры, кадры, массовость

Результат

Руководство получило инструмент для решений: видно, где инфраструктура перегружена, где недоиспользуется, какие регионы — драйверы. Возможность моделировать эффект от инвестиций.

Открыть дашборд
PythonPostgreSQL ClickHouseDataLens Power BIGeoJSON ETL
russwimming.ru/dev-map
DataLens dashboard
3M+
записей
в базе
10+
источников
данных
3 600+
бассейнов
на карте
CASE 02 Machine Learning & Interpretability

Предиктивная модель: кто выиграет медаль?

Модель, которая оценивает шансы каждого пловца на медаль по истории выступлений и динамике результатов.

Проблема

Федерация финансирует подготовку сотен спортсменов, но бюджет ограничен. Тренеры отбирают кандидатов интуитивно — субъективно и без единых критериев.

Решение

  • Сравнил четыре алгоритма ML и выбрал лучший по кросс-валидации (LightGBM)
  • Оптимизировал гиперпараметры за 40 итераций (RandomizedSearchCV)
  • Выявил 8 ключевых факторов из 13 через SHAP feature importance
  • Проверил влияние дисбаланса классов (SMOTE/SMOTENC) — потолок задаёт качество данных

Результат

Модель угадывает медалиста с точностью 91,6%. Пять главных факторов: текущий уровень, позиция среди сверстников, скорость прогресса, пиковая прогрессия, стабильность. Каждый прогноз с объяснением.

LightGBMSHAP scikit-learnRandomizedSearchCV SMOTEPython
shap_summary.ipynb
SHAP feature importance
91,6%
точность
прогнозов
5
факторов
успеха
4
модели
в сравнении
CASE 03 Computer Vision & Biomechanics NDA

Анализ техники спортсмена по видео

Система компьютерного зрения, которая строит цифровой скелет спортсмена по видеозаписи, измеряет углы в суставах и выявляет асимметрии движений.

Проблема

Тренер оценивает технику на глаз — но не замечает микро-асимметрии, которые снижают эффективность и повышают риск травм. Нужны объективные числа: углы, амплитуды, баланс сторон.

Решение

  • 17 ключевых точек тела в каждом кадре (YOLOv8 / MediaPipe)
  • Углы для каждого сустава с разбивкой по фазам движения
  • Автоматическое сравнение левой и правой стороны — сигнал об асимметриях
  • Экспорт в отчёт с графиками для анализа прогресса между тренировками

Результат

Тренеры получили объективные метрики вместо субъективной оценки. Спортсмены быстрее корректируют движения и снижают риск травм благодаря ранней диагностике дисбаланса.

YOLOv8MediaPipe OpenCVnumpy matplotlib
pose_analysis.mp4 · output
Pose estimation output
до 116
точек
скелета
24
графика
realtime
видео
за раз
CASE 04 Computer Vision & Object Detection

Детекция клеток крови на микроснимках

Нейросеть, которая находит и классифицирует эритроциты, лейкоциты и тромбоциты на фотографиях мазков крови — мгновенно и без участия лаборанта.

Проблема

Лаборанты вручную считают клетки крови под микроскопом — долго, утомительно и подвержено ошибкам. Один снимок занимает минуты, а их десятки в день.

Решение

  • Faster R-CNN (ResNet50-FPN v2), дообучен на микроснимках крови
  • Три класса в одном проходе: эритроциты, лейкоциты, тромбоциты
  • Transfer learning — адаптация за 10 эпох с весов ImageNet
  • Каждая клетка обведена рамкой с классом и confidence

Результат

Модель уверенно распознаёт клетки с confidence 0.9+. Один снимок — за секунду вместо нескольких минут ручного подсчёта. Готовая основа для интеграции в лабораторные системы.

Faster R-CNNResNet50-FPN PyTorchtorchvision Transfer Learning
blood_cells_detection.png
Blood cell detection
3
типа
клеток
0.9+
confidence
модели
~1s
на
снимок
CASE 05 AI Automation & Workflow Orchestration

ИИ-автоматизация бизнес-процессов

Сценарии на n8n, которые заменяют рутину: принимают документы, извлекают данные, формируют ответы, обновляют базы и отправляют результат — без участия человека.

Проблема

Команды тратят часы на повторяющиеся задачи: разбор документов, перенос данных между системами, подготовка типовых ответов. Каждая проста, но их сотни.

Что автоматизировано

  • Обработка входящих документов: файл → ИИ извлекает поля → база + CRM
  • ИИ-ассистенты с доступом к базе знаний (RAG)
  • ETL-пайплайны: API/таблицы/файлы → очистка → хранилище
  • Генерация документов по шаблону + данным за секунды

Как устроено

Каждый сценарий — визуальный пайплайн в n8n: триггер (webhook, расписание, файл) запускает цепочку шагов, ИИ обрабатывает данные, результат уходит в нужную систему. 24/7, без кода.

n8nOpenAI API RAGPostgreSQL WebhookREST API
n8n workflow · execution
▶ Trigger: новый файл в /inbox
1Извлечение текста из PDF
2GPT: классификация → счёт-фактура
3GPT: извлечение полей
4Запись в PostgreSQL
5Уведомление в Telegram
// выполнено за 3.2 сек · без участия человека
⚡ следующий файл через 00:00:12...
12+
сценариев
в проде
24/7
без участия
людей
0
строк кода
для юзера
( 03 )

Рабочий стек

Инструменты, в которых уверен и применяю в продакшене.
scikit-learnXGBoostLightGBMPyTorchSHAPpandasnumpyYOLOv8MediaPipeOpenCVmatplotlib scikit-learnXGBoostLightGBMPyTorchSHAPpandasnumpyYOLOv8MediaPipeOpenCVmatplotlib
OpenAI APILangChainRAGvector storefile-searchPostgreSQLClickHouseSQLETLGeoJSONn8n OpenAI APILangChainRAGvector storefile-searchPostgreSQLClickHouseSQLETLGeoJSONn8n
DataLensPower BILooker StudioPythonGitDockeraiogramGoogle ColabDBeaverFaster R-CNNTransfer Learning DataLensPower BILooker StudioPythonGitDockeraiogramGoogle ColabDBeaverFaster R-CNNTransfer Learning
Machine LearningComputer VisionAI & LLM Data EngineeringVisualizationInfra
( 04 ) — Let's talk

Есть задача
в данных 

Открыт к сотрудничеству и новым проектам в области данных и автоматизации. Отвечаю быстро — пишите в удобный канал.