Нашего клиента заинтересовал уникальный опыт украинского IT-сектора в области обработки данных с дронов с помощью AI. Название организации-заказчика и ключевые детали разработки скрыты по строгим условиям NDA.



Команда клиента занимается обработкой/анализом тысяч разведывательных и геодезических аэрофотоснимков. Ранее классификация и маркировка объектов на изображениях осуществлялась вручную, поэтому на каждую выборку уходило несколько дней. Более того, анализ осуществлялся слишком медленно и не позволял принимать оперативные решения. Кастомное AI-решение для спутниковых и дрон-снимков должно было решить эти проблемы.
В тесном сотрудничестве с клиентом мы подобрали подходящую готовую архитектуру ИИ для реализации компьютерного зрения, а затем приступили к ее кастомизации и обучению. Управление проектом осуществлялось в рамках Agile-методологии Scrum.
- Балансировка датасета
При формировании датасета для обучения модели мы столкнулись с неравномерным распределением объектов в выборке: часть классов встречаются гораздо чаще других. Например, грузовики фигурировали на снимках в разы чаще, чем вертолеты. Поэтому датасет необходимо было балансировать и проводить дополнительную разметку.
- Учет масштабов
AI-сервисы для разметки и детекции аэрофото должны учитывать специфику съемки: изображения для анализа могут существенно отличаться по масштабу, разрешению, уровню освещения, погодным условиям и т. д. Это усложняет задачу ИИ и требует дополнительных корректировок — как в датасете, так и в самой модели.
- Реальное распознавание объектов
Одним из главных требований проекта была возможность точной обработки больших массивов изображений в режиме реального времени. Такую скорость на сегодня предоставляют далеко не все кастомные AI-модели для спутниковых снимков. Поэтому инференс нашей модели необходимо было ускорить любыми возможными методами.
- Выбор оптимальной модели
В основу продукта легла новейшая архитектура компьютерного зрения YOLOv8, возникшая как решение для идентификации объектов на снимках с дронов. Мы также использовали трансферное обучение на предварительно обученной модели YOLOv8 и дополнительно обучали ее на массиве изображений DOTA, который создан специально для работы с дистанционным распознаванием.
- Настройка модели и целевые классы
Для максимальной точности команда реализовала в модели YOLOv8 кастомный главный слой и внесла изменения в конфигурацию классификатора для целевых классов: самолеты, вертолеты, цистерны, НПЗ, грузовики, порты и т. д. Мы также обеспечили поддержку ориентированных ограничительных боксов (OBB), что было необходимо для идентификации объектов, снятых под углом.
- Пайплайн PyTorch YOLOv8 для компьютерного зрения
Использование YOLOv8 для детекции объектов было основано на пайплайнах из стека PyTorch (ядро ML), OpenCV (для обработки изображений аэрофотосъемки) и FastAPI (для пользовательского интерфейса). Мы реализовали FastAPI-пайплайн для обработки изображений с пакетной логикой, чтобы результаты вывода могли автоматически сохраняться в базе данных для дальнейшего анализа и визуализации.
- Обработка и аналитика снимков
Аэрофотоснимки различаются по масштабам, источнику и углу съемки, так что требуют особой практики нормализации и масштабирования данных. Именно поэтому наше компьютерное зрение обеспечивает возврат точных координат ограничительных боксов с метками классов объектов на выходе. В результате система может применяться для аналитики и разведки с минимальной ручной обработкой.
Кастомный искусственный интеллект для анализа аэрофотоснимков полностью оправдал ожидания наших партнеров. В рамках процесса разработки пайплайна обработки изображений FastAPI разработчики внедрили инструменты тестирования и валидации, которые показали следующие показатели точности: mAP@0.5 = 80%, precision = 0.82, recall = 0.80. Это очень достойный результат в задачах мультиклассовой детекции объектов на спутниковых и воздушных снимках.
На тестовом наборе из тысячи изображений, где было отмечено более 200 тысяч объектов, модель продемонстрировала стабильное и точное обнаружение объектов на аэрофотоснимках без ухудшения качества. И все это – практически в режиме реального времени: инференс для одного изображения в среднем составляет 0,3 секунды. Такая скорость делает модель пригодной не только для AI-консалтинга по аэроразведке, но и для оперативной аналитики и немедленного принятия решений.
Благодаря подходам трансферного обучения модель не требует ручной маркировки новых наборов данных – достаточно дополнительного обучения на небольшом количестве новых аэрофотоснимков. Поддержка ориентированных ограничительных боксов позволила системе эффективно обрабатывать изображения, на которых объекты сняты или расположены под углом, что является типичным для реальной аэрофотосъемки.
Проект имеет огромный потенциал. Команда уже работает над его дальнейшим развитием, охватывающим следующие аспекты:
- Імплементація механізмів активного навчання – ШІ-модель буде здатна навчатись на помилках, виявлених під час операцій, без необхідності повного ручного анотування. Це врешті підвищить її точність;
- Інтеграція з платформами GIS та ситуаційними центрами – для використання моделі в реальних оперативних сценаріях – як у цивільному, так і в оборонному секторі;
- Додавання нових класів об'єктів – архітектура зможе адаптуватися до нових типів об’єктів, що є надзвичайно важливим в умовах мінливості завдань клієнта;
- Масштабування AI для аероспостереження та моніторингу через кластери GPU, що дозволить операторам системи обробляти великі архіви аерофотознімків ще швидше.

ваш бизнес!