Нашого клієнта зацікавив унікальний досвід українського ІТ-сектору в галузі обробки даних з дронів за допомогою AI. Назва організації-замовника та суттєві деталі розробки приховані через суворий NDA.



Команда клієнта займається обробкою/аналізом тисяч розвідувальних та геодезичних аерофотознімків. Раніше класифікація та маркування об’єктів на зображеннях здійснювалась вручну, тож на кожну вибірку йшло декілька днів. Понад те, аналіз здійснювався занадто повільно і не дозволяв ухвалювати оперативні рішення. Кастомне AI-рішення для супутникових та дрон-знімків мало вирішити ці проблеми.
У тісній співпраці з клієнтом ми підібрали відповідну готову архітектуру ШІ для реалізації комп'ютерного зору та взялися за її кастомізацію і навчання. Управління проєктом здійснювалось у рамках Agile-методології Scrum.
- Балансування датасету
При формуванні датасету для навчання моделі ми зіткнулися з нерівномірним розподілом об’єктів у вибірці: частина класів трапляються набагато частіше за інші. Наприклад, вантажівки фігурували на знімках в рази частіше, ніж гвинтокрили. Відтак датасет необхідно було балансувати та проводити додаткову розмітку.
- Врахування масштабів
AI-сервіси для розмітки та детекції аерофото мають враховувати специфіку зйомки: зображення для аналізу можуть суттєво відрізнятись за масштабом, роздільною здатністю, рівнем освітлення, погодними умовами тощо. Це ускладнює завдання ШІ та потребує додаткових коректив – як в датасеті, так і в самій моделі.
- Реальночасове розпізнавання об’єктів
Однією з головних вимог проєкту була можливість точної обробки великих масивів зображень в режимі реального часу. Таку швидкість наразі надають далеко не усі кастомні AI-моделі для супутникових знімків. Тож інференс нашої моделі необхідно було прискорити будь-якими можливими методами.
- Вибір оптимальної моделі
В основу продукту лягла новітня архітектура комп’ютерного зору YOLOv8, що виникла як рішення для ідентифікації об’єктів на знімках з дронів. Ми також використали трансферне навчання на попередньо тренованій моделі YOLOv8 та додатково навчали її на масиві зображень DOTA, який створено спеціально для роботи з дистанційним розпізнаванням.
- Налаштування моделі та цільові класи
Для максимальної точності команда реалізувала в моделі YOLOv8 кастомний головний шар та внесли зміни у конфігурацію класифікатора для цільових класів: літаки, вертольоти, цистерни, НПЗ, вантажівки порти тощо. Ми також забезпечили підтримку орієнтованих обмежувальних боксів (OBB), що було необхідним для ідентифікації об’єктів, зафільмованих під кутом.
- Пайплайн PyTorch YOLOv8 для комп’ютерного зору
Використання YOLOv8 для детекції об’єктів базувалось на пайплайнах зі стеку PyTorch (ядро ML), OpenCV (для обробки зображень аерофотозйомки) та FastAPI (для користувацького інтерфейсу). Ми реалізували FastAPI-пайплайн для обробки зображень з пакетною логікою, аби результати виведення могли автоматично зберігатися в базі даних для подальшого аналізу та візуалізації.
- Обробка та аналітика знімків
Аерофотознімки відрізняються за масштабами, джерелом та кутом зйомки, тож потребують особливої практики нормалізації та масштабування даних. Саме тому наш комп’ютерний зір забезпечує повернення точних координат обмежувальних боксів з мітками класів об'єктів на виході. Так система може застосовуватись для аналітики та розвідки з мінімальною ручною обробкою.
Кастомний штучний інтелект для аналізу аерознімків повністю виправдав очікування наших партнерів. В рамках процесу розробки пайплайну обробки зображень FastAPI розробники впровадили інструменти тестування та валідації, що показали такі показники точності: mAP@0.5 = 80%, precision = 0.82, recall = 0.80. Це дуже гідний результат у завданнях мультикласової детекції об’єктів на супутникових та повітряних знімках.
На тестовому наборі з тисячею зображень, де було позначено понад 200 тисяч об’єктів, модель продемонструвала стабільне та точне виявлення об'єктів на аерофотознімках без погіршення якості. І все це – практично в режимі реального часу: інференс для одного зображення в середньому складає 0,3 секунди. Така швидкість робить модель придатною не лише для AI-консалтингу з аеророзвідки, але й для оперативної аналітики й негайного ухвалення рішень.
Завдяки підходам трансферного навчання модель не вимагає ручного маркування нових наборів даних – достатньо додаткового навчання на невеликій кількості нових аерознімків. Підтримка орієнтованих обмежувальних боксів дозволила системі ефективно обробляти зображення, на яких об'єкти зафільмовані чи розташовані під кутом, що є типовим для реального аерофотографування.
Проєкт має величезний потенціал. Команда вже працює над його подальшим розвитком, що охоплює такі аспекти:
- Імплементація механізмів активного навчання – ШІ-модель буде здатна навчатись на помилках, виявлених під час операцій, без необхідності повного ручного анотування. Це врешті підвищить її точність;
- Інтеграція з платформами GIS та ситуаційними центрами – для використання моделі в реальних оперативних сценаріях – як у цивільному, так і в оборонному секторі;
- Додавання нових класів об'єктів – архітектура зможе адаптуватися до нових типів об’єктів, що є надзвичайно важливим в умовах мінливості завдань клієнта;
- Масштабування AI для аероспостереження та моніторингу через кластери GPU, що дозволить операторам системи обробляти великі архіви аерофотознімків ще швидше.

ваш бізнес!