CÓD.S03-05 ONLINE

Generación de datos de entrenamiento a partir de imágenes sintéticas para algoritmos de esquivación de objetos basados en machine learning

El aprendizaje automático (machine learning) es capaz de dotar a los vehículos aéreos no tripulados (UAVs) de cierta inteligencia artificial para sus funciones de navegación autónoma. Una de las principales funciones que un UAV debe ser capaz de solventar es la evasión de objetos, en la cual se centrará este trabajo utilizando una red neuronal.

Para el adecuado entrenamiento de cualquier red neuronal se precisa gran cantidad de información. En este caso, imágenes de paisajes diversos que han de ser capturadas desde el vehículo en movimiento. Entonces, con el fin de salvaguardar la integridad del dron, los entornos virtuales utilizados en videojuegos serán de gran ayuda para generar imágenes sintéticas. Esto permitirá obtener secuencias de imágenes también en ambientes en los que sería impensable volar un dron como, por ejemplo, la superficie lunar o cualquier lugar desconocido e inaccesible a día de hoy. En particular, se ha utilizado el motor gráfico Unreal Engine, en combinación con el plugin Airsim, que embebe el movimiento del dron dentro del paisaje virtual y permite configurar el formato de adquisición de imágenes.

Para generar los datos de entrenamiento de la red neuronal se parte de las imágenes anteriores cuyos píxeles codificarán la profundidad y, por tanto, se obtendrá un indicador de la probabilidad de colisión. De esta manera se dará solución a uno de los principales problemas en algoritmos de machine learning, conocido como transfer learning. En muchas aplicaciones, las redes neuronales aprenden características muy concretas de los elementos como texturas, colores o composiciones, que posteriormente merman la versatilidad de la red neuronal. En este caso, la imagen se codificará en escala de grises con el fin de que la red neuronal aprenda a diferenciar las geometrías que vayan apareciendo, insensibilizando su respuesta ante colores o texturas.

Con el fin de automatizar la generación del ground-truth, se han desarrollado tres algoritmos de segmentación, que generan como salida el punto (coordenadas X-Y) óptimo o de menor probabilidad de colisión. Los tres algoritmos (centro de masas, regresión, y sectorización) utilizan fórmulas físicas y estadísticas para el cálculo del centro de masas, o el cálculo de líneas de regresión utilizadas para la identificación de la posición y dirección de los píxeles de colisión. Finalmente se compararán los resultados de cada ellos en una red neuronal ResNet-8 que como salida arroje un punto objetivo dentro del área visualizada desde el UAV donde se estime la menor probabilidad de colisión.

Palabras clave

Airsim Cnn Dataset Ground Truth. Neural Network Python Unreal Engine Visión Estereoscópica Visual Studio

Ponencia Online

Documentación de apoyo a la presentación ONLINE de la ponencia

Ver el video en youtube


Firmantes

Los autores de la ponencia

profile avatar

David Villota

Ver Perfil


Preguntas y comentarios al autor/es

Hay 2 comentarios en esta ponencia

    • profile avatar

      David Villota

      Comentó el 05/05/2021 a las 21:43:54

      Buenas Ana Isabel,
      Muchas gracias por tu comentario,
      Partiendo de que la imagen de profundidad esta codificada en escala de grises, es decir 0-255 (0-Negro, 255- Blanco). En esta aplicación en concreto se corresponde de la siguiente forma:
      - 0 metros-> 255
      - 100 metros -> 0
      Para determinar los píxeles de colisión, se utiliza un umbral determinado por la dinámica del dron. En este caso esta fijado en 24 m.

      Respecto a la segunda parte de tu pregunta, la verdad hasta ahora no se ha considerado significativo identificar aquellos píxeles que sin ser de colisión son determinados como tal por el algoritmo.
      Se considera que esos píxeles de no ser tratados como tal degradarían el funcionamiento del algoritmo al computar como "píxeles seguros" sin serlo.
      Si tienes alguna sugerencia de porqué sería útil calcularlo o estimarlo por favor transmítemela.

      Muchas gracias!

      Responder

    • profile avatar

      Ana Isabel Gálvez Gutiérrez

      Comentó el 05/05/2021 a las 12:05:33

      Buenas tardes, en primer lugar darle la enhorabuena por la presentación. Quería preguntarle a qué distancia del objeto es capaz de reconocer los píxeles de colisión, y si se tiene alguna estimación del porcentaje de píxeles reconocidos como "de colisión" por el algoritmo y que realmente no lo son, es decir, que no pertenezcan al árbol pero la detección de contornos si identifique como objeto. Muchas gracias de antemano

      Responder


Deja tu comentario

Lo siento, debes estar conectado para publicar un comentario.