Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2569
Language and Generative Models to Recognise Unknown Places for Autonomous Drones
Victoria Eugenia Vazquez Meza
Jose Martinez-Carranza
DELIA IRAZU HERNANDEZ FARIAS
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Place Recognition
Drone Delivery
Generative model
Stable Diffusion
CLIP
The e-commerce sector has seen a significant rise in package deliveries, presenting logistical challenges, particularly in what is known as the last-mile delivery problem. Urban disorganisation, absent customers at the target location, and difficulty in locating addresses contribute to inefficiencies. While couriers often rely on textual descriptions to find destinations, storing images of every location is impractical and raises privacy concerns. On the other hand, inspired by Amazon Prime Air, researchers have explored the use of drone delivery solutions. However, these systems are likely to face the same problems found in last-mile delivery; hence, it is of paramount importance to investigate novel methods to enable these drone couriers to become robust and effective when carrying out a drone delivery task autonomously. Motivated by the latter, in this thesis, we investigate the application of generative models to assist artificial agents, such as delivery drones or service robots, in visualising unfamiliar destinations solely based on textual descriptions. We explore the use of generative models, such as Stable Diffusion, and embedding representations, such as CLIP and VisualBERT, to compare generated images obtained from textual descriptions of target scenes with images of those scenes. Our research encompasses three key strategies: image generation, text generation, and text enhancement, the latter involving tools such as ChatGPT attempting to create concise textual descriptions for evaluation. The findings of this study contribute to an understanding of the impact of combining generative tools with multi-modal embedding representations to enhance the artificial agent’s ability to recognise unknown scenes that have not been visited previously. In addition, we propose a methodology aimed to compare, in real-time, generated images with the aforementioned methodology against images captured with a camera on board a drone, thus achieving an operation frequency between 4 to 7 Hz for online image processing, demonstrating the system’s feasibility for real-life drone delivery applications.
El sector del comercio electrónico ha experimentado un aumento significativo en la entrega de paquetes, presentando desafíos logísticos, particularmente en el problema de la entrega de última milla. La desorganización urbana, la ausencia de clientes en el lugar de entrega y la dificultad para localizar direcciones contribuyen a las ineficiencias. Aunque los mensajeros a menudo dependen de descripciones textuales para localizar destinos, almacenar imágenes de cada ubicación es impráctico y genera preocupaciones de privacidad. Por otro lado, inspirados por Amazon Prime Air, los investigadores han explorado el uso de soluciones de entrega con drones. Sin embargo, es probable que estos sistemas enfrenten los mismos problemas que se encuentran en la entrega de última milla; por lo tanto, es de suma importancia investigar métodos novedosos para permitir que estos mensajeros con drones sean robustos y efectivos al realizar una tarea de entrega con drones de manera autónoma. Motivados por esto, en esta tesis, investigamos la aplicación de modelos generativos para asistir a agentes artificiales, como drones de entrega o robots de servicio, en la visualización de destinos desconocidos basándose únicamente en descripciones textuales. Exploramos el uso de modelos generativos, como Stable Diffusion, y embeddings visuales (como se conoce el término en inglés) definidos como una función que mapea puntos de datos a un espacio de primitivas visuales que preserve de manera mensurable las estructuras de los datos, como CLIP y VisualBERT, para comparar imágenes generadas a partir de descripciones textuales de escenas objetivo con imágenes de esas escenas. Nuestra investigación abarca tres estrategias clave: generación de imágenes, generación de texto y mejora de texto, esta última utilizando herramientas como ChatGPT en un intento por crear descripciones textuales concisas para la evaluación. Los hallazgos de este estudio contribuyen a la comprensión del impacto de combinar herramientas generativas con representaciones de incrustaciones multimodales para mejorar la capacidad del agente artificial de reconocer escenas desconocidas que no han sido visitadas previamente. Además, proponemos una metodología destinada a comparar, en tiempo real, imágenes generadas con la metodología mencionada anteriormente contra imágenes capturadas con una cámara a bordo de un dron, logrando así una frecuencia de operación promedio de 18 Hz para el procesamiento de imágenes en línea.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2024
Tesis de maestría
Inglés
Estudiantes
Investigadores
Público en general
Vázquez Meza V. E., (2024), Language and Generative Models to Recognise Unknown Places for Autonomous Drones, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
OTRAS ESPECIALIDADES TECNOLÓGICAS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
VAZQUEZMVE_MCC.pdf17.77 MBAdobe PDFVisualizar/Abrir