مورد إلكتروني

Lectura de labios mediante técnicas de Machine Learning

التفاصيل البيبلوغرافية
العنوان: Lectura de labios mediante técnicas de Machine Learning
بيانات النشر: Universitat Politècnica de València Hispana 2020-10-15
تفاصيل مُضافة: Martínez Hinarejos, Carlos David
Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
Gimeno Gómez, David
نوع الوثيقة: Electronic Resource
مستخلص: [ES] Durante una conversación nuestro cerebro se encarga de combinar información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de comprender el mensaje que estamos percibiendo. Diferentes estudios han demostrado la importancia que presenta la información visual en estas situaciones, así como su relación con los sonidos producidos. Como bien sabemos, la lectura de labios es una tarea compleja cuyo objetivo es interpretar el habla cuando el audio no se encuentra disponible. Al prescindir de un sentido tan crucial como es el oído, dado que esta señal presenta una mayor cantidad de información respecto al reconocimiento del habla, será necesario ser conscientes de los desafíos que presenta dicha carencia. El propósito de este proyecto consiste en construir las bases de un sistema capaz de imitar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Desde un punto de vista más amplio, nuestra tarea no se distingue sustancialmente de otras como pueden ser el reconocimiento automático del habla a partir del audio o el reconocimiento de texto manuscrito. En otras palabras, nos encontramos bajo el marco de las tecnologías del lenguaje. Por ello, nuestra experimentación se fundamenta en torno a los avances realizados en este ámbito, explorando, en nuestro caso, un sistema basado en Modelos Ocultos de Markov Continuos. No obstante, el núcleo central sobre el que se apoya nuestro proyecto es el estudio y análisis de las diferentes características visuales que pueden representar la naturaleza de los movimientos labiales, por lo que se ha requerido el empleo de técnicas relacionadas con la Visión por Computador. Además, para poder llevar a cabo el proyecto ha sido necesario estudiar la literatura al respecto, así como obtener un conjunto de datos propicio, los cuales pertenecen a un subconjunto del corpus RTVE empleado en las evaluaciones Albayzín de Tecnologías del Habla. Las aplicaciones de este tipo de sistem
[EN] During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations, as well as its relationship with the sounds produced. As we know, lip reading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, since this signal presents a greater amount of information regarding speech recognition, it will be necessary to be aware of the challenge that this lack presents. The purpose of this project is to build the foundations of a system capable of imitating the human ability to interpret speech by reading the lips of the interlocutor. From a broader point of view, our task is not substantially different from others, such as automatic speech recognition from audio or handwritten text recognition. In other words, we are under the framework of language technologies. Therefore, our experimentation is based on the advances made in this area, exploring, in our case, a system based on Continuous Hidden Markov Models. However, the central core on which our project is based is the study and analysis of the different visual characteristics that may represent the nature of lip movements. Consequently, the use of techniques related to Computer Vision has been required. In addition, in order to carry out the project, it has been necessary to study the literature on this topic, as well as to obtain a suitable data set, which belongs to a subset of the RTVE corpus, used in the Albayzín evaluations of Speech Technologies. The applications of this type of systems range from the transcription of ancient silent films (both focused on entertainment and historical documentation), to provide support for acoustic speech recognition when audio quality is impaired or corrupted, apart from the use of silent
[CA] Durant una conversació el nostre cervell s’encarrega de combinar informació procedent de múltiples sentits amb l’objectiu de millorar la nostra capacitat a l’hora de comprendre el missatge que estem percebent. Diferents estudis han demostrat la importància que presenta la informació visual en aquestes situacions, així com la seua relació amb els sons produïts. Com bé sabem, la lectura de llavis és una tasca complexa on l’objectiu és interpretar la parla quan l’àudio no està disponible. Al prescindir d’un sentit tan crucial com és l’oïda, ja que aquest senyal presenta una major quantitat d’informació respecte al reconeixement de la parla, caldrà ser conscients dels reptes que presenta aquesta carència. El propòsit d’aquest projecte consisteix a construir les bases d’un sistema capaç d’imitar l’habilitat humana d’interpretar la parla llegint els llavis de l’interlocutor. Des d’un punt de vista més ampli, la nostra tasca no es distingeix substancialment d’altres com poden ser el reconeixement automàtic de la parla a partir de l’àudio o el reconeixement de text manuscrit. En altres paraules, ens trobem davall el marc de les tecnologies del llenguatge. Per això, la nostra experimentació es fonamenta al voltant dels avanços realitzats en aquest àmbit, explorant, en el nostre cas, un sistema basat en Models Ocults de Markov Continus. No obstant això, el nucli central sobre el qual es recolza el nostre projecte és l’estudi i anàlisi de les diferents característiques visuals que poden representar la naturalesa dels moviments labials, cosa per la qual s’ha requerit l’ús de tècniques relacionades amb la Visió per Computador. A més, per poder dur a terme el projecte ha sigut necessari estudiar la literatura al respecte, així com obtenir un conjunt de dades propici, els quals pertanyen a un subconjunt del corpus RTVE, emprat en les avaluacions Albayzín de Tecnologies de la Parla. Les aplicacions d’aquest tipus de sistemes abasten des de la transcripció de pel·lícules mudes
مصطلحات الفهرس: Lectura de labios, Machine Learning, Tecnologías del Lenguaje, Visión por Computador, Modelos Ocultos de Markov, Deep Learning, Lipreading, Speech Technologies, Computer Vision, Hidden Markov Models, Lectura de llavis, Tecnologies del Llenguatge, Visió per Computador, Models Ocults de Markov, LENGUAJES Y SISTEMAS INFORMATICOS, Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital, info:eu-repo/semantics/masterThesis
URL: http://hdl.handle.net/10251/151888
الإتاحة: Open access content. Open access content
http://rightsstatements.org/vocab/InC/1.0
info:eu-repo/semantics/openAccess
ملاحظة: TEXT
Spanish
أرقام أخرى: UPV oai:riunet.upv.es:10251/151888
https://riunet.upv.es/bitstream/10251/151888/2/Gimeno - Lectura de labios mediante técnicas de Machine Learning.pdf.jpg
1258874017
المصدر المساهم: UNIVERSITAT POLITECNICA DE VALENCIA
From OAIster®, provided by the OCLC Cooperative.
رقم الأكسشن: edsoai.on1258874017
قاعدة البيانات: OAIster