Diseño e implementación de un sistema de síntesis de voz

El proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Autor principal: Palacio Baus, Kenneth Samuel (author)
Outros Autores: Auquilla Peralta, Jorge Vinicio (author)
Formato: bachelorThesis
Idioma:spa
Publicado em: 2007
Assuntos:
Acesso em linha:https://dspace.ups.edu.ec/handle/123456789/184
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
_version_ 1858988454759628800
author Palacio Baus, Kenneth Samuel
author2 Auquilla Peralta, Jorge Vinicio
author2_role author
author_facet Palacio Baus, Kenneth Samuel
Auquilla Peralta, Jorge Vinicio
author_role author
collection Repositorio Universidad Politécnica Salesiana
dc.contributor.none.fl_str_mv Calle Ortiz, Eduardo Robinson
dc.creator.none.fl_str_mv Palacio Baus, Kenneth Samuel
Auquilla Peralta, Jorge Vinicio
dc.date.none.fl_str_mv 2007
2010-07-07T23:30:59Z
2010-07-07T23:30:59Z
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.identifier.none.fl_str_mv https://dspace.ups.edu.ec/handle/123456789/184
dc.language.none.fl_str_mv spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Universidad Politécnica Salesiana
instname:Universidad Politécnica Salesiana
instacron:UPS
dc.subject.none.fl_str_mv SISTEMAS DE PROCESAMIENTO DE LA VOZ
RECONOCIMIENTO AUTOMÁTICO DEL HABLA
SINTETIZADORES DE VOZ
ESPECTROGRAMA
dc.title.none.fl_str_mv Diseño e implementación de un sistema de síntesis de voz
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description El proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable la comunicación entre los dispositivos electrónicos y el ser humano. Esta técnica ha sido explotada en varios campos de la tecnología, especialmente en aquellos que buscan facilitar la vida de las personas con discapacidades visuales o del habla. Para el efecto, alrededor del mundo se han desarrollado varias técnicas que permiten producir voz artificial; en diferentes Centros de investigación y Universidades a nivel de pre y post-grado, se perfeccionan los métodos y nuevas propuestas en esta línea de investigación, todas y cada una con características y funcionamiento propios, pero con un objetivo común que busca lograr la naturalidad total en la voz producida. Pero imitar la voz humana no es un trabajo sencillo, a la naturaleza le ha tomado cientos e incluso miles de años de evolución modelar los órganos componentes del aparato fonatorio humano, y otros cientos de años le tomó al hombre articular sonidos con significado, que puedan combinarse entre sí para formas las palabras, después las oraciones, y al final del camino, complejos lenguajes de comunicación que se aprenden desde una muy pronta edad. En la actualidad, la velocidad de los computadores y en general de los sistemas microprocesados contemporáneos, así como su capacidad de almacenamiento crecen exponencialmente no así como sus costos que contrariamente se reducen cada día; las técnicas de procesamiento digital de señales evolucionan a niveles más altos, la tecnología simplifica las tareas más comunes y pueden implementarse muy complejos algoritmos computacionales en sistemas convencionales. Este conjunto de hechos constituye una de las razones fundamentales de que hoy en día se pueda manipular y generar señales de naturaleza no estacionaria (como es el caso de la voz humana). El presente texto documenta el proyecto de tesis "Diseño e Implementación de un Sistema de Síntesis de Voz", en el que se ha desarrollado un sistema informático de generación de voz artificial, como un proyecto de fin de carrera de Ingeniería Electrónica. Se ha planteado una propuesta que utiliza la técnica de concatenación de unidades del habla para generar voz artificial, un algoritmo de libre implementación sobre cualquier plataforma programable, sea un computador personal (sobre el cual se ha implementado como parte de este proyecto), un microcontrolador o un procesador digital de señales DSP. Si bien se han creado sistemas en otros países, las voces en ellos naturalmente son nativas del lugar en el que se desarrolla específicamente una investigación, lo que adicionalmente incorpora idiomas y acentos particulares que muchas veces desentonan con ciertas personas y culturas, es así pues que, el crear una voz sintética ecuatoriana, ha sido otro de los grades aspectos motivadores para impulsar este proyecto. Este texto se divide en seis capítulos que recopilan el proceso de la investigación y la implementación final del sistema: El Capítulo 1 contiene la información preliminar que se requiere conocer sobre la producción fisiológica del lenguaje en el cuerpo humano y sus componentes fundamentales para el caso del idioma español. Se discuten los conceptos de fonología y fonética, la comunicación como tal y los elementos necesarios para articular el lenguaje. En el Capitulo 2 se estudia concretamente la Síntesis de Voz, sus aplicaciones, las diferentes técnicas que se utilizan para producirla con una atención particular a la Síntesis de Voz por concatenación de Unidades; con detalle se revisa arquitectura general de estos sistemas y se compara cada una de las posibles formas de efectuar la sintetización, exponiendo cada una de sus ventajas y desventajas con el fin de justificar el uso de la técnica escogida en el presente proyecto. La técnica de concatenación de unidades se basa en recortar pequeños segmentos de voz de frases pregrabadas en base a un algoritmo de selección. Estas unidades pueden variar en tipo y en tamaño, sin embargo se extraen de entre una gran cantidad de grabaciones. Ese conjunto de grabaciones constituye una base de datos de segmentos de voz que comúnmente se denomina Corpus de voz. El Capítulo 3 se centra en el estudio de los Corpus de Voz y del que particularmente se ha creado para este sistema, así como la determinación del contenido textual de las grabaciones y una breve explicación de como un espectrograma puede ser de mucha utilidad para diferenciar los elementos fonéticos que componen una palabra. En el Capítulo 4 se detalla la implementación del sistema, el formato de las grabaciones del corpus de voz y el tratamiento que se les da para generar toda la información necesaria para la concatenación de unidades. Se estudia con detalle cada una de las etapas que intervienen en el sistema y las funciones que cumplen. En este capítulo describe el corazón del sistema, un algoritmo de búsqueda y evaluación para obtener las mejores unidades fonéticas que componen las palabras y oraciones que se desea sintetizar. El Capítulo 5 expone los criterios que deben tomarse en cuenta para evaluar los sistemas de sintetización de la voz, las directivas que asumen cada una de las apreciaciones de evaluación y los resultados obtenidos tras someter a un conjunto de pruebas subjetivas al sistema, y objetivas para cada uno de los módulos que lo componen. Finalmente los resultados generales obtenidos para el algoritmo de concatenación de unidades propuesto se expresan en el Capítulo 6, conjuntamente con un grupo de recomendaciones para el mejoramiento del sistema y una serie de propuestas planteadas para líneas futuras de investigación en el campo de las tecnologías del habla. Con la convicción de haber efectuado un trabajo de investigación con un considerable potencial, presentamos esta obra que esperamos sinceramente siente un precedente sólido y sirva como base en el desarrollo de muchos otros proyectos en el campo de las tecnologías del habla y en el apoyo de las personas discapacitadas.
eu_rights_str_mv openAccess
format bachelorThesis
id UPS_a0dcfc4d40fe4f40cf1978d7a92b7f0f
instacron_str UPS
institution UPS
instname_str Universidad Politécnica Salesiana
language spa
network_acronym_str UPS
network_name_str Repositorio Universidad Politécnica Salesiana
oai_identifier_str oai:dspace.ups.edu.ec:123456789/184
publishDate 2007
reponame_str Repositorio Universidad Politécnica Salesiana
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Universidad Politécnica Salesiana - Universidad Politécnica Salesiana
repository_id_str 1737
spelling Diseño e implementación de un sistema de síntesis de vozPalacio Baus, Kenneth SamuelAuquilla Peralta, Jorge VinicioSISTEMAS DE PROCESAMIENTO DE LA VOZRECONOCIMIENTO AUTOMÁTICO DEL HABLASINTETIZADORES DE VOZESPECTROGRAMAEl proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable la comunicación entre los dispositivos electrónicos y el ser humano. Esta técnica ha sido explotada en varios campos de la tecnología, especialmente en aquellos que buscan facilitar la vida de las personas con discapacidades visuales o del habla. Para el efecto, alrededor del mundo se han desarrollado varias técnicas que permiten producir voz artificial; en diferentes Centros de investigación y Universidades a nivel de pre y post-grado, se perfeccionan los métodos y nuevas propuestas en esta línea de investigación, todas y cada una con características y funcionamiento propios, pero con un objetivo común que busca lograr la naturalidad total en la voz producida. Pero imitar la voz humana no es un trabajo sencillo, a la naturaleza le ha tomado cientos e incluso miles de años de evolución modelar los órganos componentes del aparato fonatorio humano, y otros cientos de años le tomó al hombre articular sonidos con significado, que puedan combinarse entre sí para formas las palabras, después las oraciones, y al final del camino, complejos lenguajes de comunicación que se aprenden desde una muy pronta edad. En la actualidad, la velocidad de los computadores y en general de los sistemas microprocesados contemporáneos, así como su capacidad de almacenamiento crecen exponencialmente no así como sus costos que contrariamente se reducen cada día; las técnicas de procesamiento digital de señales evolucionan a niveles más altos, la tecnología simplifica las tareas más comunes y pueden implementarse muy complejos algoritmos computacionales en sistemas convencionales. Este conjunto de hechos constituye una de las razones fundamentales de que hoy en día se pueda manipular y generar señales de naturaleza no estacionaria (como es el caso de la voz humana). El presente texto documenta el proyecto de tesis "Diseño e Implementación de un Sistema de Síntesis de Voz", en el que se ha desarrollado un sistema informático de generación de voz artificial, como un proyecto de fin de carrera de Ingeniería Electrónica. Se ha planteado una propuesta que utiliza la técnica de concatenación de unidades del habla para generar voz artificial, un algoritmo de libre implementación sobre cualquier plataforma programable, sea un computador personal (sobre el cual se ha implementado como parte de este proyecto), un microcontrolador o un procesador digital de señales DSP. Si bien se han creado sistemas en otros países, las voces en ellos naturalmente son nativas del lugar en el que se desarrolla específicamente una investigación, lo que adicionalmente incorpora idiomas y acentos particulares que muchas veces desentonan con ciertas personas y culturas, es así pues que, el crear una voz sintética ecuatoriana, ha sido otro de los grades aspectos motivadores para impulsar este proyecto. Este texto se divide en seis capítulos que recopilan el proceso de la investigación y la implementación final del sistema: El Capítulo 1 contiene la información preliminar que se requiere conocer sobre la producción fisiológica del lenguaje en el cuerpo humano y sus componentes fundamentales para el caso del idioma español. Se discuten los conceptos de fonología y fonética, la comunicación como tal y los elementos necesarios para articular el lenguaje. En el Capitulo 2 se estudia concretamente la Síntesis de Voz, sus aplicaciones, las diferentes técnicas que se utilizan para producirla con una atención particular a la Síntesis de Voz por concatenación de Unidades; con detalle se revisa arquitectura general de estos sistemas y se compara cada una de las posibles formas de efectuar la sintetización, exponiendo cada una de sus ventajas y desventajas con el fin de justificar el uso de la técnica escogida en el presente proyecto. La técnica de concatenación de unidades se basa en recortar pequeños segmentos de voz de frases pregrabadas en base a un algoritmo de selección. Estas unidades pueden variar en tipo y en tamaño, sin embargo se extraen de entre una gran cantidad de grabaciones. Ese conjunto de grabaciones constituye una base de datos de segmentos de voz que comúnmente se denomina Corpus de voz. El Capítulo 3 se centra en el estudio de los Corpus de Voz y del que particularmente se ha creado para este sistema, así como la determinación del contenido textual de las grabaciones y una breve explicación de como un espectrograma puede ser de mucha utilidad para diferenciar los elementos fonéticos que componen una palabra. En el Capítulo 4 se detalla la implementación del sistema, el formato de las grabaciones del corpus de voz y el tratamiento que se les da para generar toda la información necesaria para la concatenación de unidades. Se estudia con detalle cada una de las etapas que intervienen en el sistema y las funciones que cumplen. En este capítulo describe el corazón del sistema, un algoritmo de búsqueda y evaluación para obtener las mejores unidades fonéticas que componen las palabras y oraciones que se desea sintetizar. El Capítulo 5 expone los criterios que deben tomarse en cuenta para evaluar los sistemas de sintetización de la voz, las directivas que asumen cada una de las apreciaciones de evaluación y los resultados obtenidos tras someter a un conjunto de pruebas subjetivas al sistema, y objetivas para cada uno de los módulos que lo componen. Finalmente los resultados generales obtenidos para el algoritmo de concatenación de unidades propuesto se expresan en el Capítulo 6, conjuntamente con un grupo de recomendaciones para el mejoramiento del sistema y una serie de propuestas planteadas para líneas futuras de investigación en el campo de las tecnologías del habla. Con la convicción de haber efectuado un trabajo de investigación con un considerable potencial, presentamos esta obra que esperamos sinceramente siente un precedente sólido y sirva como base en el desarrollo de muchos otros proyectos en el campo de las tecnologías del habla y en el apoyo de las personas discapacitadas.Calle Ortiz, Eduardo Robinson2010-07-07T23:30:59Z2010-07-07T23:30:59Z2007info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfapplication/pdfhttps://dspace.ups.edu.ec/handle/123456789/184spainfo:eu-repo/semantics/openAccessreponame:Repositorio Universidad Politécnica Salesianainstname:Universidad Politécnica Salesianainstacron:UPS2021-11-23T15:25:46Zoai:dspace.ups.edu.ec:123456789/184Institucionalhttps://dspace.ups.edu.ec/Institución privadahttps://www.ups.edu.ec/https://dspace.ups.edu.ec/oai.Ecuador...opendoar:17372021-11-23T15:25:46Repositorio Universidad Politécnica Salesiana - Universidad Politécnica Salesianafalse
spellingShingle Diseño e implementación de un sistema de síntesis de voz
Palacio Baus, Kenneth Samuel
SISTEMAS DE PROCESAMIENTO DE LA VOZ
RECONOCIMIENTO AUTOMÁTICO DEL HABLA
SINTETIZADORES DE VOZ
ESPECTROGRAMA
status_str publishedVersion
title Diseño e implementación de un sistema de síntesis de voz
title_full Diseño e implementación de un sistema de síntesis de voz
title_fullStr Diseño e implementación de un sistema de síntesis de voz
title_full_unstemmed Diseño e implementación de un sistema de síntesis de voz
title_short Diseño e implementación de un sistema de síntesis de voz
title_sort Diseño e implementación de un sistema de síntesis de voz
topic SISTEMAS DE PROCESAMIENTO DE LA VOZ
RECONOCIMIENTO AUTOMÁTICO DEL HABLA
SINTETIZADORES DE VOZ
ESPECTROGRAMA
url https://dspace.ups.edu.ec/handle/123456789/184