Diseño e implementación de un sistema de síntesis de voz

El proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable...

ver descrição completa

Na minha lista:

Detalhes bibliográficos
Autor principal:	Palacio Baus, Kenneth Samuel (author)
Outros Autores:	Auquilla Peralta, Jorge Vinicio (author)
Formato:	bachelorThesis
Idioma:	spa
Publicado em:	2007
Assuntos:	SISTEMAS DE PROCESAMIENTO DE LA VOZ RECONOCIMIENTO AUTOMÁTICO DEL HABLA SINTETIZADORES DE VOZ ESPECTROGRAMA
Acesso em linha:	https://dspace.ups.edu.ec/handle/123456789/184
Tags:	Adicionar Tag Sem tags, seja o primeiro a adicionar uma tag!

_version_	1858988454759628800
author	Palacio Baus, Kenneth Samuel
author2	Auquilla Peralta, Jorge Vinicio
author2_role	author
author_facet	Palacio Baus, Kenneth Samuel Auquilla Peralta, Jorge Vinicio
author_role	author
collection	Repositorio Universidad Politécnica Salesiana
dc.contributor.none.fl_str_mv	Calle Ortiz, Eduardo Robinson
dc.creator.none.fl_str_mv	Palacio Baus, Kenneth Samuel Auquilla Peralta, Jorge Vinicio
dc.date.none.fl_str_mv	2007 2010-07-07T23:30:59Z 2010-07-07T23:30:59Z
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.identifier.none.fl_str_mv	https://dspace.ups.edu.ec/handle/123456789/184
dc.language.none.fl_str_mv	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv	reponame:Repositorio Universidad Politécnica Salesiana instname:Universidad Politécnica Salesiana instacron:UPS
dc.subject.none.fl_str_mv	SISTEMAS DE PROCESAMIENTO DE LA VOZ RECONOCIMIENTO AUTOMÁTICO DEL HABLA SINTETIZADORES DE VOZ ESPECTROGRAMA
dc.title.none.fl_str_mv	Diseño e implementación de un sistema de síntesis de voz
dc.type.none.fl_str_mv	info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/bachelorThesis
description	El proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable la comunicación entre los dispositivos electrónicos y el ser humano. Esta técnica ha sido explotada en varios campos de la tecnología, especialmente en aquellos que buscan facilitar la vida de las personas con discapacidades visuales o del habla. Para el efecto, alrededor del mundo se han desarrollado varias técnicas que permiten producir voz artificial; en diferentes Centros de investigación y Universidades a nivel de pre y post-grado, se perfeccionan los métodos y nuevas propuestas en esta línea de investigación, todas y cada una con características y funcionamiento propios, pero con un objetivo común que busca lograr la naturalidad total en la voz producida. Pero imitar la voz humana no es un trabajo sencillo, a la naturaleza le ha tomado cientos e incluso miles de años de evolución modelar los órganos componentes del aparato fonatorio humano, y otros cientos de años le tomó al hombre articular sonidos con significado, que puedan combinarse entre sí para formas las palabras, después las oraciones, y al final del camino, complejos lenguajes de comunicación que se aprenden desde una muy pronta edad. En la actualidad, la velocidad de los computadores y en general de los sistemas microprocesados contemporáneos, así como su capacidad de almacenamiento crecen exponencialmente no así como sus costos que contrariamente se reducen cada día; las técnicas de procesamiento digital de señales evolucionan a niveles más altos, la tecnología simplifica las tareas más comunes y pueden implementarse muy complejos algoritmos computacionales en sistemas convencionales. Este conjunto de hechos constituye una de las razones fundamentales de que hoy en día se pueda manipular y generar señales de naturaleza no estacionaria (como es el caso de la voz humana). El presente texto documenta el proyecto de tesis "Diseño e Implementación de un Sistema de Síntesis de Voz", en el que se ha desarrollado un sistema informático de generación de voz artificial, como un proyecto de fin de carrera de Ingeniería Electrónica. Se ha planteado una propuesta que utiliza la técnica de concatenación de unidades del habla para generar voz artificial, un algoritmo de libre implementación sobre cualquier plataforma programable, sea un computador personal (sobre el cual se ha implementado como parte de este proyecto), un microcontrolador o un procesador digital de señales DSP. Si bien se han creado sistemas en otros países, las voces en ellos naturalmente son nativas del lugar en el que se desarrolla específicamente una investigación, lo que adicionalmente incorpora idiomas y acentos particulares que muchas veces desentonan con ciertas personas y culturas, es así pues que, el crear una voz sintética ecuatoriana, ha sido otro de los grades aspectos motivadores para impulsar este proyecto. Este texto se divide en seis capítulos que recopilan el proceso de la investigación y la implementación final del sistema: El Capítulo 1 contiene la información preliminar que se requiere conocer sobre la producción fisiológica del lenguaje en el cuerpo humano y sus componentes fundamentales para el caso del idioma español. Se discuten los conceptos de fonología y fonética, la comunicación como tal y los elementos necesarios para articular el lenguaje. En el Capitulo 2 se estudia concretamente la Síntesis de Voz, sus aplicaciones, las diferentes técnicas que se utilizan para producirla con una atención particular a la Síntesis de Voz por concatenación de Unidades; con detalle se revisa arquitectura general de estos sistemas y se compara cada una de las posibles formas de efectuar la sintetización, exponiendo cada una de sus ventajas y desventajas con el fin de justificar el uso de la técnica escogida en el presente proyecto. La técnica de concatenación de unidades se basa en recortar pequeños segmentos de voz de frases pregrabadas en base a un algoritmo de selección. Estas unidades pueden variar en tipo y en tamaño, sin embargo se extraen de entre una gran cantidad de grabaciones. Ese conjunto de grabaciones constituye una base de datos de segmentos de voz que comúnmente se denomina Corpus de voz. El Capítulo 3 se centra en el estudio de los Corpus de Voz y del que particularmente se ha creado para este sistema, así como la determinación del contenido textual de las grabaciones y una breve explicación de como un espectrograma puede ser de mucha utilidad para diferenciar los elementos fonéticos que componen una palabra. En el Capítulo 4 se detalla la implementación del sistema, el formato de las grabaciones del corpus de voz y el tratamiento que se les da para generar toda la información necesaria para la concatenación de unidades. Se estudia con detalle cada una de las etapas que intervienen en el sistema y las funciones que cumplen. En este capítulo describe el corazón del sistema, un algoritmo de búsqueda y evaluación para obtener las mejores unidades fonéticas que componen las palabras y oraciones que se desea sintetizar. El Capítulo 5 expone los criterios que deben tomarse en cuenta para evaluar los sistemas de sintetización de la voz, las directivas que asumen cada una de las apreciaciones de evaluación y los resultados obtenidos tras someter a un conjunto de pruebas subjetivas al sistema, y objetivas para cada uno de los módulos que lo componen. Finalmente los resultados generales obtenidos para el algoritmo de concatenación de unidades propuesto se expresan en el Capítulo 6, conjuntamente con un grupo de recomendaciones para el mejoramiento del sistema y una serie de propuestas planteadas para líneas futuras de investigación en el campo de las tecnologías del habla. Con la convicción de haber efectuado un trabajo de investigación con un considerable potencial, presentamos esta obra que esperamos sinceramente siente un precedente sólido y sirva como base en el desarrollo de muchos otros proyectos en el campo de las tecnologías del habla y en el apoyo de las personas discapacitadas.
eu_rights_str_mv	openAccess
format	bachelorThesis
id	UPS_a0dcfc4d40fe4f40cf1978d7a92b7f0f
instacron_str	UPS
institution	UPS
instname_str	Universidad Politécnica Salesiana
language	spa
network_acronym_str	UPS
network_name_str	Repositorio Universidad Politécnica Salesiana
oai_identifier_str	oai:dspace.ups.edu.ec:123456789/184
publishDate	2007
reponame_str	Repositorio Universidad Politécnica Salesiana
repository.mail.fl_str_mv	.
repository.name.fl_str_mv	Repositorio Universidad Politécnica Salesiana - Universidad Politécnica Salesiana
repository_id_str	1737
spelling	Diseño e implementación de un sistema de síntesis de vozPalacio Baus, Kenneth SamuelAuquilla Peralta, Jorge VinicioSISTEMAS DE PROCESAMIENTO DE LA VOZRECONOCIMIENTO AUTOMÁTICO DEL HABLASINTETIZADORES DE VOZESPECTROGRAMAEl proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable la comunicación entre los dispositivos electrónicos y el ser humano. Esta técnica ha sido explotada en varios campos de la tecnología, especialmente en aquellos que buscan facilitar la vida de las personas con discapacidades visuales o del habla. Para el efecto, alrededor del mundo se han desarrollado varias técnicas que permiten producir voz artificial; en diferentes Centros de investigación y Universidades a nivel de pre y post-grado, se perfeccionan los métodos y nuevas propuestas en esta línea de investigación, todas y cada una con características y funcionamiento propios, pero con un objetivo común que busca lograr la naturalidad total en la voz producida. Pero imitar la voz humana no es un trabajo sencillo, a la naturaleza le ha tomado cientos e incluso miles de años de evolución modelar los órganos componentes del aparato fonatorio humano, y otros cientos de años le tomó al hombre articular sonidos con significado, que puedan combinarse entre sí para formas las palabras, después las oraciones, y al final del camino, complejos lenguajes de comunicación que se aprenden desde una muy pronta edad. En la actualidad, la velocidad de los computadores y en general de los sistemas microprocesados contemporáneos, así como su capacidad de almacenamiento crecen exponencialmente no así como sus costos que contrariamente se reducen cada día; las técnicas de procesamiento digital de señales evolucionan a niveles más altos, la tecnología simplifica las tareas más comunes y pueden implementarse muy complejos algoritmos computacionales en sistemas convencionales. Este conjunto de hechos constituye una de las razones fundamentales de que hoy en día se pueda manipular y generar señales de naturaleza no estacionaria (como es el caso de la voz humana). El presente texto documenta el proyecto de tesis "Diseño e Implementación de un Sistema de Síntesis de Voz", en el que se ha desarrollado un sistema informático de generación de voz artificial, como un proyecto de fin de carrera de Ingeniería Electrónica. Se ha planteado una propuesta que utiliza la técnica de concatenación de unidades del habla para generar voz artificial, un algoritmo de libre implementación sobre cualquier plataforma programable, sea un computador personal (sobre el cual se ha implementado como parte de este proyecto), un microcontrolador o un procesador digital de señales DSP. Si bien se han creado sistemas en otros países, las voces en ellos naturalmente son nativas del lugar en el que se desarrolla específicamente una investigación, lo que adicionalmente incorpora idiomas y acentos particulares que muchas veces desentonan con ciertas personas y culturas, es así pues que, el crear una voz sintética ecuatoriana, ha sido otro de los grades aspectos motivadores para impulsar este proyecto. Este texto se divide en seis capítulos que recopilan el proceso de la investigación y la implementación final del sistema: El Capítulo 1 contiene la información preliminar que se requiere conocer sobre la producción fisiológica del lenguaje en el cuerpo humano y sus componentes fundamentales para el caso del idioma español. Se discuten los conceptos de fonología y fonética, la comunicación como tal y los elementos necesarios para articular el lenguaje. En el Capitulo 2 se estudia concretamente la Síntesis de Voz, sus aplicaciones, las diferentes técnicas que se utilizan para producirla con una atención particular a la Síntesis de Voz por concatenación de Unidades; con detalle se revisa arquitectura general de estos sistemas y se compara cada una de las posibles formas de efectuar la sintetización, exponiendo cada una de sus ventajas y desventajas con el fin de justificar el uso de la técnica escogida en el presente proyecto. La técnica de concatenación de unidades se basa en recortar pequeños segmentos de voz de frases pregrabadas en base a un algoritmo de selección. Estas unidades pueden variar en tipo y en tamaño, sin embargo se extraen de entre una gran cantidad de grabaciones. Ese conjunto de grabaciones constituye una base de datos de segmentos de voz que comúnmente se denomina Corpus de voz. El Capítulo 3 se centra en el estudio de los Corpus de Voz y del que particularmente se ha creado para este sistema, así como la determinación del contenido textual de las grabaciones y una breve explicación de como un espectrograma puede ser de mucha utilidad para diferenciar los elementos fonéticos que componen una palabra. En el Capítulo 4 se detalla la implementación del sistema, el formato de las grabaciones del corpus de voz y el tratamiento que se les da para generar toda la información necesaria para la concatenación de unidades. Se estudia con detalle cada una de las etapas que intervienen en el sistema y las funciones que cumplen. En este capítulo describe el corazón del sistema, un algoritmo de búsqueda y evaluación para obtener las mejores unidades fonéticas que componen las palabras y oraciones que se desea sintetizar. El Capítulo 5 expone los criterios que deben tomarse en cuenta para evaluar los sistemas de sintetización de la voz, las directivas que asumen cada una de las apreciaciones de evaluación y los resultados obtenidos tras someter a un conjunto de pruebas subjetivas al sistema, y objetivas para cada uno de los módulos que lo componen. Finalmente los resultados generales obtenidos para el algoritmo de concatenación de unidades propuesto se expresan en el Capítulo 6, conjuntamente con un grupo de recomendaciones para el mejoramiento del sistema y una serie de propuestas planteadas para líneas futuras de investigación en el campo de las tecnologías del habla. Con la convicción de haber efectuado un trabajo de investigación con un considerable potencial, presentamos esta obra que esperamos sinceramente siente un precedente sólido y sirva como base en el desarrollo de muchos otros proyectos en el campo de las tecnologías del habla y en el apoyo de las personas discapacitadas.Calle Ortiz, Eduardo Robinson2010-07-07T23:30:59Z2010-07-07T23:30:59Z2007info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfapplication/pdfhttps://dspace.ups.edu.ec/handle/123456789/184spainfo:eu-repo/semantics/openAccessreponame:Repositorio Universidad Politécnica Salesianainstname:Universidad Politécnica Salesianainstacron:UPS2021-11-23T15:25:46Zoai:dspace.ups.edu.ec:123456789/184Institucionalhttps://dspace.ups.edu.ec/Institución privadahttps://www.ups.edu.ec/https://dspace.ups.edu.ec/oai.Ecuador...opendoar:17372021-11-23T15:25:46Repositorio Universidad Politécnica Salesiana - Universidad Politécnica Salesianafalse
spellingShingle	Diseño e implementación de un sistema de síntesis de voz Palacio Baus, Kenneth Samuel SISTEMAS DE PROCESAMIENTO DE LA VOZ RECONOCIMIENTO AUTOMÁTICO DEL HABLA SINTETIZADORES DE VOZ ESPECTROGRAMA
status_str	publishedVersion
title	Diseño e implementación de un sistema de síntesis de voz
title_full	Diseño e implementación de un sistema de síntesis de voz
title_fullStr	Diseño e implementación de un sistema de síntesis de voz
title_full_unstemmed	Diseño e implementación de un sistema de síntesis de voz
title_short	Diseño e implementación de un sistema de síntesis de voz
title_sort	Diseño e implementación de un sistema de síntesis de voz
topic	SISTEMAS DE PROCESAMIENTO DE LA VOZ RECONOCIMIENTO AUTOMÁTICO DEL HABLA SINTETIZADORES DE VOZ ESPECTROGRAMA
url	https://dspace.ups.edu.ec/handle/123456789/184

Diseño e implementación de un sistema de síntesis de voz

Registros relacionados