Obtenga su copia del repositorio de la práctica accediendo a Práctica 4
y pulsando sobre el botón Fork
situado en la esquina superior derecha. A continuación, siga las
instrucciones de la Práctica 2 para crear una rama con el apellido de
los integrantes del grupo de prácticas, dar de alta al resto de integrantes como colaboradores del proyecto
y crear la copias locales del repositorio.
También debe descomprimir, en el directorio PAV/P4
, el fichero db_8mu.tgz
con la base de datos oral que se utilizará en la parte experimental de la práctica.
Como entrega deberá realizar un pull request con el contenido de su copia del repositorio. Recuerde que los ficheros entregados deberán estar en condiciones de ser ejecutados con sólo ejecutar:
make release
run_spkid mfcc train test classerr verify verifyerr
Recuerde que, además de los trabajos indicados en esta parte básica, también deberá realizar un proyecto de ampliación, del cual deberá subir una memoria explicativa a Atenea y los ficheros correspondientes al repositorio de la práctica.
A modo de memoria de la parte básica, complete, en este mismo documento y usando el formato markdown, los ejercicios indicados.
-
Analice el script
wav2lp.sh
y explique la misión de los distintos comandos involucrados en el pipeline principal (sox
,$X2X
,$FRAME
,$WINDOW
y$LPC
). Explique el significado de cada una de las opciones empleadas y de sus valores. -
Explique el procedimiento seguido para obtener un fichero de formato fmatrix a partir de los ficheros de salida de SPTK (líneas 45 a 47 del script
wav2lp.sh
).- ¿Por qué es conveniente usar este formato (u otro parecido)? Tenga en cuenta cuál es el formato de entrada y cuál es el de resultado.
-
Escriba el pipeline principal usado para calcular los coeficientes cepstrales de predicción lineal (LPCC) en su fichero
scripts/wav2lpcc.sh
: -
Escriba el pipeline principal usado para calcular los coeficientes cepstrales en escala Mel (MFCC) en su fichero
scripts/wav2mfcc.sh
:
-
Inserte una imagen mostrando la dependencia entre los coeficientes 2 y 3 de las tres parametrizaciones para todas las señales de un locutor.
- Indique todas las órdenes necesarias para obtener las gráficas a partir de las señales parametrizadas.
- ¿Cuál de ellas le parece que contiene más información?
-
Usando el programa
pearson
, obtenga los coeficientes de correlación normalizada entre los parámetros 2 y 3 para un locutor, y rellene la tabla siguiente con los valores obtenidos.LP LPCC MFCC ρx[2,3] - Compare los resultados de
pearson
con los obtenidos gráficamente.
- Compare los resultados de
-
Según la teoría, ¿qué parámetros considera adecuados para el cálculo de los coeficientes LPCC y MFCC?
Complete el código necesario para entrenar modelos GMM.
-
Inserte una gráfica que muestre la función de densidad de probabilidad modelada por el GMM de un locutor para sus dos primeros coeficientes de MFCC.
-
Inserte una gráfica que permita comparar los modelos y poblaciones de dos locutores distintos (la gŕafica de la página 20 del enunciado puede servirle de referencia del resultado deseado). Analice la capacidad del modelado GMM para diferenciar las señales de uno y otro.
Complete el código necesario para realizar reconociminto del locutor y optimice sus parámetros.
- Inserte una tabla con la tasa de error obtenida en el reconocimiento de los locutores de la base de datos SPEECON usando su mejor sistema de reconocimiento para los parámetros LP, LPCC y MFCC.
Complete el código necesario para realizar verificación del locutor y optimice sus parámetros.
- Inserte una tabla con el score obtenido con su mejor sistema de verificación del locutor en la tarea de verificación de SPEECON. La tabla debe incluir el umbral óptimo, el número de falsas alarmas y de pérdidas, y el score obtenido usando la parametrización que mejor resultado le hubiera dado en la tarea de reconocimiento.
- Adjunte, en el repositorio de la práctica, los ficheros
class_test.log
yverif_test.log
correspondientes a la evaluación ciega final.
- Recuerde enviar a Atenea un fichero en formato zip o tgz con la memoria (en formato PDF) con el trabajo
realizado como ampliación, así como los ficheros
class_ampl.log
y/overif_ampl.log
, obtenidos como resultado del mismo.