Skip to content

Latest commit

 

History

History
104 lines (70 loc) · 5.12 KB

README.md

File metadata and controls

104 lines (70 loc) · 5.12 KB

PAV - P4: reconocimiento y verificación del locutor

Obtenga su copia del repositorio de la práctica accediendo a Práctica 4 y pulsando sobre el botón Fork situado en la esquina superior derecha. A continuación, siga las instrucciones de la Práctica 2 para crear una rama con el apellido de los integrantes del grupo de prácticas, dar de alta al resto de integrantes como colaboradores del proyecto y crear la copias locales del repositorio.

También debe descomprimir, en el directorio PAV/P4, el fichero db_8mu.tgz con la base de datos oral que se utilizará en la parte experimental de la práctica.

Como entrega deberá realizar un pull request con el contenido de su copia del repositorio. Recuerde que los ficheros entregados deberán estar en condiciones de ser ejecutados con sólo ejecutar:

  make release
  run_spkid mfcc train test classerr verify verifyerr

Recuerde que, además de los trabajos indicados en esta parte básica, también deberá realizar un proyecto de ampliación, del cual deberá subir una memoria explicativa a Atenea y los ficheros correspondientes al repositorio de la práctica.

A modo de memoria de la parte básica, complete, en este mismo documento y usando el formato markdown, los ejercicios indicados.

Ejercicios.

SPTK, Sox y los scripts de extracción de características.

  • Analice el script wav2lp.sh y explique la misión de los distintos comandos involucrados en el pipeline principal (sox, $X2X, $FRAME, $WINDOW y $LPC). Explique el significado de cada una de las opciones empleadas y de sus valores.

  • Explique el procedimiento seguido para obtener un fichero de formato fmatrix a partir de los ficheros de salida de SPTK (líneas 45 a 47 del script wav2lp.sh).

    • ¿Por qué es conveniente usar este formato (u otro parecido)? Tenga en cuenta cuál es el formato de entrada y cuál es el de resultado.
  • Escriba el pipeline principal usado para calcular los coeficientes cepstrales de predicción lineal (LPCC) en su fichero scripts/wav2lpcc.sh:

  • Escriba el pipeline principal usado para calcular los coeficientes cepstrales en escala Mel (MFCC) en su fichero scripts/wav2mfcc.sh:

Extracción de características.

  • Inserte una imagen mostrando la dependencia entre los coeficientes 2 y 3 de las tres parametrizaciones para todas las señales de un locutor.

    • Indique todas las órdenes necesarias para obtener las gráficas a partir de las señales parametrizadas.
    • ¿Cuál de ellas le parece que contiene más información?
  • Usando el programa pearson, obtenga los coeficientes de correlación normalizada entre los parámetros 2 y 3 para un locutor, y rellene la tabla siguiente con los valores obtenidos.

    LP LPCC MFCC
    ρx[2,3]
    • Compare los resultados de pearson con los obtenidos gráficamente.
  • Según la teoría, ¿qué parámetros considera adecuados para el cálculo de los coeficientes LPCC y MFCC?

Entrenamiento y visualización de los GMM.

Complete el código necesario para entrenar modelos GMM.

  • Inserte una gráfica que muestre la función de densidad de probabilidad modelada por el GMM de un locutor para sus dos primeros coeficientes de MFCC.

  • Inserte una gráfica que permita comparar los modelos y poblaciones de dos locutores distintos (la gŕafica de la página 20 del enunciado puede servirle de referencia del resultado deseado). Analice la capacidad del modelado GMM para diferenciar las señales de uno y otro.

Reconocimiento del locutor.

Complete el código necesario para realizar reconociminto del locutor y optimice sus parámetros.

  • Inserte una tabla con la tasa de error obtenida en el reconocimiento de los locutores de la base de datos SPEECON usando su mejor sistema de reconocimiento para los parámetros LP, LPCC y MFCC.

Verificación del locutor.

Complete el código necesario para realizar verificación del locutor y optimice sus parámetros.

  • Inserte una tabla con el score obtenido con su mejor sistema de verificación del locutor en la tarea de verificación de SPEECON. La tabla debe incluir el umbral óptimo, el número de falsas alarmas y de pérdidas, y el score obtenido usando la parametrización que mejor resultado le hubiera dado en la tarea de reconocimiento.

Test final

  • Adjunte, en el repositorio de la práctica, los ficheros class_test.log y verif_test.log correspondientes a la evaluación ciega final.

Trabajo de ampliación.

  • Recuerde enviar a Atenea un fichero en formato zip o tgz con la memoria (en formato PDF) con el trabajo realizado como ampliación, así como los ficheros class_ampl.log y/o verif_ampl.log, obtenidos como resultado del mismo.