Métodos de extracción y comparación de características biométricas
En los sistemas de automatización de bases de voz y búsqueda operativa de la serie VoiceNET a diferencia de otros sistemas presentados en el mercado, en el proceso de búsqueda se aplica tres métodos independientes del idioma y texto, destinados para extraer y comparar características biométricas, lo que asegura alta efectividad del sistema.
En calidad del método principal se utiliza el método espectral de formantes, en calidad de métodos auxiliares – el de estadísticas de la frecuencia fundamental y el de modelos de voz.
Los rasgos principales de los métodos son su rapidez de funcionamiento y fiabilidad en la extracción y comparación de características biométricas. La fiabilidad se caracteriza por el valor de EER (EER-Equal Error Rates) o por el nivel de error equivalente (punto de coincidencia de probabilidades FRR y FAR o errores del primero y segundo orden), y la rapidez de funcionamiento se caracteriza por el tiempo que se tarda en extraer y comparar características biométricas.
Método espectral de formantes
El método espectral de formantes se basa en la geometría única de órganos articulatorios de cada persona y, como consecuencia, en diferentes características espectrales del habla de diferentes personas. Con más evidencia la diferencia entre las características espectrales se manifiesta durante la yuxtaposición de formantes en los fragmentos vocalizados del habla.
El ejemplo de la presentación por formantes del habla de dos personas diferentes al pronunciar la frase “Búsqueda por voz”, está representado en el dibujo más abajo (en el eje vertical se marca la frecuencia de señal en Hz, en el horizontal – tiempo de pronunciación en seg, la intensidad de color negro refleja la concentración de energía).
El método espectral de formantes utilizado en los sistemas VoiceNET en la base en la extracción y comparación de posición y dinámica de la conducta de tres y más formantes. Se utilizan unas decenas de parámetros que caracterizan la estructura de formantes del habla.
Desde 2004 este método está patentado.
Los parámetros de fiabilidad de este método al testearlo en la base de audio RUSTEN oficialmente registrada están representados en la tabla.
Valores de EER para el método espectral de formantes según la longitud de fragmentos comparados
| Duración de fragmentos, seg ; |
96*96 |
48*96 |
48*48 |
32*96 |
32*48 |
32*32 |
16*96 |
16*48 |
16*16 |
| EER, %; |
8 |
9.9 |
11 |
11.7; |
12.8 |
13.9 |
13.6 |
15 |
17.9 |
Este método se considera principal en los sistemas VoiceNET por las causas siguientes:
- El método, en comparación con los demás, implica las menores exigencias para la calidad de señal. Es posible operar con señales hasta la relación señal/ruido de 12 dB.
- La fiabilidad del método no depende prácticamente del estado emocional del habla.
- El método muestra la velocidad más alta de la extracción de características biométricas entre los demás, lo que determina alta velocidad de búsqueda.
Método de estadísticas de la frecuencia principal
El método de estadísticas de la frecuencia fundamental utiliza 16! características diferentes de la frecuencia fundamental (FO) de voz que se determina por la frecuencia de vibración de cuerdas vocales.
Entre las características utilizadas son: valor promedio de la FO; su máximo; su mínimo; la mediana; el por ciento de fragmentos con tono creciente; dispersión del logaritmo de tono; asimetría del logaritmo de tono; exceso del logaritmo de tono y 8 parámetros más.
Los valores de EER para el método de estadísticas de la frecuencia fundamental según la longitud de fragmentos comparados, están representados en la tabla 2. Cabe mencionar que la realización de este algoritmo llegó a ser posible gracias a la creación del seleccionador de frecuencia fundamental, completamente automático, por los especialistas de STC. El ejemplo de la frecuencia fundamental automáticamente seleccionada, al pronunciar la frase “Búsqueda por voz” por dos personas diferentes, está representado en el dibujo abajo. (En el eje vertical se marca la frecuencia en Hz, en el horizontal – tiempo en seg).
Los parámetros de fiabilidad de este método al testearlo en la base de audio RUSTEN oficialmente registrada están representados en la tabla.
Valores de EER para el método de estadísticas de la frecuencia fundamental según la longitud de fragmentos comparados
| Duración, seg |
40*40 |
20*40 |
20*20 |
10*40 |
10*20 |
10*10 |
| EER según la métrica expresada, % |
15.9 |
17.0 |
17.7 |
18.4 |
18.9 |
19.7 |
El mérito de este método consiste en alta velocidad de comparación de características y, como consecuencia, alta velocidad de búsqueda de la persona con características biométricas análogas. Al mismo tiempo, la dependencia de fiabilidad de este método del estado emocional-psicológico del locutor al momento de hablar, así como las pérdidas de tiempo, relativamente grandes, para extraer características biométricas, permiten utilizarlo en los sistemas VoiceNET sólo en calidad de auxiliar.
Método de modelos de voz
El método de modelos de voz es un enfoque más difundido para solucionar problemas de la identificación independiente del texto.
La esencia del método consiste en la posibilidad de modelar particularidades acústicas propias del locutor dentro de los límites de sonidos fonéticos individuales que forman parte de la señal de voz.Comparando las particularidades acústicas propias de un locutor con las de otro se puede obtener la medida de diferencia de locutores en el campo de características.
Al testear este método en las bases vocales conseguidas experimentalmente, se obtuvo el valor mínimo del 4,1% con la duración de 20 seg de señales vocales comparadas. El mérito importante del método consiste en la posibilidad de hacer la búsqueda más fiable al disponer de varias grabaciones de la misma persona en la fonoteca. Al mismo tiempo, las altas exigencias del método para la calidad de señal, así como las pérdidas de tiempo, relativamente grandes, para extraer características biométricas permiten aplicar este método sólo en calidad de auxiliar.
Métodos adicionales del procesamiento de señal
La experiencia de aplicar diferentes tecnologías de verificación-identificación en condiciones reales muestra que la fiabilidad de funcionamiento de sistemas de biometría de voz depende de la calidad de señal: nivel de interferencias de bandas anchas y distorsiones aportadas a la señal al transferirla por canales de comunicaciones. Para disminuir la influencia negativa de factores enumerados, en los sistemas de la serie VoicdeNET están incorporados los algoritmos de filtrado automático de ruidos y compensación de distorsiones de frecuencia de señal. En el dibujo 6 (p. 6 del catálogo) están representados los espectrogramas dinámicos de señal vocal antes y después del filtrado. Se puede notar que la señal no procesada es inútil para la investigación de identificación mediante ningún método, y la señal procesada puede ser utilizada en pleno volumen .
|