El reconocimiento de voz es una tecnología que convierte el habla humana en texto o comandos comprensibles. Su principio es reconocer palabras, frases u oraciones completas mediante el análisis de las características acústicas en la señal del habla. La tecnología de reconocimiento de voz generalmente implica tres pasos principales: preprocesamiento de señales de voz, extracción de características y aplicación de un modelo de reconocimiento de voz.
El principio de los modelos de reconocimiento de voz se basa principalmente en la tecnología de aprendizaje profundo. La idea básica es convertir la señal de voz en el texto o los comandos correspondientes, y aprender la relación de mapeo entre las señales de voz y el texto a través del entrenamiento del modelo, logrando así la tarea de reconocimiento de voz.
El chip WTM2101 adopta una arquitectura de computación en memoria, que integra memoria y procesadores en la misma unidad, logrando así un procesamiento de datos e inferencia de modelos eficientes.
En el reconocimiento de voz, los modelos DNN y HMM juegan un papel importante. El modelo DNN se utiliza principalmente para la extracción de características y la clasificación de señales de voz, mientras que el modelo HMM se utiliza para el modelado temporal y el reconocimiento de señales de voz. El chip WTM2101 combina las ventajas de los dos modelos de forma orgánica mediante el uso de las ventajas de la informática en la arquitectura de memoria.
Específicamente, el proceso de trabajo del chip WTM2101 en reconocimiento de voz es el siguiente:
Procesamiento de front-end de señales de voz: la señal de voz se procesa mediante filtrado, extracción de características MFCC y otros pasos de procesamiento para convertirla en una secuencia de vector de características correspondiente.
Extracción de características del modelo DNN: la secuencia de vectores de características se utiliza como entrada, y la extracción y clasificación de características se realizan a través del modelo DNN para obtener la representación de alto nivel de la señal de voz.
Modelado temporal del modelo HMM: la salida del modelo DNN se utiliza como entrada y el modelado temporal se realiza a través del modelo HMM para obtener la distribución temporal de la señal de voz.
Reconocimiento y decodificación: la programación dinámica y otros algoritmos se utilizan para reconocer y decodificar la salida del modelo HMM para obtener el resultado de salida de texto final.
El chip WTM2101 tiene las ventajas de bajo consumo de energía, alta precisión y extracción rápida de funciones y modelado temporal a través de la capacidad de procesamiento eficiente de la arquitectura integrada de computación de almacenamiento. Es ampliamente utilizado en los campos de reconocimiento de voz y procesamiento de lenguaje natural.
En el chip WTM2101, la tecnología de reconocimiento de voz basada en la computación en arquitectura de memoria se puede aplicar a escenarios como el control de comandos de voz. Mediante el uso de tecnología de reconocimiento de voz, los dispositivos se pueden controlar mediante comandos de voz, como encender/apagar luces, abrir/cerrar ventanas, etc. El reconocimiento de voz en el chip WTM2101 tiene múltiples funciones, que incluyen, entre otras, los siguientes aspectos:
l Detección de palabras de activación: el motor de activación de voz integrado del chip WTM2101 puede analizar los sonidos ambientales en tiempo real y reconocer rápidamente las palabras de activación para activar la función de reconocimiento de voz del altavoz.
l Reconocimiento de comandos de voz: el motor de reconocimiento de voz en el chip WTM2101 puede reconocer varios tipos de comandos de voz del usuario, incluidos control de música, control de dispositivos, preguntas y respuestas, etc. Los usuarios pueden controlar fácilmente el altavoz a través de comandos de voz, mejorando la experiencia de interacción y la comodidad de usar.
l Mejora de sonido: el algoritmo de mejora de sonido incorporado en el chip WTM2101 puede lograr funciones como reducción de ruido, supresión de eco y control de ganancia adaptativo de las señales de voz, mejorando la claridad y la estabilidad de las señales de voz, mejorando así la precisión del reconocimiento de voz y el usuario. experiencia.
Actualmente, la función de reconocimiento de voz WTM2101 se aplica a las funciones de reconocimiento y activación de palabras de comando de voz en hogares inteligentes, anteojos inteligentes y otros dispositivos. Se espera que tenga aplicaciones más extensas en el futuro.