根据不同应用场景,采用不同技术方案,实现语音的高准确率识别

1. 一句话识别

采用tdnn+lstm网络结构,以及多领域语言模型,实现一分钟内的语音毫秒级响应速度的高准确率转文字

2. 实时语音识别

对音频流进行实时识别,实现所听即所见,不仅准确率高、而且延迟低

3. 录音文件识别

采用cnn+transformer端到端模型,以及领域语言模型rescore的方法,将录音文件高准确率的的转为文本


优势

1. 技术领先性

业内领先的cnn+transformer端到端的技术

2. 多语种

不仅支持中英文识别,而且支持日、韩、法、德等语种的语音识别

3. 多领域模型

不仅具有通用领域识别能力,而且建立教育、餐饮、经济等多个垂直领域声学以及语言模型模型

4. 智能标点

对识别结果进行高准确率的逗号、句号、感叹号、问号等智能标点预测,使得结果可读性强