采用tdnn+lstm网络结构,以及多领域语言模型,实现一分钟内的语音毫秒级响应速度的高准确率转文字
对音频流进行实时识别,实现所听即所见,不仅准确率高、而且延迟低
采用cnn+transformer端到端模型,以及领域语言模型rescore的方法,将录音文件高准确率的的转为文本
业内领先的cnn+transformer端到端的技术
不仅支持中英文识别,而且支持日、韩、法、德等语种的语音识别
不仅具有通用领域识别能力,而且建立教育、餐饮、经济等多个垂直领域声学以及语言模型模型
对识别结果进行高准确率的逗号、句号、感叹号、问号等智能标点预测,使得结果可读性强