返回首页

离线转写 + 说话人区分

上传音频,返回带说话人标识与时间戳的文本

后端流程:1) 转 16k/单声道 2) 本地 AutoModel 转写并做 diarization 3) 输出 spk/start/end