离线转写 + 说话人区分

上传音频，返回带说话人标识与时间戳的文本

后端流程：1) 转 16k/单声道 2) 本地 AutoModel 转写并做 diarization 3) 输出 spk/start/end

点击选择音频文件或拖拽到这里

输出文本（带说话人和时间戳）