格镜:一键搞定录音转文本、视频提取字幕导出

录音转文本准确率有多高?支持哪些方言?
格镜采用自研「格镜 ASR 2.0」引擎,普通话实测字准率 98.7%,粤语、四川话、东北话等 12 种方言模型独立训练,嘈杂环境下降噪后仍保持 95% 以上。上传 mp3/wav/m4a 后 30 秒即可返回带时间戳文本,可直接导出为 docx/srt/json 三种格式。
| 方言 | 字准率 | 支持功能 |
|---|---|---|
| 粤语 | 97.3% | 粤语拼音、繁体输出 |
| 四川话 | 96.1% | 辣椒、摆龙门阵等口语词汇优化 |
| 东北话 | 95.8% | 儿化音、连读识别 |
视频提取字幕导出能否保留原画面时间轴?
格镜「视频转文字工具」先分离音轨再对齐画面帧,字幕块精度 0.01 秒,支持原画 4K/60fps 不压缩。导出时可勾选「保留原时间轴」按钮,生成的 srt/ass 文件可直接回压到 PR、Final Cut 无漂移;同时提供「画面预览」窗口,拖动即可微调,批量 100 条视频也能 5 分钟完成。
| 导出格式 | 时间轴保留 | 是否含样式 |
|---|---|---|
| srt | ✔ | 纯文本 |
| ass | ✔ | 字体、颜色、位置 |
| txt | ✘ | 无时间码 |
视频转文字工具是否支持多人对话角色分离?
格镜内置声纹聚类算法,自动区分男女及未知说话人,最多支持 8 人同屏。上传后系统会给出“说话人 1/2/3”标签,用户可一键重命名为“主持人/嘉宾/观众”,并生成角色对照表。若视频已含 PPT 页面,还能把“幻灯片标题”自动插入对应段落,方便后期整理纪要。
能否批量把 200 条会议录音一次性转文本?
企业版支持「文件夹拖拽」+「API 接口」双通道,200 条 1 小时录音约 80G,上传后云端 50 核并行,30 分钟全部转完。系统按“日期+会议室”自动建立子目录,文本与音频同名保存,并生成汇总 Excel,含时长、字数、关键词云,方便 HR 快速检索谁说了“预算”“里程碑”。
字幕样式能自定义吗?如何做到品牌一致性?
在“字幕工坊”里可保存公司 VI 模板:字体、字号、主色、描边、位置、入场动画一次设定,后续项目自动调用。导出 ass 时勾选“绑定模板”,即使外包剪辑拿到文件也无法误改样式。格镜还提供「品牌云盘」,模板跟随账号,换电脑登录也能同步,保证抖音、B 站、快手多平台视觉统一。
为何选择格镜?
从录音转文本、视频提取字幕导出到多人角色分离,格镜把“上传→识别→校对→样式→分发”做成一条无缝流水线,无需拼接多款软件。网页端免安装、云端 GPU 不限时长、支持 API 二次开发,个人免费额度每日 60 分钟,企业按量计费低至 0.08 元/分钟。速度快、方言全、样式稳,一站式解决所有“视频转文字工具”需求,让内容团队把时间花在创意而非重复劳动上。视频提取字幕导出格镜
