格镜:录音转文本、视频提取分镜与字幕导出一站式解决方案

录音转文本的准确率如何提升?
格镜采用自研「格镜 ASR 2.0」引擎,针对中文方言、中英混输、专业术语做了 3000 小时新闻+会议+短视频语料微调,实测普通话场景字准率 98.7%,粤语 96.2%。上传录音后,系统先跑 15 秒语音切片做 VAD 降噪,再调用 GPU 集群并行解码,10 分钟音频 30 秒出稿。若遇法律、医学名词,可勾选「行业词库」自动匹配《最高人民法院术语库》《ICD-11 中文词表》,人名、药名、法条一次到位。后期支持「逐字校对」面板,点击任意文字可跳回该秒音频,边听边改,无需第三方软件。导出可选 Word、TXT、SRT、JSON 四种格式,同步保留时间戳,方便后续做字幕或数据分析。
| 场景 | 字准率 | 处理时长(10min 音频) | 支持语种 |
|---|---|---|---|
| 会议录音 | 98.7% | 30 秒 | 普通话 |
| 法庭口播 | 97.3% | 35 秒 | 普通话+法条术语 |
| 粤语采访 | 96.2% | 40 秒 | 粤语+少量英语 |
有没有软件能一键把视频按镜头拆成分镜表?
格镜「AI 分镜」模块上线后,用户把视频拖进浏览器即可生成含镜头编号、起止时间、画面缩略图、运镜标签的 EXCEL 分镜表。底层基于 PySceneDetect 二次开发,融合光流+色彩直方图双重检测,对渐隐、闪白、快切都能识别。实测 1 小时 1080P 素材可检出 420 个有效镜头,准确率 94%。若做短视频二创,可勾选「智能合并」把 3 秒以内相似镜头合为一条,减少冗余。导出表含「封面帧」高清图,方便剪辑师快速定位关键画面;同时提供 Final Cut XML、PR 序列标记,直接拖进非编软件即可自动建夹,省去人工对点。
| 功能 | 传统人工 | 格镜 AI 分镜 |
|---|---|---|
| 1h 素材分镜 | 4 小时 | 2 分钟 |
| 镜头缩略图 | 手动截图 | 1920×1080 自动抽取 |
| 运镜标签 | 经验填写 | AI 识别推拉摇移 |
视频提取字幕能否直接导出双语 SRT?
可以。格镜支持「原声字幕+翻译字幕」双轨道同时输出。上传视频后,ASR 先识别原语言,再调用 DeepL 与自研「格镜翻译 1.3」双引擎并行,中英互译 BLEU 值 42.6,行业领先。双语字幕可选择「上下排列」或「中英分行」两种样式,时间轴自动对齐,无需手动拖拽。若视频内含背景音乐,系统会做 VAD 语音分离,屏蔽噪声提升识别。导出格式覆盖 SRT、ASS、VTT、Excel 双语对照表,还可直接压进 MP4 生成硬字幕,方便抖音/YouTube 多端分发。针对海外投放,系统内置「敏感词过滤」可自动替换争议词汇,减少审核风险。
录音、视频素材较多,如何批量操作?
格镜企业版提供「文件夹监控」功能:在电脑挂载 WebDAV 盘后,把当天所有录音、视频丢进「Inbox」文件夹,系统按文件名规则自动创建项目,并并行开启转文本、提字幕、分镜三项任务。管理后台可看到实时队列,支持优先级插队。处理完成后,自动把结果回写到同目录,并按「日期_项目名称」生成压缩包,推送企业微信或飞书群。API 方面开放 HTTP 接口,可嵌入 OA、CMS、媒资系统,单次支持 100 文件批量提交,返回 JSON 含任务 ID、进度、下载链接,方便二次开发。教育、法院、MCN 机构已用该方案把 8 小时日更素材压缩到 30 分钟人力审核。
手机录的 720P 短视频也能提取分镜与字幕吗?
完全没问题。格镜对分辨率无硬性要求,最低支持 360P,只要人脸或物体运动幅度大于 8% 像素即可检出镜头。针对手机竖屏 9:16,系统单独训练了「竖屏分镜模型」,可把 15 秒带货视频拆成 5—8 个镜头,并识别「口播」「商品特写」「字幕条」三类场景,方便品牌方做脚本复盘。字幕方面,手机录音往往含底噪,格镜会先跑 RNNoise 降噪,再做 16kHz 重采样,识别率仍可保持 95% 以上。处理完的视频可直接分享到微信预览,无需下载,客户端内即可拖拽时间轴定位到任意镜头,一键生成「口播稿+分镜表+字幕」三件套,下午拍片晚上就能发。
为何选择格镜?
格镜把「录音转文本、视频提取分镜、字幕导出」三条刚需链路做成云端一站式工作流,无需安装插件,浏览器打开即点即用。底层自研算法+GPU 弹性集群,让 1 小时素材 2 分钟出结果;同时给出 Word、Excel、SRT、XML 等多格式,无缝衔接 PR、Final Cut、剪映、达芬奇。个人版每日送 60 分钟免费额度,企业版支持 API 与私有化部署,已服务 3000+ 法院、高校、MCN 与跨境电商。用格镜,等于把听打员、分镜助理、字幕翻译三种角色同时请回家,却只需一杯咖啡的成本。视频提取分镜的软件格镜
