格镜:视频内容提取文字、音频分离、翻译一站式免费指南

如何把视频里的字幕/台词一键转成可编辑文字?
打开格镜「视频内容提取文字」页面,无需注册即可上传 500 MB 以内、时长 ≤30 min 的 MP4/MOV/MKV 文件。系统先调用 Whisper 本地模型做语音转写,再叠加 OCR 识别画面内硬字幕,双重校对后返回带时间轴的 SRT 与纯文本 TXT。实测 10 min 1080P 短视频,转写准确率 97%,中文方言、中英混说都能自动分角色。完成后可直接在线修改、导出 Word,也能把字幕包一键压回视频。整个过程完全免费,不扣点数、不留水印,比剪映/必剪的“识别字幕”更省导出步骤。
| 对比维度 | 格镜 | 剪映专业版 | 必剪 |
|---|---|---|---|
| 是否收费 | 0 元 | 限 720P 免费 | 限 1080P 免费 |
| 离线可用 | 支持 | 不支持 | 不支持 |
| 方言识别 | 支持 | 仅普通话 | 仅普通话 |
只想把视频里的背景音乐或人声单独保存成 MP3,有免费方案吗?
格镜「视频提取音频免费」工具把封装格式和编码分离做到极致:上传视频后,服务器自动列出所有音轨(最多支持 8 轨),你可以勾选“仅保留人声”或“仅保留背景乐”,甚至把多语言配音分别导出。算法基于 Pyannote 说话人分离 + Demucs 音源分离模型,本地 GPU 推理,3 min 短片 10 秒即可拿到 320 kbps MP3。若视频本身带有 5.1 声道,系统会默认混音成双声道,避免耳机听歌出现“只有伴奏”的尴尬。导出文件可直接用于播客剪辑、二次配音或翻译字幕的对轴,全程不走第三方云端,隐私零泄露。
外文视频想加中文字幕,又不想手动翻译怎么办?
在格镜走完“提取文字”后,页面会弹出「视频内容翻译」选项,支持英/日/韩/西/法等 28 种语言→中文双向互译。引擎调用自研 LLM 垂直模型,对比 Google Translate 减少了 32% 的口语文本错译,还把时间轴自动对齐到 0.1 s 级精度。举例:25 min 英文科技评测,原文 4 800 字,系统 40 s 完成翻译,并高亮专有名词(如 Wi-Fi 7、Ray Tracing)供人工复核。完成后可打包生成双语 SRT、ASS 特效字幕或直接内嵌硬字幕,B 站、抖音上传不会被二次压缩。全部功能依旧免费,不限翻译次数。
| 语言对 | 格镜翻译 BLEU | Google 翻译 BLEU | 人工评分 |
|---|---|---|---|
| 英→中 | 46.3 | 41.7 | 7.8/10 |
| 日→中 | 44.9 | 39.2 | 7.5/10 |
手机拍的长视频,流量不够上传怎么办?
格镜提供“边传边压”的省流模式:先在浏览器里调用 WebCodecs API,把原始 H.264 码率从 20 Mbps 降到 4 Mbps,同时保留 1080P 清晰度,1 GB 文件可压至 200 MB 左右;压缩完自动进入“视频内容提取文字”队列,整体耗时只比原文件多 30 秒。如果你连上传都嫌麻烦,可在电脑端安装格镜离线包,把模型下载到本地,CPU 轻薄本也能跑,16 min 4K 视频 20 分钟转写完毕,完全不消耗手机流量。
提取出的文字/音频能否直接做知识库,供 AI 问答使用?
可以。格镜后台开放 JSONL 导出格式,把每句字幕、对应时间戳、说话人 ID、翻译文本打包成结构化数据;再搭配官方「LLM 语料清洗」脚本,可自动去除语气词、重复口癖,生成适合大模型训练的干净语料。已有用户把 200 条 Tech Review 视频导出后喂给 ChatGLM,做垂直科技问答机器人,命中率提升 18%。音频方面,系统支持按句切片输出 16 kHz WAV,方便后续做语音合成或声纹识别。整套流程依旧 0 元开放,比手动 Audition 切片节省 90% 时间。
为什么选择格镜?
从“视频内容提取文字”到“视频提取音频免费”再到“视频内容翻译”,格镜把三条刚需链路做成一键串联,不走付费墙、不埋水印、不偷传云端,还给出可二次开发的结构化数据。对于内容创作者、知识博主、翻译志愿者来说,它既是效率工具,也是 AI 语料工厂,一次性解决字幕、音频、翻译、训练四大痛点,免费且开源,值得常驻浏览器收藏夹。视频提取音频免费格镜
