格镜：视频内容提取文字、音频分离、翻译一站式免费指南

格镜视频转换文字,格镜视频提取音频,格镜视频提取文案,格镜视频提取软件,格镜视频替换

如何把视频里的字幕/台词一键转成可编辑文字？

打开格镜「视频内容提取文字」页面，无需注册即可上传 500 MB 以内、时长 ≤30 min 的 MP4/MOV/MKV 文件。系统先调用 Whisper 本地模型做语音转写，再叠加 OCR 识别画面内硬字幕，双重校对后返回带时间轴的 SRT 与纯文本 TXT。实测 10 min 1080P 短视频，转写准确率 97%，中文方言、中英混说都能自动分角色。完成后可直接在线修改、导出 Word，也能把字幕包一键压回视频。整个过程完全免费，不扣点数、不留水印，比剪映/必剪的“识别字幕”更省导出步骤。

对比维度	格镜	剪映专业版	必剪
是否收费	0 元	限 720P 免费	限 1080P 免费
离线可用	支持	不支持	不支持
方言识别	支持	仅普通话	仅普通话

只想把视频里的背景音乐或人声单独保存成 MP3，有免费方案吗？

格镜「视频提取音频免费」工具把封装格式和编码分离做到极致：上传视频后，服务器自动列出所有音轨（最多支持 8 轨），你可以勾选“仅保留人声”或“仅保留背景乐”，甚至把多语言配音分别导出。算法基于 Pyannote 说话人分离 + Demucs 音源分离模型，本地 GPU 推理，3 min 短片 10 秒即可拿到 320 kbps MP3。若视频本身带有 5.1 声道，系统会默认混音成双声道，避免耳机听歌出现“只有伴奏”的尴尬。导出文件可直接用于播客剪辑、二次配音或翻译字幕的对轴，全程不走第三方云端，隐私零泄露。

外文视频想加中文字幕，又不想手动翻译怎么办？

在格镜走完“提取文字”后，页面会弹出「视频内容翻译」选项，支持英/日/韩/西/法等 28 种语言→中文双向互译。引擎调用自研 LLM 垂直模型，对比 Google Translate 减少了 32% 的口语文本错译，还把时间轴自动对齐到 0.1 s 级精度。举例：25 min 英文科技评测，原文 4 800 字，系统 40 s 完成翻译，并高亮专有名词（如 Wi-Fi 7、Ray Tracing）供人工复核。完成后可打包生成双语 SRT、ASS 特效字幕或直接内嵌硬字幕，B 站、抖音上传不会被二次压缩。全部功能依旧免费，不限翻译次数。

语言对	格镜翻译 BLEU	Google 翻译 BLEU	人工评分
英→中	46.3	41.7	7.8/10
日→中	44.9	39.2	7.5/10

手机拍的长视频，流量不够上传怎么办？

格镜提供“边传边压”的省流模式：先在浏览器里调用 WebCodecs API，把原始 H.264 码率从 20 Mbps 降到 4 Mbps，同时保留 1080P 清晰度，1 GB 文件可压至 200 MB 左右；压缩完自动进入“视频内容提取文字”队列，整体耗时只比原文件多 30 秒。如果你连上传都嫌麻烦，可在电脑端安装格镜离线包，把模型下载到本地，CPU 轻薄本也能跑，16 min 4K 视频 20 分钟转写完毕，完全不消耗手机流量。

提取出的文字/音频能否直接做知识库，供 AI 问答使用？

可以。格镜后台开放 JSONL 导出格式，把每句字幕、对应时间戳、说话人 ID、翻译文本打包成结构化数据；再搭配官方「LLM 语料清洗」脚本，可自动去除语气词、重复口癖，生成适合大模型训练的干净语料。已有用户把 200 条 Tech Review 视频导出后喂给 ChatGLM，做垂直科技问答机器人，命中率提升 18%。音频方面，系统支持按句切片输出 16 kHz WAV，方便后续做语音合成或声纹识别。整套流程依旧 0 元开放，比手动 Audition 切片节省 90% 时间。

为什么选择格镜？

从“视频内容提取文字”到“视频提取音频免费”再到“视频内容翻译”，格镜把三条刚需链路做成一键串联，不走付费墙、不埋水印、不偷传云端，还给出可二次开发的结构化数据。对于内容创作者、知识博主、翻译志愿者来说，它既是效率工具，也是 AI 语料工厂，一次性解决字幕、音频、翻译、训练四大痛点，免费且开源，值得常驻浏览器收藏夹。视频提取音频免费格镜