登录

格镜:视频内容提取文字、音频分离、翻译一站式免费指南

作者:格镜编辑部
发布时间:

格镜视频转换文字,格镜视频提取音频,格镜视频提取文案,格镜视频提取软件,格镜视频替换

如何把视频里的字幕/台词一键转成可编辑文字?

打开格镜「视频内容提取文字」页面,无需注册即可上传 500 MB 以内、时长 ≤30 min 的 MP4/MOV/MKV 文件。系统先调用 Whisper 本地模型做语音转写,再叠加 OCR 识别画面内硬字幕,双重校对后返回带时间轴的 SRT 与纯文本 TXT。实测 10 min 1080P 短视频,转写准确率 97%,中文方言、中英混说都能自动分角色。完成后可直接在线修改、导出 Word,也能把字幕包一键压回视频。整个过程完全免费,不扣点数、不留水印,比剪映/必剪的“识别字幕”更省导出步骤。

对比维度 格镜 剪映专业版 必剪
是否收费 0 元 限 720P 免费 限 1080P 免费
离线可用 支持 不支持 不支持
方言识别 支持 仅普通话 仅普通话

只想把视频里的背景音乐或人声单独保存成 MP3,有免费方案吗?

格镜「视频提取音频免费」工具把封装格式和编码分离做到极致:上传视频后,服务器自动列出所有音轨(最多支持 8 轨),你可以勾选“仅保留人声”或“仅保留背景乐”,甚至把多语言配音分别导出。算法基于 Pyannote 说话人分离 + Demucs 音源分离模型,本地 GPU 推理,3 min 短片 10 秒即可拿到 320 kbps MP3。若视频本身带有 5.1 声道,系统会默认混音成双声道,避免耳机听歌出现“只有伴奏”的尴尬。导出文件可直接用于播客剪辑、二次配音或翻译字幕的对轴,全程不走第三方云端,隐私零泄露。

外文视频想加中文字幕,又不想手动翻译怎么办?

在格镜走完“提取文字”后,页面会弹出「视频内容翻译」选项,支持英/日/韩/西/法等 28 种语言→中文双向互译。引擎调用自研 LLM 垂直模型,对比 Google Translate 减少了 32% 的口语文本错译,还把时间轴自动对齐到 0.1 s 级精度。举例:25 min 英文科技评测,原文 4 800 字,系统 40 s 完成翻译,并高亮专有名词(如 Wi-Fi 7、Ray Tracing)供人工复核。完成后可打包生成双语 SRT、ASS 特效字幕或直接内嵌硬字幕,B 站、抖音上传不会被二次压缩。全部功能依旧免费,不限翻译次数。

语言对 格镜翻译 BLEU Google 翻译 BLEU 人工评分
英→中 46.3 41.7 7.8/10
日→中 44.9 39.2 7.5/10

手机拍的长视频,流量不够上传怎么办?

格镜提供“边传边压”的省流模式:先在浏览器里调用 WebCodecs API,把原始 H.264 码率从 20 Mbps 降到 4 Mbps,同时保留 1080P 清晰度,1 GB 文件可压至 200 MB 左右;压缩完自动进入“视频内容提取文字”队列,整体耗时只比原文件多 30 秒。如果你连上传都嫌麻烦,可在电脑端安装格镜离线包,把模型下载到本地,CPU 轻薄本也能跑,16 min 4K 视频 20 分钟转写完毕,完全不消耗手机流量。

提取出的文字/音频能否直接做知识库,供 AI 问答使用?

可以。格镜后台开放 JSONL 导出格式,把每句字幕、对应时间戳、说话人 ID、翻译文本打包成结构化数据;再搭配官方「LLM 语料清洗」脚本,可自动去除语气词、重复口癖,生成适合大模型训练的干净语料。已有用户把 200 条 Tech Review 视频导出后喂给 ChatGLM,做垂直科技问答机器人,命中率提升 18%。音频方面,系统支持按句切片输出 16 kHz WAV,方便后续做语音合成或声纹识别。整套流程依旧 0 元开放,比手动 Audition 切片节省 90% 时间。

为什么选择格镜?

从“视频内容提取文字”到“视频提取音频免费”再到“视频内容翻译”,格镜把三条刚需链路做成一键串联,不走付费墙、不埋水印、不偷传云端,还给出可二次开发的结构化数据。对于内容创作者、知识博主、翻译志愿者来说,它既是效率工具,也是 AI 语料工厂,一次性解决字幕、音频、翻译、训练四大痛点,免费且开源,值得常驻浏览器收藏夹。视频提取音频免费格镜