音频与视频转文字,无需上传。所有数据在您的浏览器本地处理,实时可见转录进度。
🔒 阅后即焚:数据从未离开这块屏幕。
技术驱动自由
浏览器内 AI 模型本地处理音频,数据物理离线运行,捍卫您的绝对隐私。
无需购买昂贵的 GPU 服务器,没有收费陷阱、订阅模式或隐藏功能。
独特的实时进度环 + 逐句字幕滚动,转录过程全程透明可见,不再等待黑盒。
支持中文、英语、日语等 99 种语言,可自动检测语种,词级时间戳精准定位。
没有服务器限制,转换时长无上限。刷新即清除,放心处理敏感会议纪要。
纯文本 + 带时间戳的 SRT 字幕文件,时间轴视图方便逐句核查和编辑。
使用方法
拖拽音视频文件,或点击录音按钮直接采集。支持所有主流格式,无大小限制。
进度环显示整体完成度,实时字幕区逐句滚动显示识别内容,全程透明可见。
结果即时呈现,可切换时间轴视图,直接编辑,一键导出 TXT 或 SRT 字幕。
隐私承诺
从架构上保证您的音频数据永不离开您的设备。
音频文件在浏览器内处理,不经过任何网络请求,断网后依然可用。
无需注册,无 Cookie 追踪,无广告分析,完全匿名使用。
首次下载后缓存本地,之后完全离线可用,断网照常工作。
我们在技术上无法访问您的音频数据 — 因为它从未经过我们。
常见问题
是的,完全免费。没有文件大小限制、次数限制或时长限制。我们不依赖云端 API,没有按使用量计费的成本,可以永久免费提供服务。
首次使用需要下载 Whisper 模型文件(77MB ~ 776MB,取决于精度选择)。下载完成后缓存到本地,后续启动几乎即时,甚至可以完全离线使用。
可以。VoiceScript 使用 Whisper 的滑动窗口机制,每处理完一个 30 秒片段就立即推送结果,实时字幕区会逐句滚动展示,进度环同步更新完成百分比。
Whisper 是目前开源语音识别中中文表现最好的模型之一。Base 模型准确率已相当高,建议使用 Small 或 Medium 模型获得最佳效果,适合会议记录、采访等场景。
SRT 是最通用的字幕格式,包含序号、时间戳(开始→结束)和文本三部分。可直接导入 Premiere、Final Cut Pro、Aegisub 等剪辑软件,也可上传到 YouTube、Bilibili 等平台。
无需注册,无需下载 App,打开网页就能用。
无需信用卡 · 无需注册 · 永久免费