Zolkit

播客音频转文字

在浏览器本地把播客音频或视频转成可编辑文字和字幕,AI 自动转写,无需上传,不按分钟收费。

将音频或视频拖到这里

或点击从设备中选择;视频会自动提取音轨

音频:MP3、WAV、M4A、AAC、FLAC、OGG;视频:MP4、MOV、WebM、MKV、M4V

转换后可下载的格式

AI 会生成可编辑文字稿,你可以按后续用途选择合适的下载格式。

TXT
纯文本格式,适合笔记、文档、摘要和内容发布。
SRT
带时间轴的通用字幕,适合视频平台和剪辑软件。
VTT
网页字幕格式,适合 HTML5 播放器、网站和在线课程。

播客转写可用于生成节目笔记、可搜索存档、无障碍内容、引用和短视频素材。选择节目音频或视频,并设置主要语种,即可在设备上生成带时间轴的文字稿;如果选择视频,浏览器会先自动提取音轨再转写。长节目比短片段需要更多内存和时间,建议保持页面打开并使用内存充足的现代桌面设备。完成后校对嘉宾姓名、品牌和生僻词,再导出用于发布的 TXT 或视频字幕所需的 SRT、VTT。

免费 AI 音频转文字,本地运行不上传

Zolkit 使用 AI 将 MP3、WAV、M4A 等音频,以及 MP4、MOV、WebM 等视频中的语音转换为可编辑文字和带时间轴的字幕。选择视频后会在浏览器本地直接提取音轨;整个转写过程在设备上完成,无需上传媒体、调用按分钟收费的云端 API 或注册账号。

多语种 AI 转写

支持简体中文、繁体中文、英语、日语、韩语、西班牙语、法语、德语等多种语言。

音频不上传

录音保留在用户设备中,由浏览器完成转写。

AI 自动识别语种

可以让 AI 自动判断,也可手动指定输出语种提高一致性。

浏览器本地运行

本地 AI 转写保护隐私,也避免按分钟计费的语音 API 成本。

导出前可编辑

直接在浏览器中校对和修改 AI 生成的文字稿。

导出 TXT、SRT、VTT

无需账号,免费保存纯文本或带时间轴的字幕文件。

如何把音频或视频转成文字

  1. 1

    拖入音频或视频文件,选择语种或使用自动识别。

  2. 2

    点击开始转写;视频音轨会自动提取,并由本地 AI 生成文字稿。

  3. 3

    校对文字稿,然后复制或下载 TXT、SRT、VTT 文件。

音频转文字常见问题