OpenAI Whisper 语音转文字
地址: 点击打开工具
2025-08-14 更新:
✨ 特性
- 支持iOS设备,iPad iPhone 都能使用。
- 全本地运行:音频文件与模型全部在浏览器内处理,可离线使用。
- 多模型支持:
tiny.en
(75 MB)base.en
(142 MB)small.en
(466 MB)
均为英文识别模型。
- 多输入方式:支持文件上传 & 麦克风录音(最长 2 分钟)。
- 结果下载:转写完成后可一键下载
.txt
纯文本。 - 缓存机制:首次在线获取模型后会缓存在浏览器 IndexedDB,下次直接使用。
- 🎧 支持的音频格式(取决于浏览器内置解码器):
- ✅ WAV(PCM)、MP3、M4A/MP4(AAC) —— 全平台最稳妥
- ⚠️ WebM/Opus、OGG/Opus —— Chrome/Edge 支持良好;Safari/iOS 通常不支持
- 小贴士:若在 iOS 的文件选择器看不到
.wav
,先检查文件是否已下载到本地(无云朵图标)
🛠 待优化
- iOS 端部分机型文件选择器对
.wav
显示不稳定。
操作指南
第一步:加载模型
两种方式:
-
在线获取(需要特殊网络环境)
- 点击
在线获取 tiny.en
/base.en
/small.en
任意一个按钮。 - 首次加载需等待下载完成,完成后模型会自动缓存到浏览器,下次可直接使用。
- 点击
-
本地加载
- 先从其他途径下载模型
.bin
文件(建议 tiny.en 版本,下载更快)。 - 点击 “从本地选择模型” 选择该文件加载。
- 先从其他途径下载模型
提示:❗❗㊙️ 如网速慢,需要手动下载。点击下载 ggml-model-whisper-tiny.en.bin 74M。
第二步:选择输入来源
- 文件(默认):上传本地音频文件。
- 麦克风:点击
开始录音
录制音频(最长 2 分钟),点击停止
结束。
第三步:上传或录制音频
- 上传文件:选择音频文件(支持
.wav
、.mp3
等常见格式)。 - 麦克风录音:录制时会显示进度条,到达上限会自动停止。
第四步:开始转写
- 点击
开始转写
按钮。 - 程序会自动使用当前加载的模型,将音频转为英文文本。
- 转写过程耗时取决于音频长度和电脑性能。
第五步:查看与下载结果
- 转写文本会显示在黑色输出框中。
- 点击
下载转写结果(.txt)
可将纯文本稿保存到本地。