Mr.Mou @ ShiShi AP Center

OpenAI Whisper 语音转文字

January 13, 2024

地址：点击打开工具

2025-08-14 更新：

✨ 特性

支持iOS设备，iPad iPhone 都能使用。
全本地运行：音频文件与模型全部在浏览器内处理，可离线使用。
多模型支持：
- tiny.en（75 MB）
- base.en（142 MB）
- small.en（466 MB）
  均为英文识别模型。
多输入方式：支持文件上传 & 麦克风录音（最长 2 分钟）。
结果下载：转写完成后可一键下载 .txt 纯文本。
缓存机制：首次在线获取模型后会缓存在浏览器 IndexedDB，下次直接使用。
🎧 支持的音频格式（取决于浏览器内置解码器）：
- ✅ WAV（PCM）、MP3、M4A/MP4（AAC） —— 全平台最稳妥
- ⚠️ WebM/Opus、OGG/Opus —— Chrome/Edge 支持良好；Safari/iOS 通常不支持
- 小贴士：若在 iOS 的文件选择器看不到 .wav，先检查文件是否已下载到本地（无云朵图标）

🛠 待优化

iOS 端部分机型文件选择器对 .wav 显示不稳定。

操作指南

第一步：加载模型

两种方式：

在线获取（需要特殊网络环境）
- 点击 在线获取 tiny.en / base.en / small.en 任意一个按钮。
- 首次加载需等待下载完成，完成后模型会自动缓存到浏览器，下次可直接使用。
本地加载
- 先从其他途径下载模型 .bin 文件（建议 tiny.en 版本，下载更快）。
- 点击 “从本地选择模型” 选择该文件加载。

提示：❗❗㊙️ 如网速慢，需要手动下载。点击下载 ggml-model-whisper-tiny.en.bin 74M。

第二步：选择输入来源

文件（默认）：上传本地音频文件。
麦克风：点击 开始录音 录制音频（最长 2 分钟），点击 停止 结束。

第三步：上传或录制音频

上传文件：选择音频文件（支持 .wav、.mp3 等常见格式）。
麦克风录音：录制时会显示进度条，到达上限会自动停止。

第四步：开始转写

点击 开始转写 按钮。
程序会自动使用当前加载的模型，将音频转为英文文本。
转写过程耗时取决于音频长度和电脑性能。

第五步：查看与下载结果

转写文本会显示在黑色输出框中。
点击 下载转写结果（.txt） 可将纯文本稿保存到本地。