Whisper 语音转换文字工具,低内存,支持 GPU
OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能 GPGPU 推理
使用 Whisper
在 Model Path 里面选择你下载的模型,然后选择 GPU 就能进入软件了。
Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows] 1
然后通过屏幕允许转录音频文件。
还有另一个屏幕允许从麦克风捕获和转录,或翻译实时音频文件,如 MP3 来转换为文字了。
基于 DirectCompute 的供应商不可知的 GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”
纯 C++ 实现,除了基本的 OS 组件外没有运行时依赖性
比 OpenAI 的实现快得多。
在我配备 GeForce 1080Ti GPU 的中型台式计算机上, 使用 PyTorch 和 CUDA 转录3 分 24 秒的演讲需要 45 秒,但使用我的实现和 DirectCompute 只需要 19 秒。
趣闻:这是 9.63 GB 的运行时依赖项,而 431 KBWhisper.dll
混合 F16 / F32 精度:自 D3D 版本 10.0 起,Windows 需要缓冲区 的支持R16_FLOAT
内置性能分析器,可测量单个计算着色器的执行时间
内存使用率低
用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis 除外),以及大多数在 Windows 上运行的音
...查看全文