Установка и использование программы Whisper Desktop на локальный компьютер для преобразование текста в речь
Одной из лучших больших языковых моделей для преобразования человеческой речи в текст считается Whisper. Её главные плюсы это бесплатность, поддержка работы с более чем 100 языками качественный готовый результат и возможность запускать локально, на своем компьютере.
Правда у обычных пользователей возникают проблемы как с установкой Whisper на компьютер в том виде, так и использованием, которое делается через командную строку. Сторонние разработчики стали свои надстройки над Whisper которые помогают установить и использовать программу через более привычный графический интерфейс.
Но неудобстве установки и использовании все не оканчивается. Используемые по умолчанию библиотеки заточены под видеокарты Nvidia, на видеокартах других производителей или с использованием процессора время обработки звука увеличивается в разы. В некоторых сборках Whisper эта проблема решена, при запуске на видеокартах AMD и Intel, производительность критически не не падает
Идеальным решением для обычного пользователя будет Whisper, который удобно устанавливать, есть графическая оболочка для работы и поддержка работы на видеокартах AMD и Intel в операционной системе Windows. Такое программе есть, называется она Whisper Desktop.
Whisper Desktop основана на базе проекта whisper.cpp написанном на C/C++, где избавились от зависимости сторонних библиотек и оптимизирован для работы с AMD и Intel графическими чипами.
Установка Whisper Desktop
Скачиваем отсюда https://github.com/Const-me/Whisper/releases файл под названием «WhisperDesktop.zip». Распаковываем файлы из полученного архива в отдельную папку, чтоб удобней было удалять Whisper, когда приложение больше не понадобиться. На этом установка программы завершена, которая запускаем двойным кликом по исполняемому файл «WhisperDesktop.exe».
Так же нам понадобятся модели которые используется для распознавания речи, которые можно скачать https://huggingface.co/ggerganov/whisper.cpp/tree/main. Лучше остановить свой выбор на «ggml-medium.bin» или «ggml-medium.en.bin», если речь только об английском языке. Не используйте языковые модели третей версии, которые имеют в названии «v3». Все из-за того что в Whisper Desktop используются старые исходные коды в которые не поддерживают языковые модели третьей версии.
Настройка Whisper Desktop
Во время первого запуска Whisper Desktop нас нужно будет сделать первоначальные настройки работы программы. В строке «Model Path» выбираем языковую модель которую хотим преобразовать из речи в текст, а в «Mode Implementation:» выбираем «GPU», чтоб использовалась видеокарта для обработки звука. Нажимает «OK» чтоб сохранить изменения.

Использование Whisper Desktop
1. В строке выбираем «Transcribe Path» (1) с какой видео и аудио файл должен обработать Whisper Desktop.
2. Из выпадающего меню «Output Format:» (2) выбираем в каком формате должен быть сохранен распознанный текст. Доступно четыре варианта «Text file» обычный текст, «Text with timestamps» текст с часовыми метками когда была сказана фраза, «SubRip subtitres» файл субтитрами с который поддерживает работу все современные видеоплееры и «WebVtt subtitres» файл с субтитрами для использования HTML5.
3. В строке под «Output Format:» (3) выбираем папку и название файла в который будет сохранен распознанный текст. Ширение файла автоматически добавляется в зависимости от выбранного формата. Или можно поставить галочку «Place that file to the input folder», чтоб файл сохранился в папке с видео или аудио файлом для которого человеческий голос был преобразован в текст.

4. Пункт «Debug Console» (4) позволяет вывести консоль в который будет выводиться лог работы программы, чтоб наглядно видеть что именно она делает.
5. Для старта перевода человеческого голоса в текст нажимаем «Transcribe».
6. По окончанию обработки аудио, откроется окно со статистикой работы, а имеет длительность аудио, сколько времени на её обработку ушло и насколько быстрой шла
Для возвращения к начальному меню настройке работы программы из рабочего окна , нужно нажать кнопку «BACK». Так же вместо файла в качестве источника аудио можно использовать звук записанный с микрофона, для переключения нужно нажать кнопку «Audio Capture».
Для быстрой работы Whisper Desktop желательно, что видеокарта имела не меньше 4 гигабайта памяти. Если памяти меньше, то используйте меньшие модели распознания речи, чтоб увеличить скорость работы.
Как создать bat-файл в Windows
Как скачать видео из интернета используя утилиту yt-dlp
Как перенести файловую систему WSL на другой диск или в другую папку