参考書籍
業務効率化に向けたおすすめの参考書になります。
リンク
インストール手順
このセクションでは、WhisperをWindows 10のオペレーティングシステムでPython 3.10を使用してセットアップする方法を説明します。
- 前提条件:Whisperのインストールと正常な動作には、ffmpegとGitが必要です。これらのツールは事前にシステムにインストールされている必要があります。
- Python 3.10のインストール:Python 3.10は、Pythonの公式ダウンロードページから入手できます。インストーラーをダウンロードし、「Add Python 3.10 to PATH」のオプションを選択してインストールしてください。
- Whisperライブラリのインストール:コマンドプロンプトを開き、以下のコマンドを実行してWhisperをインストールします。
pip install git+https://github.com/openai/whisper.git
使い方
基本的な使用法(CPU)
WhisperはデフォルトでCPUを使用して音声をテキストに変換します。以下のコードはlarge-v3
モデルを使用します:
import whisper
# large-v3 モデルのロード
model = whisper.load_model("large-v3")
# 音声ファイルをテキストに変換
result = model.transcribe("path_to_your_audio_file.wav")
print(result["text"])
GPUを使用する場合
GPUを使用してWhisperの処理速度を向上させる手順を含めます。適切なCUDA対応ドライバーとライブラリが必要です。
対応している音声ファイルの形式
Whisperは、以下の音声ファイル形式をサポートしています:
- WAV (.wav)
- MP3 (.mp3)
- FLAC (.flac)
- AAC (.m4a, .aac)
- OGG (.ogg)
設定の仕方(公式ページ付)
Whisperの設定やモデル選択の詳細については、Whisperの公式GitHubページを参照してください。
コメント