【Python】Python Whisperを使用した文字起こし

Pytyon

参考書籍

業務効率化に向けたおすすめの参考書になります。

インストール手順

このセクションでは、WhisperをWindows 10のオペレーティングシステムでPython 3.10を使用してセットアップする方法を説明します。

  • 前提条件:Whisperのインストールと正常な動作には、ffmpegとGitが必要です。これらのツールは事前にシステムにインストールされている必要があります。
  • Python 3.10のインストール:Python 3.10は、Pythonの公式ダウンロードページから入手できます。インストーラーをダウンロードし、「Add Python 3.10 to PATH」のオプションを選択してインストールしてください。
  • Whisperライブラリのインストール:コマンドプロンプトを開き、以下のコマンドを実行してWhisperをインストールします。
    pip install git+https://github.com/openai/whisper.git

使い方

基本的な使用法(CPU)

WhisperはデフォルトでCPUを使用して音声をテキストに変換します。以下のコードはlarge-v3モデルを使用します:

import whisper

# large-v3 モデルのロード
model = whisper.load_model("large-v3")

# 音声ファイルをテキストに変換
result = model.transcribe("path_to_your_audio_file.wav")
print(result["text"])
    

GPUを使用する場合

GPUを使用してWhisperの処理速度を向上させる手順を含めます。適切なCUDA対応ドライバーとライブラリが必要です。

対応している音声ファイルの形式

Whisperは、以下の音声ファイル形式をサポートしています:

  • WAV (.wav)
  • MP3 (.mp3)
  • FLAC (.flac)
  • AAC (.m4a, .aac)
  • OGG (.ogg)

設定の仕方(公式ページ付)

Whisperの設定やモデル選択の詳細については、Whisperの公式GitHubページを参照してください。

コメント

タイトルとURLをコピーしました