【Python】Python Whisperを使用した文字起こし

Pytyon

2024.05.012024.05.08

目次

参考書籍
インストール手順
使い方
- 基本的な使用法（CPU）
- GPUを使用する場合
対応している音声ファイルの形式
設定の仕方（公式ページ付）

目次

参考書籍
インストール手順
使い方
1. 基本的な使用法（CPU）
2. GPUを使用する場合
対応している音声ファイルの形式
設定の仕方（公式ページ付）

参考書籍

業務効率化に向けたおすすめの参考書になります。

リンク

インストール手順

このセクションでは、WhisperをWindows 10のオペレーティングシステムでPython 3.10を使用してセットアップする方法を説明します。

前提条件：Whisperのインストールと正常な動作には、ffmpegとGitが必要です。これらのツールは事前にシステムにインストールされている必要があります。
Python 3.10のインストール：Python 3.10は、Pythonの公式ダウンロードページから入手できます。インストーラーをダウンロードし、「Add Python 3.10 to PATH」のオプションを選択してインストールしてください。
Whisperライブラリのインストール：コマンドプロンプトを開き、以下のコマンドを実行してWhisperをインストールします。
pip install git+https://github.com/openai/whisper.git

使い方

基本的な使用法（CPU）

WhisperはデフォルトでCPUを使用して音声をテキストに変換します。以下のコードはlarge-v3モデルを使用します：

import whisper

# large-v3 モデルのロード
model = whisper.load_model("large-v3")

# 音声ファイルをテキストに変換
result = model.transcribe("path_to_your_audio_file.wav")
print(result["text"])

GPUを使用する場合

GPUを使用してWhisperの処理速度を向上させる手順を含めます。適切なCUDA対応ドライバーとライブラリが必要です。

対応している音声ファイルの形式

Whisperは、以下の音声ファイル形式をサポートしています：

WAV (.wav)
MP3 (.mp3)
FLAC (.flac)
AAC (.m4a, .aac)
OGG (.ogg)

設定の仕方（公式ページ付）

Whisperの設定やモデル選択の詳細については、Whisperの公式GitHubページを参照してください。

コメント

タイトルとURLをコピーしました