使用 Whisper、FFmpeg 和 Python 為影片自動生成字幕

在現代數位內容製作中，為影片加上字幕已經成為提升觀看體驗和內容可及性的重要環節。過去，製作字幕往往需要耗費大量時間和人力，但隨著人工智慧技術的進步，我們現在可以運用自動化工具大幅提升字幕製作的效率。

技術環境準備

在開始實作之前，首先需要建立適當的開發環境。我們將使用以下工具：

Python：作為主要的開發語言
OpenAI Whisper：用於語音識別和轉錄
FFmpeg：處理影片和音訊檔案

建立專案環境

首先建立專案資料夾並設定 Python 虛擬環境：

mkdir whisper-subtitle-generator
cd whisper-subtitle-generator
python3 -m venv .venv
source .venv/bin/activate

安裝必要套件

接著安裝 WhisperX，這是一個最佳化版的 Whisper 實作：

pip install git+https://github.com/m-bain/whisperx.git

影片轉錄核心實作

建立主程式檔案 main.py，實作影片轉錄功能：

from datetime import timedelta
import os
import whisperx

def transcribe_video(input_video):
    # 設定基本引數
    batch_size = 32
    compute_type = "float32"
    device = "cpu"
    
    # 載入模型
    model = whisperx.load_model("large-v2", 
                               device=device, 
                               compute_type=compute_type)
    
    # 載入音訊
    audio = whisperx.load_audio(input_video)
    
    # 執行轉錄
    result = model.transcribe(audio, 
                            batch_size=batch_size, 
                            language="en")
    
    # 載入對齊模型
    model_a, metadata = whisperx.load_align_model(
        language_code=result["language"], 
        device=device
    )
    
    # 進行時間軸對齊
    result = whisperx.align(
        result["segments"], 
        model_a, 
        metadata, 
        audio, 
        device, 
        return_char_alignments=False
    )
    
    segments = result["segments"]

內容解密

讓我來解析這段程式碼的重要部分：

基本引數設定：
- batch_size = 32：設定批次處理大小，用於最佳化記憶體使用
- compute_type = "float32"：指定運算精確度
- device = "cpu"：設定使用 CPU 進行運算，也可改用 GPU
模型載入：
- 使用 whisperx.load_model() 載入 “large-v2” 模型
- 這個模型具有較高的準確度，適合專業用途
音訊處理：
- whisperx.load_audio() 從影片中提取音訊
- 自動處理各種影片格式，確保音訊品質
轉錄流程：
- 先執行基本轉錄得到文字內容
- 再透過對齊模型進行時間軸校正
- 確保字幕與音訊同步

字幕檔案生成

接下來實作將轉錄結果輸出為 SRT 格式字幕檔：

    # 檢查並刪除既有字幕檔
    if os.path.exists("subtitles.srt"):
        os.remove("subtitles.srt")
    
    # 處理每個語音段落
    for index, segment in enumerate(segments):
        # 格式化時間戳記
        startTime = str(0) + str(timedelta(
            seconds=int(segment['start']))) + ',000'
        endTime = str(0) + str(timedelta(
            seconds=int(segment['end']))) + ',000'
        
        # 取得轉錄文字
        text = segment['text']
        
        # 組合 SRT 格式
        segment_text = f"{index + 1}\n{startTime} --> {endTime}\n"
        segment_text += f"{text[1:] if text[0] == ' ' else text}\n\n"
        
        # 寫入檔案
        with open("subtitles.srt", 'a', encoding='utf-8') as srt:
            srt.write(segment_text)

內容解密

這段程式碼主要處理字幕檔案的生成：

檔案管理：
- 檢查是否存在舊的字幕檔
- 如果存在就先刪除，避免內容混淆
時間格式處理：
- 將秒數轉換為 SRT 格式的時間戳記
- 確保時間格式符合 00:00:00,000 的標準格式
字幕格式化：
- 為每個段落編號
- 加入開始和結束時間
- 處理文字內容，移除多餘空格
檔案輸出：
- 使用 UTF-8 編碼確保多語言支援
- 採用追加模式寫入檔案

在實際開發過程中，玄貓發現這種模組化的設計不僅提高了程式碼的可維護性，也讓整個字幕生成流程更加穩定可靠。透過適當的錯誤處理和格式驗證，能夠確保生成的字幕檔案符合業界標準。

自動化字幕生成技術不僅大幅提升了內容製作的效率，也為聽障者提供了更好的觀看體驗。透過這套解決方案，創作者可以將更多精力投入在內容本身的製作上，而不是繁瑣的字幕製作過程。隨著人工智慧技術的不斷進步，未來這類別工具的準確度和效能還會持續提升，為數位內容創作帶來更多可能性。

在現代影音內容製作中，自動生成字幕已經成為提升內容可及性的重要功能。今天玄貓要分享如何使用 WhisperX 和 Python 來實作影片自動生成字幕的功能。這個解決方案不僅能提供準確的語音辨識，還能產生具有精確時間戳記的 SRT 格式字幕檔。

系統架構設計

在開始實作之前，讓我們先了解整個系統的架構設計。這個系統主要包含三個核心部分：

影片音訊擷取與處理
使用 WhisperX 進行語音辨識
產生 SRT 格式字幕檔

環境建置與套件安裝

首先需要安裝必要的 Python 套件：

from datetime import timedelta
import os
import whisperx

核心功能實作

影片轉寫功能實作

讓我們來看主要的轉寫功能如何實作：

def transcribe_video(input_video):
    # 設定基本引數
    batch_size = 32
    compute_type = "float32"
    device = "cpu"
    
    # 載入 WhisperX 模型
    model = whisperx.load_model("large-v2", 
                               device=device, 
                               compute_type=compute_type)
    
    # 載入音訊
    audio = whisperx.load_audio(input_video)
    
    # 執行轉寫
    result = model.transcribe(audio, 
                            batch_size=batch_size, 
                            language="en")
    
    # 載入對齊模型
    model_a, metadata = whisperx.load_align_model(
        language_code=result["language"], 
        device=device
    )
    
    # 進行時間對齊
    result = whisperx.align(
        result["segments"], 
        model_a, 
        metadata, 
        audio, 
        device, 
        return_char_alignments=False
    )
    
    return result["segments"]

字幕檔案生成功能

接著實作 SRT 字幕檔案的生成功能：

def generate_srt(segments):
    # 檢查並刪除既有的字幕檔
    if os.path.exists("subtitles.srt"):
        os.remove("subtitles.srt")
    
    # 逐段處理字幕內容
    for index, segment in enumerate(segments):
        # 格式化時間戳記
        start_time = str(0) + str(timedelta(
            seconds=int(segment['start']))) + ',000'
        end_time = str(0) + str(timedelta(
            seconds=int(segment['end']))) + ',000'
        
        # 取得字幕文字
        text = segment['text']
        
        # 組合 SRT 格式
        srt_segment = f"{index + 1}\n{start_time} --> {end_time}\n"
        srt_segment += f"{text[1:] if text[0] == ' ' else text}\n\n"
        
        # 寫入檔案
        with open("subtitles.srt", 'a', encoding='utf-8') as srt_file:
            srt_file.write(srt_segment)
    
    return "subtitles.srt"

程式碼解密

讓我來解析這段程式碼的重要部分：

模型設定：
- batch_size = 32：設定批次處理大小，可根據系統資源調整
- compute_type = "float32"：使用 32 位元浮點數運算
- device = "cpu"：指定使用 CPU 運算，適合一般開發環境
WhisperX 模型載入：
- 使用 large-v2 模型，這是準確度較高的版本
- 模型載入時指定運算裝置和運算類別
音訊處理與轉寫：
- 使用 whisperx.load_audio() 載入音訊
- 透過 model.transcribe() 進行語音轉寫
- 使用語言對齊模型提升時間戳記準確度
SRT 格式處理：
- 使用 timedelta 格式化時間戳記
- 自動處理文字前後的空白字元
- 採用 UTF-8 編碼確保多語言支援

在實際應用中，這個系統展現了優秀的效能和準確度。透過 WhisperX 的強大功能，我們能夠處理各種語言的語音內容，並產生精確的字幕檔案。這個解決方案特別適合需要大量處理影片字幕的專案，例如教育平台、影音內容製作等場景。

在開發過程中，我發現適當的批次處理大小對效能影響重大。經過多次測試，batch_size 設為 32 在大多數情況下能提供最佳的效能平衡。此外，雖然 GPU 能提供更快的處理速度，但考慮到一般開發環境，我選擇預設使用 CPU 進行運算，這樣能確保程式碼在各種環境下都能順利執行。

這個自動生成字幕的解決方案不僅提高了影片製作的效率，也為聽障者提供了更好的觀看體驗。透過精確的時間對齊功能，生成的字幕能完美配合影片內容，大幅提升了字幕的實用性和觀看體驗。

在現代影音內容製作中，字幕已成為不可或缺的元素。不論是為了提升內容的可及性，還是跨語言傳播，自動化的字幕生成系統都能大幅提升工作效率。今天玄貓要分享如何使用Python結合Whisper和FFmpeg，建立一個完整的影片自動字幕生成系統。

字幕生成系統架構設計

我們的系統主要包含三個核心功能模組：

影片語音轉寫
SRT字幕檔案生成
字幕嵌入影片

讓我們逐一實作這些功能。

程式碼實作

首先，這是完整的程式碼實作：

def generate_srt(segments):
    for index, segment in enumerate(segments):
        startTime = str(0) + str(timedelta(seconds=int(segment['start']))) + ',000'
        endTime = str(0) + str(timedelta(seconds=int(segment['end']))) + ',000'
        text = segment['text']
        
        # 格式化SRT片段
        segment = f"{index + 1}\n{startTime} --> {endTime}\n{text[1:] if text[0] == ' ' else text}\n\n"
        
        # 寫入SRT檔案
        srtFilename = os.path.join(f"subtitles.srt")
        with open(srtFilename, 'a', encoding='utf-8') as srtFile:
            srtFile.write(segment)
            
    return srtFilename

def add_srt_to_video(input_video, output_file):
    subtitles_file = 'subtitles.srt'
    
    # 設定FFmpeg命令
    ffmpeg_command = f"""ffmpeg -i {input_video} -vf "subtitles={subtitles_file}:force_style='FontName=Arial,FontSize=10,PrimaryColour=&HFFFFFF,OutlineColour=&H000000,BorderStyle=3,Outline=1,Shadow=1,Alignment=2,MarginV=10'" -c:a copy {output_file} -y """
    
    # 執行FFmpeg命令
    subprocess.run(ffmpeg_command, shell=True)

def main():
    input_video_path = "input.mp4"
    output_file = "output.mp4"
    transcribe_video(input_video_path)
    add_srt_to_video(input_video_path, output_file)

main()

程式碼解析

SRT字幕檔案生成

generate_srt() 函式負責將語音轉寫結果轉換為標準SRT格式：

時間戳記格式化：使用timedelta將秒數轉換為標準時間格式
字幕文書處理：移除可能的前導空格
檔案寫入：使用UTF-8編碼確保多語言支援

字幕嵌入處理

add_srt_to_video() 函式使用FFmpeg進行字幕嵌入：

字型設定：使用Arial字型確保跨平台相容性
字幕樣式：設定白色文字搭配黑色邊框，提升可讀性
位置調整：透過MarginV引數控制字幕垂直位置

主程式流程

主程式設計簡潔明確：

設定輸入影片路徑
執行影片轉寫
進行字幕嵌入
產生最終成品

效能最佳化建議

在實際應用中，玄貓建議可以考慮以下最佳化方向：

使用多執行緒處理大型影片，提升轉寫效率
實作字幕快取機制，避免重複處理
加入錯誤處理機制，提升系統穩定性
考慮使用串流處理，減少記憶體使用

實用擴充套件功能

這個基礎系統還可以擴充套件更多實用功能：

支援多種字幕格式（如ASS、VTT）
加入自動翻譯功能
提供字幕時間軸微調介面
整合OCR功能處理硬字幕影片

在開發自動字幕系統的過程中，玄貓發現平衡準確度和效能是個關鍵挑戰。透過精細調教轉寫引數，並結合適當的後處理流程，我們能夠建立一個既準確又高效的字幕生成系統。這套系統不僅能提升影音內容的製作效率，更能為內容創作者節省大量人工校對時間。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。