實時語音分類與音訊轉錄及情感分析技術探討

語音分類模型的準確度評估至關重要，可使用 scikit-learn 的 accuracy_score 函式比較預測標籤與實際標籤計算準確率。實時語音分類則需載入預訓練模型，並利用 sounddevice 捕捉音訊片段進行預測。OpenAI Whisper 模型提供高精度的音訊轉錄功能，支援多種語言，並可與 pytube 結合下載 YouTube 音訊進行轉錄。情感分析則可使用 Hugging Face transformers 庫，載入預訓練模型判斷文字情感傾向。此外，CNN 模型也適用於音訊資料標籤，透過 Mel 頻譜特徵提取和模型訓練，實作貓狗聲音分類等應用。Librosa 庫提供音訊載入、Mel 頻譜轉換等功能，結合影像調整工具可將音訊特徵轉換為適合 CNN 模型輸入的格式。

評估模型準確度

在開始實時推理之前，需要評估模型的準確度。這可以使用 scikit-learn 的 accuracy_score 函式來完成，該函式比較預測標籤和實際標籤。

from sklearn.metrics import accuracy_score

# 評估模型
accuracy = accuracy_score(y_test, predictions)
print(f"模型準確度：{accuracy * 100:.2f}%")

實時語音分類

現在，讓我們來看看如何實作實時語音分類。首先，需要載入預訓練的語音分類模型。

import joblib

# 載入預訓練模型
voice_classifier = joblib.load("voice_classifier_model.pkl")

捕捉實時音訊

接下來，需要定義一個函式來捕捉實時音訊。這可以使用 sounddevice 的 rec 函式來完成。

import sounddevice as sd
import numpy as np

# 定義捕捉實時音訊的函式
def capture_audio(duration=5, sampling_rate=44100):
    print("錄製中...")
    audio_data = sd.rec(int(sampling_rate * duration), samplerate=sampling_rate, channels=1, dtype='int16')
    sd.wait()
    return audio_data.flatten()

預測語音

現在，需要定義一個函式來預測語音。這可以使用預訓練的語音分類模型來完成。

# 定義預測語音的函式
def predict_voice(audio_sample):
    prediction = voice_classifier.predict([audio_sample])
    return prediction[0]

主程式

最後，需要定義主程式來實作實時語音分類。

# 定義主程式
def real_time_voice_classification():
    while True:
        input("按 Enter 鍵並說幾秒...")
        
        # 捕捉新音訊
        new_audio_sample = capture_audio()
        
        # 預測是否為語音
        prediction = predict_voice(new_audio_sample)
        
        # 輸出預測結果
        print(f"預測結果：{prediction}")

執行主程式

現在，可以執行主程式來實作實時語音分類。

real_time_voice_classification()

圖表翻譯：

此圖示為語音分類模型的實時推理流程。首先，捕捉實時音訊，然後預測是否為語音，最後輸出預測結果。

  flowchart TD
    A[開始] --> B[捕捉實時音訊]
    B --> C[預測語音]
    C --> D[輸出預測結果]
    D --> A

內容解密：

此段程式碼實作了語音分類模型的實時推理。首先，定義了捕捉實時音訊的函式 capture_audio，然後定義了預測語音的函式 predict_voice，最後定義了主程式 real_time_voice_classification。在主程式中，捕捉實時音訊，預測是否為語音，然後輸出預測結果。

使用 OpenAI Whisper 進行音訊轉文字

OpenAI Whisper 是一個開源的自動語音識別（ASR）模型，能夠將音訊轉換為文字。它是在近 700,000 小時的多語言語音資料上進行訓練的，能夠在近 100 種不同的語言中進行音訊轉文字。

安裝 Whisper 模型

首先，需要安裝 Whisper 模型。可以使用 pip 安裝：

pip install git+https://github.com/openai/whisper.git

載入 Whisper 模型

接下來，需要載入 Whisper 模型：

import whisper

model = whisper.load_model("base")

下載 YouTube 音訊

可以使用 pytube 下載 YouTube 音訊：

import pytube

video = pytube.YouTube("https://www.youtube.com/watch?v=VIDEO_ID")
audio = video.streams.filter(only_audio=True).first()
audio.download()

轉換音訊為文字

可以使用 Whisper 模型將音訊轉換為文字：

result = model.transcribe("audio.mp3")
print(result["text"])

結果

轉換結果會儲存在 result["text"] 中。

Whisper 模型優點

Whisper 模型具有以下優點：

高準確率：Whisper 模型在英語語音識別上達到了接近人類水平的準確率。
多語言支援：Whisper 模型支援近 100 種不同的語言。
低成本：Whisper 模型是一個開源模型，使用成本低。

Whisper 模型應用

Whisper 模型可以應用於以下領域：

自動語音識別：Whisper 模型可以用於自動語音識別，例如將音訊轉換為文字。
語音助手：Whisper 模型可以用於語音助手，例如將使用者的語音命令轉換為文字。
音訊轉文字：Whisper 模型可以用於音訊轉文字，例如將音訊檔案轉換為文字檔案。

圖表翻譯：

  graph LR
    A[音訊檔案] -->|轉換|> B[Whisper 模型]
    B -->|識別|> C[文字]
    C -->|輸出|> D[結果]

這個圖表展示了音訊檔案如何透過 Whisper 模型進行轉換和識別，最終輸出為文字結果。

音訊轉文字技術實作

音訊下載與轉換

首先，我們需要下載YouTube上的音訊並轉換為適合的格式。這可以使用pytube庫實作：

from pytube import YouTube

# 下載音訊
yt = YouTube('https://www.youtube.com/watch?v=video_id')
audio = yt.streams.get_audio_only()
audio.download()

這段程式碼下載了YouTube上的音訊並儲存為MP4檔案。

FFmpeg設定

Whisper模型需要音訊資料以WAV格式進行處理，但它可能不支援其他格式。因此，我們需要使用FFmpeg將音訊資料轉換為WAV格式：

import os

# 設定FFmpeg環境變數
os.environ['PATH'] = '/<your_path>/audio-orchestrator-ffmpeg/bin:' + os.environ['PATH']

這段程式碼設定了FFmpeg環境變數，以便我們可以使用FFmpeg進行音訊轉換。

Whisper模型載入與轉錄

現在，我們可以載入Whisper模型並使用它轉錄音訊：

import whisper

# 載入Whisper模型
model = whisper.load_model('base')

# 轉錄音訊
text = model.transcribe('audio_file.mp4')

# 列印轉錄結果
print(text['text'])

這段程式碼載入了Whisper模型並使用它轉錄了音訊檔案。轉錄結果被儲存在text變數中，並可以透過text['text']進行存取。

音訊轉文字示例

以下是另一個音訊轉文字的示例：

model = whisper.load_model('base')

text = model.transcribe('/Users/<username>/PacktPublishing/DataLabeling/Ch11/customer_call_audio.m4a')

print(text['text'])

這段程式碼轉錄了指定的音訊檔案並列印了轉錄結果。

圖表翻譯：

  flowchart TD
    A[音訊下載] --> B[音訊轉換]
    B --> C[Whisper模型載入]
    C --> D[音訊轉錄]
    D --> E[轉錄結果]

這個流程圖表明了音訊轉文字的過程，從音訊下載到音訊轉換、Whisper模型載入、音訊轉錄，最後到轉錄結果。

使用 Hugging Face transformers 進行情感分析

情感分析是一種自然語言處理技術，用於判斷文字的正面或負面情感。以下是使用 Hugging Face transformers 進行情感分析的示例。

安裝 transformers 庫

pip install transformers

載入 transformers 庫

from transformers import pipeline

載入預訓練模型

sentiment_classifier = pipeline('sentiment-analysis')

定義要分析的文字

text = "Hello, I have not received the product yet. I am very disappointed. Are you going to replace if my product is damaged or missed? I will be happy if you replace with new product in case I missed the product due to incorrect shipping address."

進行情感分析

result = sentiment_classifier(text)

顯示結果

print(result)

輸出結果：

[{'label': 'NEGATIVE', 'score': 0.9992625117301941}]

使用 CNN 進行音訊資料標籤

以下是使用 CNN 進行音訊資料標籤的示例。

載入必要的庫

import os
import librosa
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical
from tensorflow.image import resize

定義資料夾結構

data_dir = '../cats_dogs/data/'
classes = ['cat', 'dog']

載入和預處理音訊資料

def load_and_preprocess_data(data_dir, classes, target_shape=(128, 128)):
    data = []
    for class_name in classes:
        class_dir = os.path.join(data_dir, class_name)
        for file_name in os.listdir(class_dir):
            file_path = os.path.join(class_dir, file_name)
            audio, sr = librosa.load(file_path)
            mel_spectrogram = librosa.feature.melspectrogram(y=audio, sr=sr)
            mel_spectrogram = resize(mel_spectrogram, target_shape)
            data.append((mel_spectrogram, classes.index(class_name)))
    return data

分割資料為訓練和測試集

train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

建立 CNN 模型

input_shape = (128, 128, 1)
input_layer = Input(shape=input_shape)
x = Conv2D(32, (3, 3), activation='relu')(input_layer)
x = MaxPooling2D((2, 2))(x)
x = Conv2D(64, (3, 3), activation='relu')(x)
x = MaxPooling2D((2, 2))(x)
x = Flatten()(x)
x = Dense(128, activation='relu')(x)
output_layer = Dense(len(classes), activation='softmax')(x)

model = Model(inputs=input_layer, outputs=output_layer)

編譯模型

model.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

訓練模型

model.fit(train_data, epochs=10, batch_size=32, validation_data=test_data)

評估模型

loss, accuracy = model.evaluate(test_data)
print(f'Test accuracy: {accuracy:.2f}')

儲存模型

model.save('cat_dog_classifier.h5')

載入模型並進行預測

loaded_model = load_model('cat_dog_classifier.h5')
new_audio_file = '../new_audio_file.wav'
new_audio, sr = librosa.load(new_audio_file)
mel_spectrogram = librosa.feature.melspectrogram(y=new_audio, sr=sr)
mel_spectrogram = resize(mel_spectrogram, (128, 128))
prediction = loaded_model.predict(mel_spectrogram)
print(f'Prediction: {classes[np.argmax(prediction)]}')

音訊預處理與特徵提取

在進行音訊分析時，首先需要對音訊檔案進行預處理，以提取出有用的特徵。以下是使用 Python 進行音訊預處理和特徵提取的步驟：

步驟 1：匯入必要的庫

import os
import librosa
import numpy as np
from skimage.transform import resize

步驟 2：定義音訊檔案路徑和類別

data_dir = 'path/to/audio/files'
classes = ['class1', 'class2', 'class3']  # 對應的類別名稱
labels = []

步驟 3：迭代音訊檔案並進行預處理

for i, class_name in enumerate(classes):
    class_dir = os.path.join(data_dir, class_name)
    for filename in os.listdir(class_dir):
        if filename.endswith('.wav'):
            file_path = os.path.join(class_dir, filename)
            audio_data, sample_rate = librosa.load(file_path, sr=None)
            
            # 進行預處理（例如，轉換為 Mel 頻譜並調整大小）
            mel_spectrogram = librosa.feature.melspectrogram(y=audio_data, sr=sample_rate)
            mel_spectrogram = resize(np.expand_dims(mel_spectrogram, axis=-1), (224, 224))  # 調整大小為 224x224
            
            # 將預處理後的音訊特徵儲存起來
            labels.append((mel_spectrogram, i))  # i 代表類別索引

內容解密：

上述程式碼迭代了指定目錄下的所有音訊檔案，對每個音訊檔案進行了預處理。預處理步驟包括：

載入音訊檔案使用 librosa.load() 函式。
將音訊訊號轉換為 Mel 頻譜使用 librosa.feature.melspectrogram() 函式。
將 Mel 頻譜調整大小為 224x224 使用 resize() 函式。

這些步驟可以根據具體需求進行調整，例如選擇不同的預處理方法或調整引數。

圖表翻譯：

以下是音訊訊號轉換為 Mel 頻譜的過程視覺化表示：

  flowchart TD
    A[音訊訊號] --> B[librosa.load()]
    B --> C[librosa.feature.melspectrogram()]
    C --> D[resize()]
    D --> E[Mel 頻譜]

這個流程圖描述了音訊訊號如何被轉換為 Mel 頻譜，並調整大小以便於後續分析或模型輸入。

音訊分類神經網路模型設計

從技術架構視角來看，本文涵蓋了語音分類、音訊轉文字和情感分析等多項技術，並深入探討了使用CNN進行音訊資料標籤的模型訓練、評估和部署流程。其中，根據OpenAI Whisper模型的音訊轉文字方案展現了其在多語言支援和高準確率方面的優勢，而Hugging Face Transformers則簡化了情感分析的實作流程。利用CNN對音訊資料進行標籤分類，結合Mel頻譜等特徵提取方法，展現了深度學習在音訊領域的應用潛力。然而，模型的準確度高度依賴於資料集的質量和標籤的準確性，同時，實時語音分類的效能也受到硬體資源和模型複雜度的限制。對於重視高準確率的應用場景，Whisper模型和CNN模型的組合方案值得深入研究，但需關注模型的計算成本。未來，隨著模型輕量化技術和邊緣計算的發展，預期音訊處理技術將更廣泛地應用於實時互動、智慧語音助手等領域。對於開發者而言，深入理解不同模型的特性和適用場景，並根據實際需求選擇合適的技術方案至關重要。玄貓認為，音訊技術的快速發展將持續推動人機互動體驗的革新，並在更多領域釋放其商業價值。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。