語音辨識

5 Articles

Whisper模型微調Hill Mari語音轉文字

2025年10月12日 – 7 分鐘閱讀

本文探討如何使用 Whisper 模型進行 Hill Mari 語言的語音轉文字任務，並涵蓋資料準備、模型推論、評估與微調等關鍵步驟。文章首先示範如何載入 Common Voice 資料集，接著使用預訓練的 Whisper small 模型進行語音轉文字，並以詞錯誤率 (WER) 評估模型效能。為了提升模型在

深度學習語音技術模型Whisper與Wav2Vec2比較分析

2025年01月29日 – 15 分鐘閱讀

本文比較分析了 Whisper 和 Wav2Vec2 兩種根據 Transformer 的語音識別模型，探討了它們的架構、效能和應用場景。Whisper 支援多語言轉錄、語音活動偵測等功能，Wav2Vec2 則在執行速度和記憶體佔用方面表現更佳。文章還介紹了語音轉文字的評估指標 WER 和 CER，以及如何使用

語音語義系統架構與時間邏輯事件圖應用

2025年01月16日 – 16 分鐘閱讀

本文探討語音語義系統架構，並深入研究時間邏輯與事件圖在自然語言理解中的應用，特別是 Discourse Representation Structure (DRS) 的構建過程。文章以 Alain 醒來的例子示範如何利用語法樹、Rory 函式和 Python 程式碼實作 DRS 的構建，並以 Plantuml

音高變化與語音特徵分析應用

2024年11月19日 – 19 分鐘閱讀

本文探討音高變化在音樂創作中的應用，並深入分析語音特徵如音量、音質和音調，如何影響語音辨識和語音合成等應用。文章提供 Python 程式碼範例，示範音高調整的實際操作，並以流程圖闡述語音分析的步驟。

微調Whisper模型實作HillMari語音辨識

2024年02月17日 – 11 分鐘閱讀

本文探討如何微調 Whisper 模型以實作 Hill Mari 語音辨識，涵蓋資料前處理、模型組態、訓練引數調整、WER 指標計算及模型評估。此外，文章也介紹如何使用 SpeechT5 模型進行文字轉語音，並探討其在威爾斯語上的應用，以及相關的倫理考量。