語音辨識

5 Articles

Whisper模型微調Hill Mari語音轉文字

本文探討如何使用 Whisper 模型進行 Hill Mari 語言的語音轉文字任務,並涵蓋資料準備、模型推論、評估與微調等關鍵步驟。文章首先示範如何載入 Common Voice 資料集,接著使用預訓練的 Whisper small 模型進行語音轉文字,並以詞錯誤率 (WER) 評估模型效能。為了提升模型在

深度學習語音技術模型Whisper與Wav2Vec2比較分析

本文比較分析了 Whisper 和 Wav2Vec2 兩種根據 Transformer 的語音識別模型,探討了它們的架構、效能和應用場景。Whisper 支援多語言轉錄、語音活動偵測等功能,Wav2Vec2 則在執行速度和記憶體佔用方面表現更佳。文章還介紹了語音轉文字的評估指標 WER 和 CER,以及如何使用

語音語義系統架構與時間邏輯事件圖應用

本文探討語音語義系統架構,並深入研究時間邏輯與事件圖在自然語言理解中的應用,特別是 Discourse Representation Structure (DRS) 的構建過程。文章以 Alain 醒來的例子示範如何利用語法樹、Rory 函式和 Python 程式碼實作 DRS 的構建,並以 Plantuml

音高變化與語音特徵分析應用

本文探討音高變化在音樂創作中的應用,並深入分析語音特徵如音量、音質和音調,如何影響語音辨識和語音合成等應用。文章提供 Python 程式碼範例,示範音高調整的實際操作,並以流程圖闡述語音分析的步驟。

微調Whisper模型實作HillMari語音辨識

本文探討如何微調 Whisper 模型以實作 Hill Mari 語音辨識,涵蓋資料前處理、模型組態、訓練引數調整、WER 指標計算及模型評估。此外,文章也介紹如何使用 SpeechT5 模型進行文字轉語音,並探討其在威爾斯語上的應用,以及相關的倫理考量。