詞彙和詞素是自然語言處理的基本,理解它們的特性對於構建有效的 NLP 模型至關重要。詞彙是語言中具有意義的最小單位,而詞素是構成詞彙的最小語義單位。詞彙的類別、組合以及詞類系統的演變都會影響 NLP 模型的設計和效能。不同語言的詞序、語法和發音系統也需要在 NLP 模型中加以考慮。此外,形態論、語氣系統和動詞變化等語言學概念也是 NLP 研究的重要組成部分。
詞彙、詞素與術語
在前兩章中,我們探討了語言的基本單位。當這些單位在時間(語音)或空間(書寫)中串接在一起時,偶爾會出現意義。形態學研究的是意義的基本單位,稱為詞素。
詞彙
詞彙很重要! 《神秘博士》第13季第8集《維拉·迪奧達蒂的鬼魂》 「在死亡和我們之間,有文字。」 ——Jean-Luc André d’Asciano,《Efroyabl Ange1》序言
有人可能會問,詞素位於哪裡。讀者可以證明,詞素位於詞彙中。但是,什麼是詞彙? 參照Packard [32, p. 7] 的話, […] 無論語言如何,我們很難提供一個能涵蓋所有並且只包含我們直覺認為是詞彙的實體的確切定義。 更不用說「詞彙」這個詞本身具有多重含義:我們都同意「cat」是一個詞彙,但在「I’ll have a word with him」或法語「toucher un mot à quelqu’un」中,「word」具有討論或訓斥的含義。在德語中,同樣的詞「Wort」可以具有單個詞彙或言辭的含義。在第一種情況下,複數形式為「Wörter」(如「Wörterbuch」),在第二種情況下,複數形式為「Worte」(如Mendelssohn的「Lieder ohne Worte」)。
graph LR A[詞彙] -->|包含|> B[詞素] B -->|組成|> C[意義] C -->|表達|> D[語言]
圖表翻譯:
上述Mermaid圖表展示了詞彙、詞素、意義和語言之間的關係。詞彙包含詞素,詞素組成意義,意義透過語言表達。這個圖表視覺化了語言的基本結構和意義的形成過程。
# 詞彙處理範例
import re
def extract_morphemes(text):
# 將文字分割成個別的詞彙
words = re.findall(r'\b\w+\b', text)
# 進一步分割詞彙成詞素
morphemes = []
for word in words:
# 使用簡單的分割規則,實際情況可能更複雜
morphemes.extend(re.findall(r'[a-zA-Z]+', word))
return morphemes
text = "In the previous two chapters, we dealt with the elementary units of speech and writing."
morphemes = extract_morphemes(text)
print(morphemes)
內容解密:
上述Python程式碼示範瞭如何從給定的文字中提取詞素。首先,使用正規表示式將文字分割成個別的詞彙。然後,進一步分割每個詞彙成詞素。注意,這是一個簡化的例子,實際情況可能需要更複雜的分割規則。最終,程式碼輸出了一串列表,包含了從原始文字中提取出的詞素。
自然語言處理中的詞彙單位
在西方語言中,詞彙通常被視為圖形序列或詞典條目及其變化形式。然而,這些標準都存在不完整和模糊的地方。另一方面,一些語言學家認為,詞彙在語言學中尚未被充分研究。例如,Goddard和Wierzbicka認為,詞彙是語言學的核心業務,系統地探索詞彙的含義是語言學的重要組成部分。
詞彙的基本單位:lexeme
為了更好地定義詞彙的概念,我們將從lexeme的概念開始。lexeme是詞彙學的基本單位,可以被視為詞典中的條目。lexeme可以有變化形式,例如動詞的不同時態或名詞的不同格。這些變化形式被稱為詞彙。
詞彙的組成:morpheme
詞彙可以由morpheme組成,morpheme是語言中的最小意義單位。morpheme可以透過變化、派生和組合等方式形成詞彙。例如,“un-“和”-able"是兩個morpheme,可以組合成"unable”。
詞彙的類別:part of speech
詞彙可以分為不同的類別,例如名詞、動詞、形容詞等。這些類別被稱為part of speech(POS)。POS是詞彙學中的基本概念,幫助我們瞭解詞彙的功能和意義。
詞彙的組合:term
當多個詞彙組合在一起時,可以形成一個新的概念或意義。這種組合被稱為term。term是特定領域或知識中的詞彙組合,例如"自然語言處理"或"人工智慧"。
內容解密:
以上內容介紹了詞彙的基本概念和組成,包括lexeme、morpheme、part of speech和term等。這些概念是自然語言處理中的重要組成部分,幫助我們瞭解詞彙的功能和意義。
圖表翻譯:
graph LR A[lexeme] --> B[morpheme] B --> C[part of speech] C --> D[term] D --> E[natural language processing]
以上圖表展示了詞彙的組成和關係,從lexeme到morpheme,然後到part of speech和term,最終到自然語言處理。
詞類系統的演變與國際標準
在語言學中,詞類系統是指用於分類詞彙的方法。早在公元前200年,希臘語法學家 Dionysius 就已經對詞類進行了研究和記錄。他的作品中提到了幾種基本的詞類,包括名詞、動詞、形容詞和副詞。這些詞類至今仍然是語言學中重要的研究物件。
在現代,美國的 Common Core State Standards 對詞類的教學進行了規範,將名詞、代詞、動詞、形容詞和副詞作為第三年級的基礎技能之一。值得注意的是,除了形容詞之外,其他四種詞類在 Dionysius 的作品中已經被提及。這表明,詞類系統在過去的22個世紀中基本上沒有發生重大變化。
國際上,“Universal Dependencies”(UD)框架提供了一套通用的詞類標籤系統。這套系統被稱為"universal part-of-speech tags"(UPOS),它涵蓋了大多數語言中常見的詞類。UD 框架中的 UPOS 標籤包括:
- 名詞(NOUN):包括普通名詞和專有名詞
- 動詞(VERB):包括主要動詞和助動詞
- 形容詞(ADJ):用於描述名詞的性質
- 代詞(PRON):用於代替名詞
- 限定詞(DET):包括冠詞和其他限定詞
- 數詞(NUM):用於表示數量
- 副詞(ADV):用於描述動詞、形容詞或其他副詞
- 介詞(ADP):包括前置詞和後置詞
- 連線詞(CCONJ):用於連線詞彙或子句
- 從屬連線詞(SCONJ):用於引導從屬子句
這些 UPOS 標籤為語言學研究和自然語言處理提供了一個統一的基礎,使得不同語言之間的比較和分析成為可能。
圖表翻譯:
graph LR A[詞類系統] --> B[名詞] A --> C[動詞] A --> D[形容詞] A --> E[代詞] A --> F[限定詞] A --> G[數詞] A --> H[副詞] A --> I[介詞] A --> J[連線詞] A --> K[從屬連線詞] style A fill:#f9f,stroke:#333,stroke-width:4px style B fill:#ccc,stroke:#333,stroke-width:4px style C fill:#ccc,stroke:#333,stroke-width:4px style D fill:#ccc,stroke:#333,stroke-width:4px style E fill:#ccc,stroke:#333,stroke-width:4px style F fill:#ccc,stroke:#333,stroke-width:4px style G fill:#ccc,stroke:#333,stroke-width:4px style H fill:#ccc,stroke:#333,stroke-width:4px style I fill:#ccc,stroke:#333,stroke-width:4px style J fill:#ccc,stroke:#333,stroke-width:4px style K fill:#ccc,stroke:#333,stroke-width:4px
內容解密:
上述的詞類系統是語言學中的一個基本概念。透過對詞類的研究和分析,可以更好地理解語言的結構和語法規則。這對於自然語言處理和語言學研究具有重要的意義。透過使用 UPOS 標籤,可以統一不同語言的詞類系統,促進語言之間的比較和分析。
詞彙類別與語言結構
在語言學中,詞彙可以分為多個類別,包括名詞、代詞、形容詞、副詞、介詞、連詞、感嘆詞等。每個類別都有其特定的功能和用法。
名詞
名詞可以分為專有名詞和普通名詞。專有名詞是指特定的實體,如「倫敦」、「克拉拉」或「博士」。普通名詞則是指一類實體,如「城鎮」、「人」或「想法」。名詞還可以分為可數名詞和不可數名詞。可數名詞是指可以數量的名詞,如「人」、「盒子」或「詞彙」。不可數名詞則是指不能數量的名詞,如「黃油」、「傢俱」等。
代詞
代詞是指代名詞或名詞短語的詞彙。它們可以分為指示代詞、不定代詞、疑問代詞、否定代詞、所有代詞和關係代詞等。例如,「那」是指示代詞,「一些」是不定代詞,「哪一個」是疑問代詞,「沒有」是否定代詞,「我的」是所有代詞,「那個」是關係代詞。
形容詞
形容詞是用來修飾名詞或代詞的詞彙。它們可以分為前置形容詞和後置形容詞。例如,「一個可愛的房子」中的「可愛的」是前置形容詞,而「房子很可愛」中的「可愛」是後置形容詞。形容詞還可以被名詞化,例如,「這些是最好的」。
副詞
副詞是用來修飾動詞、形容詞或其他副詞的詞彙。它們可以表示程度、時間、地點、方式等。例如,「我慢慢地喝水」中的「慢慢地」是副詞,「我在家」中的「在家」是介詞短語。
介詞
介詞是用來表示名詞或代詞與其他詞彙之間的關係的詞彙。例如,「在」、「於」、「以」等都是介詞。
感嘆詞
感嘆詞是用來表達情感的詞彙。例如,「哦」、「啊」、「哇」等都是感嘆詞。
詞彙轉換
詞彙可以透過轉換來改變其類別。例如,「魚」可以作為名詞或動詞,「說」可以作為動詞或名詞。這種轉換可以透過新增字首或字尾來實作,例如,「愛」可以透過新增字尾「-ly」來轉換為副詞「lovely」。
結語
語言學中的詞彙類別和語言結構是非常複雜和多樣的。每個類別都有其特定的功能和用法,詞彙可以透過轉換來改變其類別。瞭解詞彙類別和語言結構可以幫助我們更好地理解和使用語言。
內容解密:
以上內容介紹了語言學中的詞彙類別和語言結構,包括名詞、代詞、形容詞、副詞、介詞、連詞、感嘆詞等。同時,也介紹了詞彙轉換的概念,包括新增字首或字尾來改變詞彙的類別。這些知識可以幫助我們更好地理解和使用語言。
圖表翻譯:
graph LR A[詞彙類別] --> B[名詞] A --> C[代詞] A --> D[形容詞] A --> E[副詞] A --> F[介詞] A --> G[連詞] A --> H[感嘆詞] B --> I[專有名詞] B --> J[普通名詞] C --> K[指示代詞] C --> L[不定代詞] D --> M[前置形容詞] D --> N[後置形容詞] E --> O[程度副詞] E --> P[時間副詞] F --> Q[表示地點的介詞] F --> R[表示方式的介詞] G --> S[連線詞] H --> T[感嘆詞]
這個圖表展示了詞彙類別和其子類別的關係,幫助我們更好地理解語言學中的詞彙類別和語言結構。
4.4 形態素
如前所述,當語言中的基本音韻單位或字母單位按照特定的語言規則組合在一起時,就會產生意義。這些最小的意義單位被稱為形態素。例如,當我們組合音素 /k/、/æ/ 和 /t/,或組合字母
當我們想要指代多隻貓時,我們會在「cat」後面新增音素 /s/ 或字母 。這個音素或字母可以被視為具有「複數」的抽象意義。因此,它也是形態素的一種,但它只能與其他形態素一起使用。這種形態素被稱為界限形態素或語法形態素。所有可以獨立使用的形態素被稱為自由形態素。
4.5 變化
變化是語言學中一個重要的現象,指的是將自由形態素與界限形態素結合起來,以改變數量、性別、定義性、格、人稱、情態、聲、體、時態和程度等屬性。對於名詞和形容詞,變化被稱為變格;對於動詞,變化被稱為變位。例如,「go」、「goes」、「went」和「going」都屬於同一個詞彙「(to) go」。
不同的語言中,變化的方式可能會有所不同。每種語言都有其自己的數量、性別和格的組合。例如:
- 英語:2 個數量,0 個性別,5 個格
- 法語:2 個數量,2 個性別,0 個格
- 德語:2 個數量,3 個性別,4 個格
這些語言特徵對於語言學研究和自然語言處理具有重要意義。
語言結構的多樣性
語言的結構和特點可以千差萬別,反映出人類文化和思維的多樣性。例如,古希臘語、俄語、阿拉伯語、芬蘭語和日語等,都有自己獨特的語法和句法結構。
在俄語中,使用格位可以區分主語和賓語。例如,句子“мальчик съел вишню”(男孩吃了櫻桃)和“вишню съел мальчик”(櫻桃被男孩吃了),雖然詞序不同,但由於“мальчик”具有主格的空間形態素,和“вишню”具有賓格的“ю”形態素,兩句話的意思仍然相同,都是“男孩吃了櫻桃”。
這種語言特點在法語和其他固定詞序語言中是不同的。在法語中,詞序相對固定,主語通常在前,賓語在後。然而,在一些語言中,詞序的變化可以表達不同的意思。
語言的多樣性
語言的多樣性不僅體現在詞序上,也體現在語法、發音和詞彙上。例如,阿拉伯語的詞彙豐富,具有複雜的詞法系統,而日語的發音系統則相對簡單,但具有豐富的詞彙和語法結構。
內容解密:
在上述內容中,我們探討了語言的多樣性,包括詞序、語法和發音系統的差異。透過對不同語言的比較,可以更深入地瞭解語言的複雜性和豐富性。同時,也可以看到,語言的多樣性是人類文化的重要組成部分,值得我們去尊重和學習。
圖表翻譯:
graph LR A[語言多樣性] --> B[詞序] A --> C[語法] A --> D[發音系統] B --> E[俄語] B --> F[法語] C --> G[阿拉伯語] D --> H[日語]
在這個圖表中,我們可以看到語言的多樣性包括詞序、語法和發音系統等方面。俄語和法語在詞序上有所不同,而阿拉伯語和日語在語法和發音系統上也有自己的特點。這個圖表可以幫助我們更好地理解語言的多樣性和複雜性。
語言結構與形態學
在語言結構中,詞序是指詞語在句子中的排列方式。例如,在英語中,主語通常放在動詞前面,賓語則放在動詞後面。這種詞序對於語言的語法和意義有重要影響。
形態學中的十個語法類別
形態學是研究詞語形態的學科,以下是十個語法類別的簡要介紹:
- 數量:表示物體的數量,例如單數和複數。在一些語言中,數量的表現方式是透過新增特定的字尾或字首來實作的。
- 性別:語言中的性別系統通常包括陽性和陰性兩種類別。在一些語言中,性別的表現方式是透過新增特定的字尾或字首來實作的。
俄語中的數量表現
在俄語中,數量的表現方式比較複雜。例如,在「книга」(書)這個詞中,單數的主格形式是「книга」,而複數的主格形式是「книги」。對於兩到四個物體,俄語使用不同的字尾,例如「книги」;而對於五個或更多物體,俄語使用另一個不同的字尾,例如「книг」。
結語
語言結構和形態學是語言學中兩個重要的研究領域。透過研究語言結構和形態學,可以更深入地瞭解語言的語法和意義,並可以更好地掌握語言的使用方法。
語言學基礎:形態與句法
語言學中,形態和句法是兩個基本概念,分別關注詞彙的內部結構和詞彙之間的組合方式。在探討語言的形態和句法時,需要了解各種語言特徵,如性別、定義性、格等。
性別(Grammatical Gender)
性別是指在某些語言中,名詞和形容詞根據其語法性別進行分類。這種分類可能與實際的生物性別無關,例如法語中的太陽(le soleil)是陽性,而月亮(la lune)是陰性。德語中,形容詞的性別會影響其字尾,例如陽性使用"-er",陰性使用"-e",而中性使用"-es"。
定義性(Definiteness)
定義性是指語言中區分已知實體和未知實體的能力。例如英語中的定冠詞"The"和不定冠詞"a",阿拉伯語中使用玄貓/n/來表示不定性,書寫時在詞尾新增玄貓。
格(Case)
格是指名詞和其修飾詞根據其在句子中的語法功能進行的變化。常見的格包括主格(主語)、屬格(所有者)、與格(間接物)、賓格(直接物)、呼格(被呼喚者)、離格(離開)和具格(工具或手段)。例如俄語中的"кукла",根據其在句子中的位置和功能會有不同的變化。
形態和句法的重要性
瞭解語言的形態和句法對於正確地表達和理解語言內容至關重要。它們影響著詞彙的選擇、句子的結構和整體的語言風格。無論是在日常溝通還是在技術檔案中,正確掌握形態和句法規則都是非常重要的。
內容解密:
上述內容簡要介紹了語言學中的形態和句法基本概念,包括性別、定義性和格的概念。這些概念在語言學中非常重要,因為它們影響著詞彙的使用和句子的結構。透過瞭解和掌握這些概念,可以更好地理解和使用語言。
圖表翻譯:
graph LR A[語言學] --> B[形態] A --> C[句法] B --> D[性別] B --> E[定義性] C --> F[格] D --> G[陽性/陰性/中性] E --> H[定/不定] F --> I[主格/屬格/與格/賓格/呼格/離格/具格]
這個Mermaid圖表簡要展示了語言學中形態和句法的基本結構,包括性別、定義性和格的子類別。這有助於視覺化地理解語言學中的這些概念和它們之間的關係。
語言學中的形態論
語言學中的形態論是研究語言中詞彙的內部結構和詞彙之間的關係的學科。它關注於詞彙的形態變化和詞彙的組成。
詞彙的形態變化
詞彙的形態變化是指詞彙在不同的語法環境中出現的不同形式。例如,在俄語中,名詞的格變化就會出現不同的形態變化。俄語名詞的格變化包括主格、屬格、與格、賓格和方位格等。
- 主格的形態變化:例如,俄語中「doll」的主格形態變化為「doll」。
- 屬格的形態變化:例如,俄語中「doll」的屬格形態變化為「doll-ы」。
- 與格的形態變化:例如,俄語中「doll」的與格形態變化為「doll-е」。
- 賓格的形態變化:例如,俄語中「doll」的賓格形態變化為「doll-е」。
- 方位格的形態變化:例如,俄語中「doll」的方位格形態變化為「doll-ой」。
格變化的比較
不同的語言中,格變化的形態變化也不相同。例如,在希臘語中,人稱的格變化就會出現不同的形態變化。例如,希臘語中「human」的格變化為「-ε」。
在芬蘭語中,格變化的形態變化也會出現不同的形式。例如,芬蘭語中「house」的格變化為「-lta」。
人稱的區別
人稱的區別是指語言中對於不同的人稱的區分。例如,在德語中,第一人稱的形態變化為「-eche」,第二人稱的形態變化為「Du sprichst」。
內容解密:
上述內容解釋了語言學中的形態論,包括詞彙的形態變化和人稱的區別。透過對不同的語言(如俄語、希臘語、芬蘭語和德語)的比較,可以看出語言中詞彙的形態變化和人稱的區別是多樣的。
flowchart TD A[語言學] --> B[形態論] B --> C[詞彙的形態變化] C --> D[俄語的格變化] D --> E[主格、屬格、與格、賓格、方位格] E --> F[希臘語的格變化] F --> G[芬蘭語的格變化] G --> H[人稱的區別] H --> I[德語的人稱區別]
圖表翻譯:
此圖表展示了語言學中的形態論的內容,包括詞彙的形態變化和人稱的區別。圖表從語言學開始,然後分支到形態論,接著是詞彙的形態變化,然後是不同的語言(如俄語、希臘語、芬蘭語和德語)的格變化和人稱的區別。
語法學中的語氣系統
語氣是指語言中用來表達說話者對所說內容的態度或情感的語法形式。它是語法學中的一個重要概念,常見的語氣包括直述語氣、虛擬語氣、條件語氣、命令語氣、願望語氣和命令遠人語氣等。
直述語氣
直述語氣用於描述事實或現實的情況。例如,在法語中,「il a」表示「他有」,是一個直述語氣的例子。
虛擬語氣
虛擬語氣用於描述假設或虛擬的情況。例如,在法語中,「(il) aie」是一個虛擬語氣的例子,表示「他可能有」或「他該有」。
條件語氣
條件語氣用於描述依賴於某些條件的情況。例如,在法語中,「(il) aurait」是一個條件語氣的例子,表示「他會有」或「他應該有」。
命令語氣
命令語氣用於發出命令或要求。例如,在法語中,「aie」是一個命令語氣的例子,表示「讓他有」或「給他」。
願望語氣
願望語氣用於表達願望或希望。例如,在希臘語中,「λύοις」是一個願望語氣的例子,表示「希望你能解決」。
命令遠人語氣
命令遠人語氣用於對遠處的人發出命令。例如,在芬蘭語中,「eläköön」是一個命令遠人語氣的例子,表示「讓他/她/它活下去」。
結語
語氣系統是語言中的一個重要組成部分,透過語氣的不同表達,可以傳達出說話者的態度、情感和意圖。瞭解語氣系統可以幫助我們更好地理解和使用語言,同時也可以豐富我們的語言表達能力。
內容解密:
以上內容介紹了語法學中的語氣系統,包括直述語氣、虛擬語氣、條件語氣、命令語氣、願望語氣和命令遠人語氣等。每種語氣都有其特定的用途和表達方式,透過語氣的不同表達,可以傳達出說話者的態度、情感和意圖。
圖表翻譯:
flowchart TD A[語氣系統] --> B[直述語氣] A --> C[虛擬語氣] A --> D[條件語氣] A --> E[命令語氣] A --> F[願望語氣] A --> G[命令遠人語氣] B -->|描述事實|> H[現實情況] C -->|描述假設|> I[虛擬情況] D -->|描述依賴|> J[條件情況] E -->|發出命令|> K[命令] F -->|表達願望|> L[希望] G -->|對遠處發出命令|> M[命令遠人]
此圖表展示了語氣系統的不同分支和其對應的表達方式,可以幫助我們更好地理解語氣系統的結構和功能。
語言學中的動詞變化
在語言學中,動詞的變化是指動詞在不同的語法環境下,形態的改變。這些變化可以反映出動詞的時態、體、語氣、主語人稱和數等語法特徵。
語氣
語氣是指動詞表達的語法特徵,表示動詞所描述的動作或狀態的方式。常見的語氣有:
- 祈使語氣:用於命令或請求某人做某事。例如芬蘭語中的“-köön”是祈使語氣的形態,表示命令或請求。
- 虛擬語氣:用於表示假設或條件的情況下。例如英語中的“would”是虛擬語氣的表現。
從技術架構視角來看,理解詞彙、詞素和術語的關係,以及詞類系統和動詞變化的機制,對於自然語言處理至關重要。本文深入剖析了詞彙的組成,從詞素到詞彙,再到詞類和術語,並以不同語言的示例,如英語、法語、德語、俄語、希臘語、芬蘭語、阿拉伯語和日語,闡述了語言結構的多樣性。同時,文章也探討了形態學中的語法類別,如數量、性別、格等,以及動詞的語氣變化。雖然目前自然語言處理在處理這些複雜的語言現象,特別是跨語言的形態變化和語氣系統方面仍面臨挑戰,但透過持續研究不同語言的特性,並將其整合到演算法中,將能提升自然語言處理的精確度和效率。玄貓認為,隨著機器學習技術的進步,自然語言處理將能更有效地捕捉語言的細微差別,並在機器翻譯、文字分析和語音識別等領域取得更大的突破。接下來的幾年,將是自然語言處理技術從理解基本詞彙單位到掌握更深層語義理解的關鍵時期。