Python 物件導向程式設計與函式運用精要

身為一個在台灣擁有豐富經驗的技術工作者，我發現 Python 的簡潔和強大在於它對物件導向程式設計（OOP）的原生支援以及靈活的函式運用。Python 融合了 OOP 的核心概念，讓程式碼更具組織性、可重複使用性，也更容易維護。以下我將分享一些 Python OOP 和函式的核心概念與實務技巧。

物件導向程式設計：建構程式碼的根本

物件導向程式設計讓程式碼更貼近現實世界，透過類別和物件的概念，模擬真實世界的實體和行為。

類別與物件：藍圖與實體

類別就像藍圖，定義了物件的結構和行為。物件則是類別的例項，擁有自己的資料和行為。

class Dog:
    def __init__(self, name, breed):  # 加入 breed 引數
        self.name = name
        self.breed = breed  # 初始化 breed 屬性

    def bark(self):
        print(f"{self.name} ({self.breed}) 汪汪叫！")  # 顯示品種

my_dog = Dog("Buddy", "黃金獵犬")  # 指定品種
my_dog.bark()  # 輸出：Buddy (黃金獵犬) 汪汪叫！

這段程式碼定義了一個 Dog 類別，具有 name 和 breed 屬性，以及 bark() 方法。__init__ 方法是建構子，用於初始化物件的屬性。建立 my_dog 物件時，傳入 “Buddy” 和 “黃金獵犬” 作為引數，初始化 name 和 breed 屬性。bark() 方法印出狗狗的叫聲，並顯示狗狗的品種。

繼承：程式碼的傳承與擴充套件

子類別可以繼承父類別的屬性和方法，減少程式碼重複，並建立更具彈性的程式碼結構。

class Animal:
    def __init__(self, name):
        self.name = name

    def speak(self):
        print("動物發出聲音")

class Dog(Animal):  # Dog 繼承自 Animal
    def speak(self):  # 覆寫 speak() 方法
        print(f"{self.name} 汪汪叫！")

class Cat(Animal):  # Cat 繼承自 Animal
    def speak(self):  # 覆寫 speak() 方法
        print(f"{self.name} 喵喵叫！")

my_dog = Dog("Buddy")
my_cat = Cat("Kitty")

my_dog.speak()  # 輸出：Buddy 汪汪叫！
my_cat.speak()  # 輸出：Kitty 喵喵叫！

Animal 類別是父類別，Dog 和 Cat 類別是子類別。子類別繼承了父類別的 name 屬性和 speak() 方法，並覆寫了 speak() 方法以提供自己的實作。

  classDiagram
    Animal <|-- Dog
    Animal <|-- Cat
    class Animal{
        +name : str
        +__init__(name: str)
        +speak()
    }
    class Dog{
        +speak()
    }
    class Cat{
        +speak()
    }

此圖表清楚地展現了 Animal、Dog 和 Cat 類別之間的繼承關係，Dog 和 Cat 都繼承自 Animal。

Python 函式：程式碼的模組化利器

函式是可重複使用的程式碼塊，讓程式碼更簡潔易懂。

定義與呼叫函式

使用 def 關鍵字定義函式，並使用函式名稱加上括號來呼叫函式。

def greet(name):
    print(f"你好，{name}！")

greet("玄貓")  # 呼叫 greet() 函式，輸出：你好，玄貓！

這段程式碼定義了一個名為 greet 的函式，它接受一個 name 引數，並印出問候訊息。呼叫 greet() 函式時，傳入 “玄貓” 作為引數。

(後續切片處理方式相同，移除所有標記，並依照規範重新創作內容)

Python 的條件判斷與指令稿執行

身為一位經驗豐富的軟體開發者，我經常使用 Python 撰寫各種程式。Python 的條件判斷和指令稿執行方式非常靈活，讓我能輕鬆應付各種開發情境。以下我將分享一些我的心得和技巧。

條件判斷：引導程式流程

if-else 結構是 Python 中控制程式流程的關鍵。它允許我們根據不同的條件執行不同的程式碼區塊。

score = 85

if score >= 90:
    grade = "A"
elif score >= 80:
    grade = "B"
elif score >= 70:
    grade = "C"
else:
    grade = "D"

print(f"你的成績等級為：{grade}")

這段程式碼根據學生的分數賦予對應的字母等級。elif 讓程式碼更簡潔易讀，避免巢狀 if-else 的複雜性。

更簡潔的寫法是使用條件表示式（三元運算元）：

age = 20
status = "成年" if age >= 18 else "未成年"
print(f"你的狀態：{status}")

三元運算元能精簡程式碼，讓條件判斷更一目瞭然。

Python 指令稿執行：多種途徑

執行 Python 指令稿的方式有很多種，我通常會根據實際情況選擇最合適的方法：

IDE (例如 PyCharm、VS Code): IDE 提供完整的開發環境，包括除錯、程式碼提示等功能，非常適合開發和測試。
終端機: 在終端機使用 python script_name.py 命令執行指令稿，適合自動化任務和快速測試。
Jupyter Notebook/Lab: 適合互動式程式設計、資料分析和視覺化。
Docker 容器: Docker 提供隔離的執行環境，確保程式碼在不同環境下的一致性，適合佈署和跨平台執行。

我強烈建議使用虛擬環境來管理專案的依賴套件，避免版本衝突。

  graph LR
    A[選擇執行環境] --> B(IDE)
    A --> C(終端機)
    A --> D(Jupyter)
    A --> E(Docker)

上圖展示了不同的 Python 指令稿執行方式。選擇哪種方式取決於開發者的需求和專案特性。

探討 Python 指令碼執行方式

在開發過程中，我發現理解不同 Python 指令碼執行方式的優缺點至關重要。以下我將探討終端機、PyCharm 和 Docker 容器三種執行方式，並分享一些實務經驗。

終端機執行：簡潔高效

python hello.py

直接在終端機使用 python 命令執行指令碼是最基本的方式，簡潔高效。

  graph LR
    A[終端機] --> B(python hello.py)

PyCharm 執行：功能強大

PyCharm 提供強大的除錯和程式碼分析功能，大幅提升開發效率。

  graph LR
    A[PyCharm] --> B(設定直譯器)
    B --> C(執行指令碼)

在 PyCharm 中執行指令碼前，需要設定 Python 直譯器，通常 PyCharm 會自動偵測虛擬環境。

Docker 執行：環境一致性

docker run -it -v $(pwd):/app python:3.9-slim-buster bash
python /app/hello.py

Docker 容器提供一致的執行環境，避免了 “在我的機器上可以跑” 的問題。-v 引數將目前目錄掛載到容器中，讓容器可以存取指令碼檔案。

hello.py 範例

def greet(name):
    return f"Hello, {name}!"

if __name__ == "__main__":
    print(greet("World"))

這個簡單的 hello.py 指令碼定義了一個 greet 函式，並在主程式中呼叫它印出 “Hello, World!"。 if __name__ == "__main__": 確保程式碼只在直接執行指令碼時才會執行，避免在被其他模組匯入時執行。

我通常會根據專案的規模和複雜度選擇不同的執行方式。小型專案或快速測試，我會選擇終端機；大型專案或需要除錯，我會選擇 PyCharm；需要佈署或確保環境一致性，我會選擇 Docker。

選擇適合的執行方式能有效提升開發效率，讓開發流程更加順暢。

在自然語言處理（NLP）領域，N-grams 模型扮演著舉足輕重的角色。它能夠捕捉文字中的詞語序列模式，應用於文字分析、機器翻譯等多個領域。本文將由淺入深地探討 N-grams 模型的原理，並示範如何使用不同的 Python 套件構建 N-grams 模型。

N-grams 模型基礎概念

N-grams 模型的核心概念是將文字分解成連續的 N 個詞語序列（或字元序列）。這些序列稱為 N-grams。例如，對於句子 “The quick brown fox jumps over the lazy dog”，它的 bi-grams (2-grams) 如下：

“The quick”
“quick brown”
“brown fox”
“fox jumps”
“jumps over”
“over the”
“the lazy”
“lazy dog”

N-grams 的大小（N 的值）可以根據實際需求調整。較大的 N 值可以捕捉更長程的詞語關聯，但同時也可能導致資料稀疏性問題。

Python 套件實作 N-grams

以下將示範如何使用 NLTK、spaCy、TextBlob、Scikit-learn 和 Hugging Face 等 Python 套件建立 N-grams 模型。

使用 NLTK 建立 N-grams

from nltk.util import ngrams
import nltk

nltk.download('punkt')

text = "The quick brown fox jumps over the lazy dog"
n = 2  # 設定 N-grams 的大小
tokens = nltk.word_tokenize(text) # 使用 nltk 的斷詞功能
bigrams = list(ngrams(tokens, n))
print(bigrams)

這段程式碼使用 NLTK 的 ngrams 函式來建立 bi-grams（n=2）。首先，使用 nltk.word_tokenize 將文字切分成單詞列表，然後使用 ngrams 函式生成 bi-grams 列表。

使用 spaCy 建立 N-grams

import spacy

nlp = spacy.load("en_core_web_sm")
text = "The quick brown fox jumps over the lazy dog"
n = 3 # 設定 N-grams 的大小

doc = nlp(text)
ngrams = []
for token in doc:
    if token.i < len(doc) - n + 1 :
      ngram = doc[token.i:token.i+n]
      ngrams.append(ngram.text)


print(ngrams)

這段程式碼使用 spaCy 進行 N-grams 建立。首先，載入英文語言模型 en_core_web_sm。接著，將文字使用 nlp 物件處理。最後，使用迴圈與切片生成 N-grams 列表。

使用 TextBlob 建立 N-grams

from textblob import TextBlob

text = "The quick brown fox jumps over the lazy dog"
n = 2  # 設定 N-grams 的大小
blob = TextBlob(text)
bigrams = blob.ngrams(n)
print(bigrams)

這段程式碼使用 TextBlob 建立 N-grams。首先，將文字轉換為 TextBlob 物件，然後使用 ngrams 函式生成 N-grams 列表。

使用 Scikit-learn 建立 N-grams

from sklearn.feature_extraction.text import CountVectorizer

text = ["The quick brown fox jumps over the lazy dog"]
n = 2  # 設定 N-grams 的大小
vectorizer = CountVectorizer(ngram_range=(n, n))
X = vectorizer.fit_transform(text)
feature_names = vectorizer.get_feature_names_out()
for feature_name in feature_names:
    print(feature_name)

這段程式碼使用 Scikit-learn 的 CountVectorizer 建立 N-grams。ngram_range 引數設定 N-grams 的範圍，這裡設定為 (n, n) 表示只生成 n-grams。fit_transform 函式將文字轉換為詞頻矩陣，get_feature_names_out 函式則傳回 N-grams 的特徵名稱。

使用 Hugging Face 建立 N-grams

from transformers import AutoTokenizer

text = "The quick brown fox jumps over the lazy dog"
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize(text)
bigrams = [(tokens[i], tokens[i + 1]) for i in range(len(tokens) - 1)]
trigrams = [(tokens[i], tokens[i + 1], tokens[i + 2]) for i in range(len(tokens) - 2)]

for bigram in bigrams:
    print(bigram)

for trigram in trigrams:
    print(trigram)

這段程式碼使用 Hugging Face 的 AutoTokenizer 進行 tokenization，然後生成 bi-grams 和 tri-grams。首先，載入預訓練的 bert-base-uncased tokenizer。接著，使用 tokenize 函式將文字轉換為 tokens 列表。最後，使用列表切片生成 bi-grams 和 tri-grams 列表。

本文介紹了使用不同 Python 套件建立 N-grams 模型的方法，開發者可以根據自身需求選擇合適的套件。N-grams 模型在文字分析、機器翻譯等領域有著廣泛的應用，理解其原理並掌握其使用方法對於 NLP 開發者至關重要。

  graph LR
A[NLTK] --> D{N-grams 模型}
B[spaCy] --> D
C[TextBlob] --> D
E[Scikit-learn] --> D
F[Hugging Face] --> D

透過以上實作範例，我們可以看到不同套件在建立 N-grams 模型上的差異。NLTK 提供了基礎的 ngrams 函式，spaCy 則更注重於文字的語法結構分析，TextBlob 簡化了 N-grams 的生成過程，Scikit-learn 適用於特徵工程，而 Hugging Face 則提供了更進階的 tokenization 方法。選擇哪種套件取決於具體的應用場景和需求。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。