Python repr 與單元測試的實務應用

在 Python 開發中，repr() 不僅僅是將物件轉換為字串，它在除錯、物件表示和單元測試中都扮演著關鍵角色。理解 repr() 的精髓，能有效提升程式碼的可讀性、可維護性和穩定性。搭配 unittest 框架和 pdb 除錯器，更能開發出穩固與高效的 Python 應用程式。

repr() 的核心功能是生成物件的「官方」字串表示，理想情況下，這個字串應該能被 eval() 函式執行並重構出原始物件。這在除錯和記錄物件狀態時非常有用。與 str() 不同，repr() 更注重提供物件的精確表示，而非使用者友善的輸出。例如，repr(5) 傳回 5，而 repr('5') 傳回 '5'，清晰地區分了整數和字串型別。對於自定義類別，覆寫 __repr__ 方法能提供更具描述性的物件資訊，方便除錯和程式碼理解。若無法修改類別定義，則可利用 __dict__ 屬性檢視物件的內部狀態。

單元測試是確保程式碼品質的根本。Python 的 unittest 框架提供了一套完善的測試工具，讓開發者能輕鬆編寫和執行測試案例。透過繼承 TestCase 類別並定義以 test_ 開頭的方法，即可建立測試案例。TestCase 提供了豐富的斷言方法，如 assertEqual()、assertTrue() 和 assertRaises()，方便驗證程式碼的行為。此外，setUp() 和 tearDown() 方法允許在每個測試方法執行前後設定和清理測試環境，確保測試的獨立性。

pdb 除錯器是 Python 開發者的另一項利器。透過在程式碼中插入 import pdb; pdb.set_trace()，即可啟動互動式除錯環境。在 pdb 提示符下，可以檢視變數、執行程式碼、逐步執行程式，甚至修改程式狀態，幫助開發者快速定位和解決問題。常用的 pdb 命令包括 bt（顯示呼叫堆積疊）、up 和 down（在呼叫堆積疊中移動）、step、next、return 和 continue（控制程式執行流程）。

效能最佳化是提升程式碼效率的關鍵。然而，盲目最佳化可能事倍功半。在進行最佳化之前，應先使用效能分析工具找出真正的效能瓶頸。Python 內建的 cProfile 模組是一個輕量級與高效的效能分析工具。透過分析 cProfile 生成的報告，可以精確地找出程式碼中耗時的部分，並針對性地進行最佳化。例如，使用 bisect 模組最佳化插入排序法的插入操作，能大幅提升程式碼的執行效率。

玄貓解密：Python repr 的妙用與單元測試之道

在 Python 的世界裡，repr 是一個內建函式，它能將任何 Python 物件轉換成一個可列印的字串。但 repr 的用途不僅僅於此，它在除錯、型別辨識，甚至是物件的自定義表示上都扮演著重要的角色。今天，玄貓就來探討 repr 的奧秘，並分享如何透過單元測試來確保程式碼的穩定性。

`repr`：不僅僅是字串化

repr 的主要目的是提供一個物件的「字串表示形式」，這個字串應該能夠被 eval 函式執行，並重新建立出與原始物件相同的物件。讓我們看幾個例子：

a = '\x07'
print(repr(a))

輸出：

'\x07'

這裡，repr(a) 產生了 '\x07'，這是一個有效的 Python 字串，可以直接用 eval 重新建立原始字串。

b = eval(repr(a))
assert a == b

這個例子展示了 repr 的一個重要特性：它產生的字串可以用來重建物件。

`repr` 與 `print` 的差異

當我們使用 print 函式時，它會呼叫物件的 str 方法，產生一個人類可讀的字串。但 repr 則更注重提供一個明確、無歧義的物件表示形式。

print(repr(5))
print(repr('5'))

輸出：

5
'5'

可以看到，repr(5) 產生 5，而 repr('5') 產生 '5'。這清楚地表明瞭兩者的型別差異。

自定義物件的 `repr`

對於動態 Python 物件，預設的 repr 值通常不太有用。例如：

class OpaqueClass(object):
    def __init__(self, x, y):
        self.x = x
        self.y = y

obj = OpaqueClass(1, 2)
print(obj)

輸出：

<__main__.OpaqueClass object at 0x107880ba8>

這個輸出無法用 eval 執行，也沒提供物件的任何例項資訊。為瞭解決這個問題，我們可以自定義 __repr__ 方法：

class BetterClass(object):
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __repr__(self):
        return 'BetterClass(%d, %d)' % (self.x, self.y)

obj = BetterClass(1, 2)
print(obj)

輸出：

BetterClass(1, 2)

現在，repr 的輸出更有用了，它提供了建立物件所需的資訊。

無法控制類別定義時

如果我們無法修改類別的定義，可以使用物件的 __dict__ 屬性來檢視其內部狀態：

obj = OpaqueClass(4, 5)
print(obj.__dict__)

輸出：

{'y': 5, 'x': 4}

透過 __dict__，我們可以瞭解物件的例項變數及其對應的值。

玄貓的單元測試哲學

Python 是一種動態型別語言，這意味著在執行時才能發現程式碼中的錯誤。為了確保程式碼的品質，單元測試至關重要。

為什麼要寫單元測試？

保險政策：單元測試就像程式碼的保險政策，確保程式碼在修改後仍然能夠正常運作。
程式碼品質：良好的單元測試能夠提高程式碼的可維護性和可讀性。
重構的信心：在重構程式碼時，單元測試能夠幫助我們快速發現潛在的問題。

使用 `unittest` 模組

Python 內建了 unittest 模組，它提供了一套完整的單元測試框架。以下是一個簡單的例子：

假設我們有一個 utils.py 檔案，其中包含一個 to_str 函式：

# utils.py
def to_str(data):
    if isinstance(data, str):
        return data
    elif isinstance(data, bytes):
        return data.decode('utf-8')
    else:
        raise TypeError('Must supply str or bytes, found: %r' % data)

為了測試這個函式，我們可以建立一個 test_utils.py 檔案：

# test_utils.py
from unittest import TestCase, main
from utils import to_str

class UtilsTestCase(TestCase):
    def test_to_str_bytes(self):
        self.assertEqual('hello', to_str(b'hello'))

    def test_to_str_str(self):
        self.assertEqual('hello', to_str('hello'))

    def test_to_str_bad(self):
        self.assertRaises(TypeError, to_str, object())

if __name__ == '__main__':
    main()

在這個例子中，我們定義了一個 UtilsTestCase 類別，它繼承自 unittest.TestCase。每個測試都是一個以 test_ 開頭的方法。

test_to_str_bytes 測試了當輸入為 bytes 時，to_str 函式是否能夠正確轉換。
test_to_str_str 測試了當輸入為 str 時，to_str 函式是否能夠正確傳回。
test_to_str_bad 測試了當輸入為其他型別時，to_str 函式是否能夠正確丟擲 TypeError。

單元測試的藝術：為何玄貓堅持為每個 Python 專案編寫測試

在軟體開發的世界裡，測試如同建房前的地基，是確保專案穩固可靠的根本。玄貓認為，沒有經過充分測試的程式碼，就像行走在薄冰上，隨時可能當機。在 Python 的世界裡，unittest 模組就是我們構建堅實地基的利器。

unittest 提供了一套完整的工具，讓我們可以編寫、組織和執行測試。一個測試案例（test case）就像一個實驗，用來驗證程式碼在特定條件下的行為是否符合預期。如果測試方法在執行過程中沒有引發任何異常（包括 AssertionError），則測試被認為成功透過。

善用 TestCase 進行斷言

TestCase 類別提供了一系列輔助方法，用於在測試中進行斷言。例如：

assertEqual(a, b)：驗證 a 和 b 是否相等。
assertTrue(x)：驗證 x 是否為真。
assertRaises(exc, fun, *args, **kwargs)：驗證當呼叫 fun(*args, **kwargs) 時是否會引發 exc 異常。

玄貓建議，為了提高測試的可讀性，可以在 TestCase 子類別中定義自己的輔助方法。但要注意，自定義方法名稱不要以 test 開頭，以免被誤認為是測試方法。

Mock 的妙用：隔離測試環境

在編寫測試時，另一個常見的做法是使用 mock 函式和類別來模擬某些行為。Python 3 提供了內建的 unittest.mock 模組，Python 2 則可以使用開源套件。Mock 可以幫助我們隔離測試環境，避免外部依賴對測試結果的幹擾。

setUp 與 tearDown：開發乾淨的測試環境

有時候，我們的 TestCase 類別需要在執行測試方法之前設定測試環境。這時，我們可以覆寫 setUp 和 tearDown 方法。這些方法分別在每個測試方法之前和之後被呼叫，確保每個測試都在隔離的環境中執行。

例如，以下程式碼定義了一個 TestCase，它在每個測試之前建立一個臨時目錄，並在每個測試完成後刪除其內容：

import unittest
import tempfile
import shutil

class MyTest(unittest.TestCase):
    def setUp(self):
        self.test_dir = tempfile.mkdtemp()

    def tearDown(self):
        shutil.rmtree(self.test_dir)

    def test_something(self):
        # 在此編寫測試程式碼，使用 self.test_dir
        pass

玄貓通常會為每個相關測試集定義一個 TestCase。有時，一個 TestCase 對應一個具有許多邊緣情況的函式。其他時候，一個 TestCase 涵蓋單一模組中的所有函式。玄貓也會為測試單一類別及其所有方法建立一個 TestCase。

單元測試與整合測試：雙管齊下，確保品質

當程式變得複雜時，我們需要額外的測試來驗證模組之間的互動，而不僅僅是隔離測試程式碼。這就是單元測試和整合測試之間的區別。在 Python 中，同時編寫這兩種測試非常重要，因為除非我們證明，否則無法保證模組能夠協同工作。

小提示

根據專案的不同，定義資料驅動測試或將測試組織成不同套件的相關功能可能會很有用。對於這些目的、程式碼覆寫率報告和其他進階使用案例，nose 和 pytest 開源套件會特別有幫助。

玄貓的測試心法：

要對 Python 程式有信心，唯一的方法就是編寫測試。
unittest 模組提供了編寫良好測試所需的大部分工具。
透過繼承 TestCase 並定義以 test 開頭的方法來定義測試。
同時編寫單元測試（用於隔離功能）和整合測試（用於互動模組）非常重要。

pdb：玄貓的互動式除錯利器

在開發程式時，遇到 Bug 是家常便飯。使用 print 函式可以幫助我們追蹤許多問題的根源。為導致問題的特定案例編寫測試是隔離問題的另一種好方法。但是，這些工具不足以找到每個根本原因。當我們需要更強大的工具時，就該嘗試 Python 的內建互動式除錯器 pdb 了。

除錯器讓我們可以檢查程式狀態、列印區域性變數，並逐步執行 Python 程式。

啟動 pdb：在程式碼中埋入追蹤點

在大多數其他程式語言中，我們透過指定想要停止的原始檔行來使用除錯器，然後執行程式。相反地，在 Python 中，使用除錯器最簡單的方法是修改我們的程式，在我們認為會出現問題之前直接啟動除錯器。在除錯器下執行 Python 程式和正常執行程式之間沒有區別。

要啟動除錯器，我們只需匯入 pdb 模組並執行其 set_trace 函式。我們經常會看到這在單行中完成，以便程式設計師可以使用單個 # 字元將其註解掉。

def complex_func(a, b, c):
    # ...
    import pdb; pdb.set_trace()

一旦執行此陳述式，程式就會暫停執行。啟動程式的終端機將變成互動式 Python Shell。

-> import pdb; pdb.set_trace()
(Pdb)

在 (Pdb) 提示符下，我們可以鍵入區域性變數的名稱以檢視其列印出的值。我們可以透過呼叫 locals 內建函式來檢視所有區域性變數的清單。我們可以匯入模組、檢查全域狀態、建構新物件、執行 help 內建函式，甚至修改程式的某些部分——無論我們需要做什麼來幫助除錯。此外，除錯器還有三個命令，可以更輕鬆地檢查正在執行的程式。

bt：列印當前執行呼叫堆積疊的回溯。這讓我們可以確定我們在程式中的位置以及我們如何到達 pdb.set_trace 觸發點。
up：將我們的範圍向上移動函式呼叫堆積疊到當前函式的呼叫者。這允許我們檢查呼叫堆積疊中較高層級的區域性變數。
down：將我們的範圍向下移動函式呼叫堆積疊一個層級。

pdb 的控制命令：精準掌握程式執行

完成檢查目前狀態後，我們可以使用除錯器命令在精確控制下還原程式的執行。

step：執行程式，直到程式中的下一行執行，然後將控制權傳回給除錯器。如果下一行執行包括呼叫函式，則除錯器將在呼叫的函式中停止。
next：執行程式，直到目前函式中的下一行執行，然後將控制權傳回給除錯器。如果下一行執行包括呼叫函式，則在呼叫的函式傳回之前，除錯器不會停止。
return：執行程式，直到目前函式傳回，然後將控制權傳回給除錯器。
continue：繼續執行程式，直到下一個中斷點（或再次呼叫 set_trace）。

玄貓的 pdb 使用心得：

使用 import pdb; pdb.set_trace() 陳述式，在程式中直接啟動 Python 互動式除錯器。
Python 除錯器提示符是一個完整的 Python Shell，可讓我們檢查和修改正在執行的程式的狀態。
pdb Shell 命令讓我們可以精確地控制程式執行，從而在檢查程式狀態和推程式式執行之間交替。

總之，unittest 和 pdb 是 Python 開發者不可或缺的兩大利器。掌握它們，我們就能夠編寫出更健壯、更可靠的程式碼。

為何程式碼最佳化前，先進行效能分析至關重要：玄貓的實戰經驗

在軟體開發的道路上，我們經常面臨程式碼效能最佳化的挑戰。許多開發者憑藉直覺或經驗進行最佳化，但結果往往不如預期。身為一位在台灣深耕多年的技術專家，玄貓（BlackCat）強調，最佳化前務必先進行效能分析（Profiling），找出真正的效能瓶頸，才能事半功倍。

效能分析的重要性

Python 是一門動態語言，其執行時效能表現可能與我們的直覺有所不同。某些我們認為緩慢的操作（例如字串處理、產生器）可能實際上非常快速，而某些我們認為快速的語言特性（例如屬性存取、函式呼叫）可能實際上非常緩慢。因此，在最佳化程式碼之前，我們需要透過效能分析工具來量測程式的效能，找出真正的效能瓶頸。

Python 內建的效能分析工具

Python 提供了內建的效能分析工具，可以幫助我們找出程式中耗時的部分。其中，cProfile 模組是一個 C 擴充模組，對程式效能的影響極小，因此是玄貓推薦的首選。

玄貓提醒： 進行效能分析時，務必確保量測的是程式碼本身的效能，而不是任何外部系統（例如網路、磁碟）。如果程式使用了快取來降低外部系統的延遲，也應該在開始效能分析之前先將快取預熱。

效能分析例項：插入排序法

為了示範如何使用 cProfile 進行效能分析，玄貓以插入排序法為例。首先，我們定義一個插入排序法的函式：

def insertion_sort(data):
    result = []
    for value in data:
        insert_value(result, value)
    return result

這個插入排序法的核心機制是 insert_value 函式，它負責找到每個資料的插入點。以下是一個效率極低的 insert_value 函式版本，它使用線性掃描來尋找插入點：

def insert_value(array, value):
    for i, existing in enumerate(array):
        if existing > value:
            array.insert(i, value)
            return
    array.append(value)

為了對 insertion_sort 和 insert_value 進行效能分析，我們需要建立一個隨機資料集，並定義一個測試函式：

from random import randint
from cProfile import Profile
from pstats import Stats

max_size = 10**4
data = [randint(0, max_size) for _ in range(max_size)]
test = lambda: insertion_sort(data)

profiler = Profile()
profiler.runcall(test)

stats = Stats(profiler)
stats.strip_dirs()
stats.sort_stats('cumulative')
stats.print_stats()

執行上述程式碼後，我們可以得到一個效能分析報告，其中包含每個函式的呼叫次數、執行時間等資訊。

效能分析報告解讀

以下是效能分析報告中各個欄位的說明：

ncalls：在效能分析期間，函式被呼叫的次數。
tottime：執行函式所花費的總時間（不包含呼叫其他函式的時間）。
tottime percall：每次呼叫函式所花費的平均時間（不包含呼叫其他函式的時間）。
cumtime：執行函式所花費的累積時間（包含呼叫其他函式的時間）。
cumtime percall：每次呼叫函式所花費的平均累積時間（包含呼叫其他函式的時間）。

觀察效能分析報告，我們可以發現 insert_value 函式佔用了大量的 CPU 時間。

最佳化 `insert_value` 函式

為了最佳化 insert_value 函式，我們可以使用 bisect 模組來更有效率地尋找插入點。以下是使用 bisect_left 函式最佳化後的 insert_value 函式版本：

from bisect import bisect_left

def insert_value(array, value):
    i = bisect_left(array, value)
    array.insert(i, value)

重新執行效能分析後，我們可以發現新的 insert_value 函式速度快了許多，累積執行時間比之前的版本小了近 100 倍。

玄貓對程式碼最佳化的建議

玄貓建議，在最佳化程式碼之前，務必先進行效能分析，找出真正的效能瓶頸。Python 提供了內建的效能分析工具，可以幫助我們找出程式中耗時的部分。透過分析效能分析報告，我們可以針對性地最佳化程式碼，提高程式的執行效率。

總之，透過效能分析，玄貓能夠更精準地找到程式碼中的瓶頸，並採取適當的最佳化措施，避免浪費時間在不重要的部分。這是在高效率開發中不可或缺的一環。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。