CPython 編譯：深入理解建置與最佳化

在不同作業系統上編譯 CPython 需要特定的工具和流程。Linux 系統需要安裝 make、gcc 等工具，並使用 yum 或 apt 安裝必要的函式庫。macOS 系統則需要使用 Homebrew 安裝 gcc。編譯過程通常使用 ./configure 組態，並使用 make 命令進行編譯。執行編譯後的 CPython 可使用 ./python 命令。過程中可能遇到錯誤，需要仔細檢查錯誤訊息並進行調整。編譯完成後，產生的執行檔名會根據作業系統而有所不同。

Linux

在Linux上編譯CPython，首先需要安裝必要的工具和函式庫，包括make、gcc、configure和pkgconfig。可以使用以下命令安裝：

sudo yum install yum-utils
sudo yum-builddep python3

或者

sudo apt install build-essential
sudo apt install libssl-dev zlib1g-dev libncurses5-dev \
libncursesw5-dev libreadline-dev libsqlite3-dev libgdbm-dev \
libdb5.3-dev libbz2-dev libexpat1-dev liblzma-dev libffi-dev

然後，可以使用以下命令組態和編譯CPython：

./configure --with-pydebug
make -j2 -s

macOS

在macOS上編譯CPython，首先需要安裝必要的工具和函式庫，包括make、gcc和configure。可以使用以下命令安裝：

brew install gcc

然後，可以使用以下命令組態和編譯CPython：

./configure --with-pydebug
make -j2 -s

執行CPython

編譯完成後，可以執行CPython使用以下命令：

./python

這將啟動CPython的互動式shell，可以使用help、copyright、credits或license命令檢視更多資訊。

注意事項

在編譯CPython的過程中，可能會出現錯誤或警告，需要檢視錯誤資訊並進行相應的處理。
編譯CPython需要一定的時間和系統資源，請耐心等待。
編譯完成後，生成的二進位制檔名為python.exe（在macOS上）或python（在Linux上），可以使用此檔案執行CPython。

內容解密：

上述步驟是編譯CPython的基本過程，需要注意的是，在不同的系統上，可能需要安裝不同的工具和函式庫，並且組態和編譯的過程也可能有所不同。另外，編譯CPython需要一定的技術知識和系統資源，請確保您具備相關的知識和條件。

專業技術內容：CPython 編譯

編譯 CPython

如果您已經對修改的 CPython 程式碼感到滿意，並希望在系統中使用它，則可以從原始碼倉函式庫編譯並安裝 Python 的二進位制檔案作為專用版本。

macOS 和 Linux

在 macOS 和 Linux 上，您可以使用 altinstall 命令安裝 Python 二進位制檔案作為獨立版本。這個命令不會為 python3 建立符號連結：

$ make altinstall

Windows

在 Windows 上，您需要將組態從 Debug 切換到 Release，然後複製封裝的二進位制檔案到系統路徑中的目錄。

瞭解 Make

作為 Python 開發人員，您可能尚未接觸過 Make 程式。Make 是一個用於自動化建置過程的工具，尤其適用於 C、C++ 等編譯語言。在編譯應用程式時，需要連線所有外部函式庫，這個過程可能很複雜。Make 程式可以幫助您自動化這個過程。

當您執行 ./configure 時，autoconf 會在您的系統中搜尋 CPython 所需的函式庫，並將其路徑複製到 Makefile 中。生成的 Makefile 類別似於 shell 指令碼，分為多個部分，稱為目標（targets）。

例如，docclean 目標會刪除生成的檔案檔案：

docclean:
    -rm -rf Doc/build
    -rm -rf Doc/tools/sphinx Doc/tools/pygments Doc/tools/docutils

要實作這個目標，您可以執行 make docclean 命令。

Make 目標

Make 支援多個引數和目標。以下是一些常用的引數：

-d 或 --debug[=FLAGS]：輸出除錯資訊
-e 或 --environment-overrides：覆寫 Makefile 中的變數
-i 或 --ignore-errors：忽略命令錯誤
-j [N] 或 --jobs[=N]：允許同時執行 N 個任務
-k 或 --keep-going：繼續執行，即使有些目標失敗
-l [N] 或 --load-average[=N]：僅在系統負載小於 N 時執行任務
-n 或 --dry-run：輸出命令而不執行
-s 或 --silent：關閉命令輸出
-S 或 --stop：停止執行，如果有些目標失敗

在本章中，我們將使用以下 Make 命令：

$ make -j2 -s [target]

這個命令允許同時執行兩個任務，並關閉命令輸出。

CPython Make 目標

以下是一些 CPython 中的有用 Make 目標：

編譯目標

all（預設）：編譯 CPython 編譯器、函式庫和模組
clinic：執行 Argument Clinic 在所有原始檔中
profile-opt：編譯具有 профиль最佳化的 Python 二進位制檔案
regen-all：重新生成所有生成檔案
sharedmods：編譯所有分享模組

測試目標

coverage：編譯和執行測試以使用 gcov
coverage-lcov：生成 HTML 程式碼覆寫率報告
quicktest：執行快速迴歸測試套件（排除耗時測試）
test：執行主迴歸測試套件

這些目標可以幫助您編譯、測試和維護 CPython。

CPython編譯

編譯目標

以下是CPython編譯過程中可用的目標：

testall：執行完整的測試套件兩次，第一次不包含.pyc檔案，第二次包含。
testuniversal：在OS X的通用建置中執行測試套件，以確保在不同架構下正確運作。

清除目標

主要的清除目標包括clean、clobber和distclean。

clean：刪除編譯後的檔案和暫存檔案。
clobber：刪除makefile，並需要重新執行./configure。
distclean：完全清除環境，回到原始狀態。

其他清除目標包括：

check-clean-src：檢查原始碼的乾淨度。
cleantest：刪除前次測試失敗的目錄。
docclean：刪除已編譯的檔案。
profile-removal：刪除所有最佳化組態檔案。
pycremoval：刪除.pyc檔案。

安裝目標

標準安裝目標包括：

altbininstall：安裝帶有版本號的python解譯器（例如，python3.9）。
altinstall：安裝帶有版本號的公共函式庫和二進位制檔案。
altmaninstall：安裝帶有版本號的檔案。
bininstall：安裝所有二進位制檔案，包括python、idle和2to3。
commoninstall：安裝公共函式庫和模組。
install：安裝公共函式庫、二進位制檔案和檔案（執行commoninstall、bininstall和maninstall）。
libinstall：安裝公共函式庫。
maninstall：安裝檔案。
sharedinstall：動態載入模組。

其他目標包括：

autoconf：重新生成configure和pyconfig.h.in。
python-config：生成python-config指令碼。
recheck：重新執行configure，使用上次應用的引數。
smelly：檢查匯出的符號是否以Py或_Py開頭（參見PEP 7）。
tags：為vi生成標籤檔案。
TAGS：為Emacs生成標籤檔案。

Windows編譯

有兩種方法可以在Windows上編譯CPython：

命令列編譯：需要Microsoft Visual C++編譯器（包含在Visual Studio中）。
直接在Visual Studio中透過PCbuild\pcbuild.sln進行建置。

無論使用哪種方法，都需要安裝額外的工具、函式庫和C頭檔案。PCbuild目錄中的get_externals.bat批處理檔可以自動化此過程。只需在PCbuild目錄中開啟命令提示字元並執行PCbuild\get_externals.bat即可。

使用Windows編譯CPython

環境準備

在開始編譯CPython之前，需要準備好環境。首先，需要安裝Visual Studio和Windows SDK。然後，需要下載CPython的原始碼。

編譯CPython

編譯CPython可以使用命令列或Visual Studio。以下是使用命令列編譯CPython的步驟：

開啟命令列提示符。
切換到CPython原始碼目錄。
執行get_externals.bat命令，下載外部依賴函式庫。
執行build.bat -p x64 -c Debug命令，編譯CPython。

Visual Studio編譯

也可以使用Visual Studio編譯CPython。以下是步驟：

開啟Visual Studio。
載入CPython的解決方案檔（pcbuild\pcbuild.sln）。
在「方案管理員」中，選擇「Debug」作為活躍的方案組態。
在「方案管理員」中，選擇「x64」作為活躍的方案平臺。
按下「F5」鍵，或選擇「建置」>「建置方案」，開始編譯CPython。

執行CPython

編譯完成後，可以執行CPython。以下是步驟：

開啟命令列提示符。
切換到CPython編譯目錄（PCbuild\amd64）。
執行python_d.exe命令，啟動CPython的REPL。

設定Visual Studio

可以設定Visual Studio，以便在Visual Studio中執行CPython的REPL。以下是步驟：

在Visual Studio中，選擇「工具」>「Python」>「Python環境」。
在「Python環境」視窗中，按下「新增環境」按鈕。
選擇編譯好的CPython二進位制檔（python_d.exe）。
按下「開啟互動式視窗」按鈕，啟動CPython的REPL。

CPython編譯與最佳化

編譯過程

CPython的編譯過程涉及多個步驟，包括前端編譯、後端編譯和連結等。前端編譯負責將Python程式碼轉換為中間碼，而後端編譯則將中間碼轉換為機器碼。連結過程則負責將多個目標檔合併為一個可執行檔。

最佳化技術

CPython提供了多種最佳化技術，以提高Python程式碼的執行效率。其中包括：

行內函式：如果一個函式經常被呼叫，CPython可以將其內聯到呼叫點，以減少函式呼叫帶來的開銷。
虛擬函式預測：CPython可以根據呼叫次數最多的虛擬函式進行預測和內聯，從而提高執行效率。
暫存器最佳化：CPython可以根據變數的使用情況對暫存器進行最佳化，減少記憶體存取次數。
基本塊最佳化：CPython可以根據基本塊的執行頻率對其進行最佳化，減少跳轉和分支的開銷。

PGO（Profile-Guided Optimization）

PGO是一種編譯器最佳化技術，透過收集程式執行時的profile資訊來指導最佳化過程。CPython支援PGO，開發者可以使用PGO來最佳化CPython的執行效率。

CPython與Python

CPython是Python的一種實作，其他實作還包括PyPy、Jython等。CPython的編譯器是用C語言寫成的，而PyPy的編譯器則是用Python寫成的。Jython則是將Python程式碼編譯為Java bytecode。

程式碼範例

以下是一個簡單的Python程式碼範例：

def add(a, b):
    return a + b

result = add(2, 3)
print(result)

這個程式碼定義了一個add函式，該函式接受兩個引數a和b，並傳回其和。然後，程式碼呼叫add函式，並將結果印出。

Mermaid 圖表

  graph LR
    A[Python 程式碼] -->|編譯|> B[中間碼]
    B -->|最佳化|> C[機器碼]
    C -->|連結|> D[可執行檔]

這個Mermaid圖表描述了Python程式碼從編譯到連結的過程。

圖表翻譯

這個圖表展示了Python程式碼的編譯和最佳化過程。首先，Python程式碼被編譯為中間碼。然後，中間碼被最佳化為機器碼。最後，機器碼被連結為可執行檔。這個過程涉及多個步驟，包括前端編譯、後端編譯和連結等。

Python語言規範

Python語言的規範定義在CPython的原始碼中，這是一個所有Python解譯器都遵循的標準。這份規範包括人們可以閱讀的格式和機器可以閱讀的格式，詳細闡述了Python語言的特點、建構和每個命令的行為。

語言檔案

在Doc/reference目錄中，包含了對Python語言特點的闡述，使用reStructuredText格式。這些檔案對於理解Python語言、其結構和關鍵字非常重要。其中包括：

複合陳述式（if、while、for等）和函式定義
物件、值和型別
Python程式的結構
Python表示式的元素
基本語法

匯入系統

Python的匯入系統允許使用者從其他模組中匯入函式和變數。這部分的檔案對於理解如何組織和重用程式碼非常重要。

檔案結構

檔案以易於閱讀的格式組織，包括：

compound_stmts.rst：複合陳述式
datamodel.rst：資料模型
executionmodel.rst：執行模型
expressions.rst：表示式
grammar.rst：語法
import.rst：匯入
index.rst：索引
introduction.rst：介紹
lexical_analysis.rst：詞法分析
simple_stmts.rst：簡單陳述式
toplevel_components.rst：頂級元件

語法檔案

Python的語法檔案使用PEG（Parsing Expression Grammar）格式定義。這個檔案對於理解Python的語法結構非常重要。PEG語法使用以下符號：

z*：重複
z+：至少一次
z[]：可選部分
z|：替代
z()：分組

例子

例如，定義一個咖啡的PEG語法可能如下：

coffee: 'cup' ('espresso')+ ['water'] [milk]
milk: 'full-fat' | 'skimmed' | 'soy'

這個語法定義了一杯咖啡必須包含至少一份意式咖啡，可以選擇加水和牛奶，牛奶有不同型別。

語法圖

語法圖是一種視覺化工具，幫助理解語法結構。例如，咖啡命令的語法圖可能如下：

<coffee> ::= 'cup' <espresso>+ [<water>] [<milk>]
<milk> ::= 'full-fat' | 'skimmed' | 'soy'

這種圖表形式可以更直觀地展示語法結構。

Python 中的 while 迴圈語法

Python 的 while 迴圈是一種控制結構，允許程式執行一段程式碼多次，直到某個條件不再滿足。以下是 while 迴圈的基本語法：

while 條件:
    # 程式碼塊

在這裡，條件 是一個布林表示式，如果為 True，則執行 程式碼塊。如果 條件 為 False，則離開迴圈。

while 迴圈的變體

Python 的 while 迴圈還有幾種變體，可以用於不同的情況。

1. 基本 while 迴圈

while finished == True:
    do_things()

在這個例子中，while 迴圈會一直執行 do_things() 函式，直到 finished 變數為 True。

2. 帶有 named_expression 的 while 迴圈

在 Python 3.8 中引入了一種新的 while 迴圈語法，允許使用 named_expression 來指定變數。

while letters := read(document, 10):
    print(letters)

在這個例子中，while 迴圈會一直執行 print(letters) 函式，直到 read(document, 10) 函式傳回 None。

3. 帶有 else 子句的 while 迴圈

while 迴圈還可以帶有 else 子句，如果迴圈正常離開（即不透過 break 陳述式離開），則執行 else 子句。

while item := next(iterable):
    print(item)
else:
    print("Iterable is empty")

在這個例子中，如果 iterable 為空，則執行 else 子句並列印 “Iterable is empty”。

while 迴圈的語法定義

在 Python 的語法定義中，while 迴圈的語法如下：

while_stmt[stmt_ty]:
    | 'while' a=named_expression ':' b=block c=[else_block]...

這個定義描述了 while 迴圈的基本結構，包括 while 關鍵字、條件表示式、程式碼塊和可選的 else 子句。

瞭解Python語法和Parser生成

Python是一種高階程式語言，其語法規則由一組特定的文法定義。要了解Python的語法，可以從其文法規則入手。Python的文法規則定義在Grammar/python.gram檔案中，這個檔案描述了Python語言的結構，包括變數、運算子、控制結構等。

try-except-finally結構

Python中的try-except-finally結構是一種常見的錯誤處理機制。它允許程式員在執行可能出錯的程式碼時捕捉並處理異常。try-except-finally結構的基本語法如下：

try:
    # 可能出錯的程式碼
except Exception as e:
    # 處理異常的程式碼
finally:
    # 無論是否出錯都會執行的程式碼

這種結構可以用於處理不同型別的異常，例如IO錯誤、資料型別錯誤等。

Parser生成

Parser是將原始碼轉換為抽象語法樹（AST）的工具。Python的Parser是根據PEG（Packrat Parser）演算法實作的。PEG是一種高效的解析演算法，可以用於解析複雜的語法。

要生成Python的Parser，需要使用pegen工具。pegen工具可以讀取Grammar/python.gram檔案並生成相應的Parser程式碼。

修改語法規則

如果需要修改Python的語法規則，可以直接修改Grammar/python.gram檔案。修改後，需要重新生成Parser程式碼。

例如，要修改小型陳述式（small_stmt）的定義，可以在Grammar/python.gram檔案中找到相關的定義並進行修改。然後，重新生成Parser程式碼即可。

內容解密：

import ast

class Parser:
    def __init__(self, grammar_file):
        self.grammar_file = grammar_file

    def generate_parser(self):
        # 讀取語法規則檔案
        with open(self.grammar_file, 'r') as f:
            grammar = f.read()

        # 生成Parser程式碼
        parser_code = generate_parser(grammar)

        return parser_code

def generate_parser(grammar):
    # 實作PEG演算法生成Parser程式碼
    pass

圖表翻譯：

  graph LR
    A[語法規則] -->|修改|> B[Parser生成]
    B -->|生成|> C[Parser程式碼]
    C -->|執行|> D[抽象語法樹]
    D -->|分析|> E[程式執行]

修改後的Python語法規則

Python是一種高階、解釋式的程式語言，它支援多種程式設計風格，包括物件導向、指令式和函式式程式設計。Python的語法簡單易學，對初學者非常友好。

運算子和表示式

Python支援各種運算子，包括算術運算子、比較運算子、邏輯運算子和指定運算子等。

控制結構

Python的控制結構包括條件陳述式、迴圈和跳轉陳述式等。

條件陳述式

Python的條件陳述式使用if和elif關鍵字來實作。

x = 5
if x > 10:
    print("x大於10")
elif x == 5:
    print("x等於5")
else:
    print("x小於5")

迴圈

Python的迴圈包括for迴圈和while迴圈。

# for迴圈
fruits = ["apple", "banana", "cherry"]
for fruit in fruits:
    print(fruit)

# while迴圈
i = 0
while i < 5:
    print(i)
    i += 1

跳轉陳述式

Python的跳轉陳述式包括break、continue和pass等。

# break
for i in range(5):
    if i == 3:
        break
    print(i)

# continue
for i in range(5):
    if i == 3:
        continue
    print(i)

# pass
for i in range(5):
    if i == 3:
        pass
    print(i)

修改後的’pass’陳述式

根據題目的要求，修改後的’pass’陳述式可以接受’pass’或’proceed’關鍵字。

# 修改後的pass陳述式
for i in range(5):
    if i == 3:
        pass  # 或 proceed
    print(i)

在這個例子中，‘pass’陳述式可以被’proceed’關鍵字替代，兩者的作用相同。

Python語言與語法

從程式語言的發展脈絡來看，Python以其簡潔易讀的語法和豐富的生態系統，在眾多程式語言中脫穎而出。本文深入探討了CPython的編譯過程、最佳化技術、語法規則以及修改語法的可能性，並佐以程式碼範例和圖表說明，展現了Python語言的底層機制和實作細節。技術堆疊的各層級協同運作中體現，理解編譯原理、語法規則和解析器生成對於深入掌握Python至關重要。然而，修改核心語法規則需謹慎，需考量向下相容性和對社群的影響。同時，PGO等最佳化技術的應用，能進一步提升Python的執行效能。玄貓認為，持續探索CPython的底層機制和最佳化策略，將有助於開發者寫出更高效、更穩定的Python程式碼，並推動Python語言的持續發展。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。