Python檔案處理與網路資料擷取技術

Python 提供了強大的檔案處理和網路資料擷取能力，方便開發者處理各種資料。檔案處理方面，Python 可以輕鬆建立、讀取和寫入檔案，並支援逐行處理、篩選和條件式操作，有效率地管理檔案內容。此外，Python 的 zipfile 模組能處理壓縮檔案，包含密碼破解等進階應用。網路資料擷取方面，http.client 模組讓開發者能傳送 HTTP 請求並處理伺服器回應，搭配 json 模組，更能輕鬆解析 JSON 格式的網路資料，滿足多元的資料處理需求。這些功能使 Python 成為處理檔案和網路資料的利器。

深入理解檔案處理與文字解析

在間諜工具包的開發過程中，檔案處理是一項基礎且重要的技能。Python 提供了簡潔而強大的檔案操作功能，讓我們能夠輕鬆地讀取和寫入檔案。

建立與寫入檔案

首先，我們來看看如何建立一個文字檔案並寫入內容。以下是一個簡單的例子：

text = """Message to HQ\nDevice Size 10 31/32\n"""
with open("message1.txt", "w") as target:
    target.write(text)

內容解密：

text 變數儲存了要寫入檔案的字串，包含了換行符號 \n 以代表不同的行。
with open() 陳述式用於開啟一個檔案，"w" 引數表示以寫入模式開啟，如果檔案不存在則會被建立。
target.write(text) 將 text 的內容寫入檔案中。與 print() 不同，write() 不會自動新增換行符號。

讀取檔案內容

接下來，我們探討如何讀取檔案的內容：

with open("message1.txt", "r") as source:
    text = source.read()
    print(text)

內容解密：

"r" 引數表示以讀取模式開啟檔案，如果檔案不存在則會引發例外。
source.read() 將整個檔案內容讀取到 text 變數中。
檔案處理完畢後，with 陳述式會自動關閉檔案，釋放資源。

逐行處理檔案內容

在許多情況下，我們需要逐行處理檔案內容。Python 的 for 迴圈提供了便利的方式：

with open("message1.txt", "r") as source:
    for line in source:
        print(line)

內容解密：

for line in source 會迭代檔案中的每一行。
由於 line 包含了換行符號，而 print() 也會新增換行符號，因此輸出會出現雙倍行距。
可以使用 print(line, end="") 或 line.rstrip() 來避免雙倍行距。

篩選與條件處理

當檔案內容需要根據特定模式進行篩選時，我們可以使用條件陳述式：

with open("message1.txt", "r") as source:
    for line in source:
        junk, keyword, size = line.rstrip().partition("Size")
        if keyword != '':
            print(size)

內容解密：

line.rstrip().partition("Size") 用於移除行尾空白並以 "Size" 為關鍵字分割字串。
if keyword != '' 判斷是否存在 "Size" 關鍵字，若存在則印出相關資訊。

多重條件處理

當需要處理多個模式時，可以使用 elif 子句：

amount = None
location = None
with open("message2.txt", "r") as source:
    for line in source:
        clean = line.lower().rstrip()
        junk, pay, pay_data = clean.partition("pay")
        junk, meet, meet_data = clean.partition("rendezvous")
        if pay != '':
            amount = pay_data
        elif meet != '':
            location = meet_data
        else:
            pass  # 忽略此行
print("Budget", amount, "Meet", location)

內容解密：

使用 lower() 和 rstrip() 對每行進行清理。
分別以 "pay" 和 "rendezvous" 為關鍵字進行分割，以擷取所需資訊。
根據條件指定給 amount 和 location，最終印出結果。

使用Python進行密碼還原與ZIP檔案處理

在許多情況下，我們需要處理密碼保護的ZIP檔案，但當密碼遺失時，還原或破解密碼就變成了一項挑戰。本篇文章將介紹如何使用Python來處理這類別問題，特別是如何讀取一個單詞語料函式庫，並使用它來嘗試還原一個遺失的ZIP檔案密碼。

尋找單詞語料函式庫

首先，我們需要一個單詞語料函式庫。語料函式庫是一個包含大量單詞的集合，通常用於自然語言處理任務。在許多作業系統中，可以找到用於拼寫檢查的字典檔案。例如，在GNU/Linux或Mac OS X系統中，常見的路徑包括/usr/dict/words、/usr/share/dict/words或/usr/share/myspell/dicts。在Windows系統中，可以在%AppData%\Microsoft\Spelling\EN等位置尋找相關的字典資源。

如果無法找到現有的語料函式庫，可以考慮安裝獨立的拼寫檢查程式，如aspell、ispell、Hunspell、Open Office或LibreOffice，它們通常包含多種語言的拼寫字典。另外，也可以利用Python的自然語言工具包（NLTK），它提供了豐富的詞彙資源和詞幹提取工具。

讀取語料函式庫

找到語料函式庫後，下一步是讀取它。以下是一個簡單的Python指令碼，用於讀取語料函式庫並篩選出長度為10個字元的單詞：

count = 0
corpus_file = "/usr/share/dict/words"
with open(corpus_file) as corpus:
    for line in corpus:
        word = line.strip()
        if len(word) == 10:
            print(word)
            count += 1
print(count)

內容解密：

count = 0：初始化計數器，用於統計符合條件的單詞數量。
corpus_file = "/usr/share/dict/words"：指定語料函式庫檔案的路徑。
with open(corpus_file) as corpus:：開啟指定的語料函式庫檔案，利用with陳述式確保檔案在操作完成後正確關閉。
for line in corpus:：逐行讀取語料函式庫檔案。
word = line.strip()：去除每行末尾的換行符號，得到單詞。
if len(word) == 10:：檢查單詞的長度是否為10個字元。
print(word)：列印符合條件的單詞。
count += 1：更新計數器。
print(count)：輸出符合條件的單詞總數。

處理ZIP檔案

接下來，我們將使用Python的zipfile模組來處理ZIP檔案。首先，需要匯入zipfile模組。然後，可以使用ZipFile類別來開啟一個ZIP檔案，並列出其中的檔案：

import zipfile
with zipfile.ZipFile("demo.zip", "r") as archive:
    archive.printdir()

內容解密：

import zipfile：匯入處理ZIP檔案所需的模組。
with zipfile.ZipFile("demo.zip", "r") as archive:：以讀取模式開啟名為"demo.zip"的檔案，利用with陳述式確保檔案在操作完成後正確關閉。
archive.printdir()：列印ZIP檔案中的檔案列表。

如果ZIP檔案被加密且密碼遺失，我們可以嘗試使用語料函式庫中的單詞來還原密碼。以下是一個簡單的例子，展示如何嘗試讀取ZIP檔案中的第一個檔案：

import zipfile
with zipfile.ZipFile("demo.zip", "r") as archive:
    archive.printdir()
    first = archive.infolist()[0]
    with archive.open(first) as member:
        text = member.read()
        print(text)

內容解密：

archive.infolist()[0]：取得ZIP檔案中的第一個檔案的資訊。
with archive.open(first) as member:：開啟第一個檔案，利用with陳述式確保檔案在操作完成後正確關閉。
text = member.read()：讀取檔案內容。
print(text)：輸出檔案內容。

使用Python進行密碼破解與資料擷取

在前一章中，我們探討瞭如何使用Python來處理ZIP檔案，並嘗試使用暴力破解法來還原加密檔案的密碼。現在，我們將進一步討論如何從網路上取得情報資料，並使用Python來處理各種資料格式。

破解加密ZIP檔案的密碼

當我們遇到加密的ZIP檔案時，可以使用暴力破解法來嘗試還原密碼。以下是一個簡單的Python指令碼，示範如何使用單詞列表來猜測密碼：

import zipfile
import zlib

corpus_file = "/usr/share/dict/words"
with zipfile.ZipFile("demo.zip", "r") as archive:
    first = archive.infolist()[0]
    print("Reading", first.filename)
    with open(corpus_file) as corpus:
        for line in corpus:
            word = line.strip().encode("ASCII")
            try:
                with archive.open(first, 'r', pwd=word) as member:
                    text = member.read()
                    print("Password", word)
                    print(text)
                    break
            except (RuntimeError, zlib.error, zipfile.BadZipFile):
                pass

內容解密：

匯入必要的函式庫：我們使用了zipfile和zlib兩個函式庫，分別用於處理ZIP檔案和處理壓縮資料時可能出現的錯誤。
開啟ZIP檔案：使用zipfile.ZipFile開啟一個ZIP檔案，並讀取其中的第一個檔案。
讀取單詞列表：開啟一個包含單詞列表的檔案，並逐行讀取單詞。
猜測密碼：將每個單詞編碼為ASCII位元組，並嘗試用它作為密碼來開啟ZIP檔案中的加密檔案。
處理例外：如果密碼錯誤，會引發多種例外，包括RuntimeError、zlib.error和zipfile.BadZipFile，我們將這些例外捕捉並忽略，繼續嘗試下一個密碼。
找到正確密碼：一旦找到正確的密碼，我們就列印出密碼和解密後的檔案內容，並使用break陳述式離開迴圈。

從網路取得情報資料

現代間諜活動中，網路是一個重要的情報來源。我們可以使用Python的http.client和urllib等函式庫來從遠端伺服器取得資料。

使用HTTP協定存取網站

我們可以使用Python的http.client模組來傳送HTTP請求，取得網頁內容。

import http.client

conn = http.client.HTTPSConnection("www.example.com")
conn.request("GET", "/")
response = conn.getresponse()
print(response.status, response.reason)
data = response.read()
print(data.decode())
conn.close()

內容解密：

建立HTTP連線：使用http.client.HTTPSConnection建立一個到指定網站的HTTPS連線。
傳送GET請求：使用conn.request("GET", "/")傳送一個GET請求到網站的首頁。
取得回應：使用conn.getresponse()取得伺服器的回應，並列印出狀態碼和原因短語。
讀取回應內容：使用response.read()讀取回應的內容，並將其解碼後列印出來。
關閉連線：使用conn.close()關閉HTTP連線。

處理JSON資料

JSON是一種常見的資料交換格式，我們可以使用Python的json模組來解析JSON資料。

import json

data = '{"name": "John", "age": 30}'
parsed_data = json.loads(data)
print(parsed_data["name"])
print(parsed_data["age"])

內容解密：

匯入json模組：使用import json匯入Python的json模組。
解析JSON字串：使用json.loads()函式將一個JSON格式的字串解析為Python字典。
存取解析後的資料：可以像存取普通Python字典一樣存取解析後的資料。

使用Python進行網路資料擷取：http.client模組詳解

在進行網路資料擷取時，Python提供了多種強大的工具和函式庫。其中，http.client模組是處理HTTP請求的重要工具。本篇文章將探討如何使用http.client模組進行HTTP GET請求，以擷取網路上的資料。

HTTP協定基礎

在開始之前，我們需要了解HTTP協定的基本概念。HTTP（Hypertext Transfer Protocol）是一種用於分散式、協作式和超媒體資訊系統的應用層協定。它是網際網路上應用最為廣泛的一種網路協定。HTTP協定定義了客戶端（如瀏覽器或Python指令碼）和伺服器之間如何進行通訊。

使用http.client進行HTTP GET請求

Python的http.client模組提供了一個簡單的方法來傳送HTTP請求和處理回應。下面是一個使用http.client下載圖片的例子：

import http.client
import contextlib

# 定義要下載的圖片路徑
path_list = [
    "/wikipedia/commons/7/72/IPhone_Internals.jpg",
    "/wikipedia/en/c/c1/1drachmi_1973.jpg",
]

# 定義主機位址
host = "upload.wikimedia.org"

# 使用contextlib.closing來確保連線被正確關閉
with contextlib.closing(http.client.HTTPConnection(host)) as connection:
    for path in path_list:
        # 傳送HTTP GET請求
        connection.request("GET", path)
        response = connection.getresponse()
        
        # 列印回應狀態和頭部資訊
        print("Status:", response.status)
        print("Headers:", response.getheaders())
        
        # 從路徑中提取檔名
        _, _, filename = path.rpartition("/")
        print("Writing:", filename)
        
        # 將回應內容寫入檔案
        with open(filename, "wb") as image:
            image.write(response.read())

內容解密：

匯入必要的模組：首先，我們匯入了http.client和contextlib模組。http.client用於處理HTTP請求，而contextlib則用於確保資源（如網路連線）被正確釋放。
定義圖片路徑和主機位址：我們定義了一個包含圖片路徑的列表path_list和主機位址host。
建立HTTP連線：使用http.client.HTTPConnection建立了一個到指定主機的HTTP連線。我們利用contextlib.closing確保連線在使用後被正確關閉。
傳送HTTP GET請求：對每個圖片路徑，我們傳送一個HTTP GET請求，並取得回應。
處理回應：我們列印了回應的狀態碼和頭部資訊。狀態碼（如200）表示請求是否成功。
儲存圖片：從路徑中提取檔名，並將回應內容（圖片資料）寫入到本地檔案中。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。