Python 實作郵件伺服器連線與郵件內容擷取

Python 提供了便捷的工具來處理郵件伺服器連線和郵件內容解析。透過 imaplib 模組，我們可以輕鬆地建立與 IMAP 伺服器的連線，並使用 BeautifulSoup 解析 HTML 格式的郵件內容，提取純文字資訊。此外，結合 csv 模組，可以將解析後的郵件內容儲存至 CSV 檔案，方便後續分析和處理。在實際應用中，經常需要在大量的檔案中搜尋特定字串。Python 的 os 模組提供檔案系統操作功能，可以遞迴遍歷目錄，並逐一讀取檔案內容進行比對，快速找到目標檔案。

郵件伺服器連線與郵件內容擷取

郵件伺服器連線是郵件系統的核心元件，負責管理郵件的傳送、接收和儲存。以下是使用Python連線到IMAP郵件伺服器的範例：

連線到郵件伺服器

import imaplib
import ssl
import logging

# 設定日誌紀錄
logger = logging.getLogger('imap_poller')

# 設定連線引數
port = 993
ssl_context = ssl.create_default_context()

def connect_to_mailbox(host):
    # 建立IMAP連線
    mail = imaplib.IMAP4_SSL(host, port, ssl_context=ssl_context)
    
    # 讀取憑證檔案
    credential_path = "credentials.txt"
    with open(credential_path, "rt") as fr:
        user = fr.readline().strip()
        pw = fr.readline().strip()
        
    # 登入郵件帳戶
    mail.login(user, pw)
    
    # 選擇郵件盒
    status, messages = mail.select("INBOX")
    return mail, messages

擷取郵件內容

from bs4 import BeautifulSoup

def get_text(email_body):
    # 使用BeautifulSoup解析HTML郵件內容
    soup = BeautifulSoup(email_body, "lxml")
    return soup.get_text(separator="\n", strip=True)

寫入CSV檔案

import csv

def write_to_csv(mail, writer, N, total_no_of_mails):
    for i in range(total_no_of_mails, total_no_of_mails - N, -1):
        # 擷取郵件
        res, data = mail.fetch(str(i), "(RFC822)")
        response = data[0]
        
        # 解析郵件內容
        email_body = response.decode('utf-8')
        text = get_text(email_body)
        
        # 寫入CSV檔案
        writer.writerow([text])

內容解密：

上述程式碼示範瞭如何使用Python連線到IMAP郵件伺服器，擷取郵件內容，並寫入CSV檔案。connect_to_mailbox函式負責建立IMAP連線，登入郵件帳戶，選擇郵件盒。get_text函式使用BeautifulSoup解析HTML郵件內容，擷取純文字內容。write_to_csv函式負責寫入CSV檔案。

圖表翻譯：

  flowchart TD
    A[連線到郵件伺服器] --> B[登入郵件帳戶]
    B --> C[選擇郵件盒]
    C --> D[擷取郵件內容]
    D --> E[解析郵件內容]
    E --> F[寫入CSV檔案]

上述Mermaid圖表示範了郵件伺服器連線和郵件內容擷取的流程。

解析電子郵件內容

電子郵件是一種常見的溝通方式，瞭解如何解析電子郵件內容對於自動化處理郵件至關重要。以下是解析電子郵件內容的步驟和相關程式碼。

步驟1：取得電子郵件物件

首先，我們需要取得電子郵件物件。這可以透過各種電子郵件協定（如IMAP或POP3）完成。

步驟2：解析電子郵件頭部

電子郵件頭部包含了郵件的基本資訊，例如發件人、收件人、主題等。以下程式碼展示瞭如何解析電子郵件頭部：

email_subject = msg["subject"]
email_from = msg["from"]
email_date = msg["date"]

步驟3：解析電子郵件內容

電子郵件內容可以是純文字或多部分（multipart）形式。如果郵件是多部分形式，需要迭代每個部分來提取內容。

if msg.is_multipart():
    for part in msg.walk():
        content_type = part.get_content_type()
        content_disposition = str(part.get("Content-Disposition"))
        try:
            email_body = part.get_payload(decode=True)
            if email_body:
                email_text = get_text(email_body.decode('utf-8'))
        except Exception as exc:
            logger.warning('Caught exception: %r', exc)

步驟4：處理電子郵件內容

根據電子郵件內容的型別（如純文字或HTML），需要進行不同的處理。以下程式碼展示瞭如何處理純文字內容：

if content_type == "text/plain":
    # 處理純文字內容
    email_text = get_text(email_body.decode('utf-8'))

內容解密：

以上程式碼展示瞭如何解析電子郵件內容。首先，需要取得電子郵件物件，然後解析電子郵件頭部和內容。根據電子郵件內容的型別，需要進行不同的處理。最終，需要將電子郵件內容轉換為可讀的格式。

圖表翻譯：

  flowchart TD
    A[取得電子郵件物件] --> B[解析電子郵件頭部]
    B --> C[解析電子郵件內容]
    C --> D[處理電子郵件內容]
    D --> E[轉換電子郵件內容]

圖表說明：

以上圖表展示了電子郵件解析的流程。首先，需要取得電子郵件物件，然後解析電子郵件頭部和內容。根據電子郵件內容的型別，需要進行不同的處理。最終，需要將電子郵件內容轉換為可讀的格式。

解析電子郵件內容並提取相關資訊

電子郵件的內容可以是多種不同的格式，包括純文字（text/plain）和HTML（text/html）。為了有效地提取電子郵件的內容，需要根據電子郵件的內容型別進行不同的處理。

判斷電子郵件的內容型別

電子郵件的內容型別可以透過get_content_type()方法獲得。這個方法傳回一個字串，表示電子郵件的內容型別。

content_type = msg.get_content_type()

處理純文字電子郵件

如果電子郵件的內容型別是`text/plain”，則可以直接提取電子郵件的內容。

if content_type == 'text/plain':
    email_body = msg.get_payload(decode=True)
    email_text = get_text(email_body.decode('utf-8'))
    if email_text is not None:
        # Write data in the csv file
        row = [email_date, email_from, email_subject, email_text]
        writer.writerow(row)

處理HTML電子郵件

如果電子郵件的內容型別是`text/html”，則需要使用HTML解析器來提取電子郵件的內容。

elif content_type == 'text/html':
    email_body = msg.get_payload(decode=True)
    soup = BeautifulSoup(email_body, 'html.parser')
    email_text = soup.get_text()
    if email_text is not None:
        # Write data in the csv file
        row = [email_date, email_from, email_subject, email_text]
        writer.writerow(row)

處理附件

如果電子郵件包含附件，則需要根據附件的內容型別進行不同的處理。

elif "attachment" in content_disposition:
    # 處理附件
    pass

完整的電子郵件解析程式

以下是完整的電子郵件解析程式。

import csv
from bs4 import BeautifulSoup

def get_text(email_body):
    # 這裡可以新增自己的電子郵件內容提取邏輯
    pass

def main():
    # 開啟CSV檔案
    with open('email_data.csv', 'w', newline='') as csvfile:
        writer = csv.writer(csvfile)
        
        # 解析電子郵件
        for i, msg in enumerate(emails):
            email_date = msg['Date']
            email_from = msg['From']
            email_subject = msg['Subject']
            
            content_type = msg.get_content_type()
            
            if content_type == 'text/plain':
                email_body = msg.get_payload(decode=True)
                email_text = get_text(email_body.decode('utf-8'))
                if email_text is not None:
                    # Write data in the csv file
                    row = [email_date, email_from, email_subject, email_text]
                    writer.writerow(row)
            elif content_type == 'text/html':
                email_body = msg.get_payload(decode=True)
                soup = BeautifulSoup(email_body, 'html.parser')
                email_text = soup.get_text()
                if email_text is not None:
                    # Write data in the csv file
                    row = [email_date, email_from, email_subject, email_text]
                    writer.writerow(row)
            elif "attachment" in content_disposition:
                # 處理附件
                pass
            else:
                logger.warning('%s:%i: No message extracted', "INBOX", i)

if __name__ == '__main__':
    main()

圖表翻譯：

  flowchart TD
    A[開始] --> B[解析電子郵件]
    B --> C[判斷電子郵件的內容型別]
    C --> D[處理純文字電子郵件]
    C --> E[處理HTML電子郵件]
    C --> F[處理附件]
    D --> G[寫入CSV檔案]
    E --> G
    F --> G
    G --> H[結束]

多檔案字串搜尋工具

概述

本工具允許您在指定資料夾中的多個檔案中搜尋特定字串。它使用Python 3編寫，不需要任何外部模組。

使用方法

要使用本工具，請確保您已安裝Python 3。然後，執行指令碼findstring.py，您將被提示輸入要搜尋的字串和要搜尋的資料夾路徑。

程式碼

import os

def search_string_in_files(text, path):
    """
    在指定資料夾中的檔案中搜尋特定字串。

    Args:
        text (str): 要搜尋的字串。
        path (str): 要搜尋的資料夾路徑。

    Returns:
        list: 包含搜尋結果的檔案路徑列表。
    """
    result = []
    for root, dirs, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            try:
                with open(file_path, 'r', encoding='utf-8') as f:
                    content = f.read()
                    if text in content:
                        result.append(file_path)
            except Exception as e:
                print(f"Error reading file {file_path}: {e}")
    return result

def main():
    text = input("輸入要搜尋的字串：")
    path = input("輸入要搜尋的資料夾路徑：")
    result = search_string_in_files(text, path)
    if result:
        print("搜尋結果：")
        for file_path in result:
            print(file_path)
    else:
        print("未找到匹配的檔案。")

if __name__ == "__main__":
    main()

示例用法

儲存上述程式碼到一個名為findstring.py的檔案中。
開啟終端或命令提示符，導航到包含findstring.py檔案的資料夾。
執行命令python3 findstring.py。
輸入要搜尋的字串和要搜尋的資料夾路徑。
工具將在指定資料夾中的檔案中搜尋字串，並列印預出包含字串的檔案路徑。

注意

本工具使用os模組遍歷資料夾和檔案。
本工具使用with陳述式開啟檔案，確保檔案在讀取完成後被正確關閉。
本工具使用try-except塊處理檔案讀取錯誤。
本工具使用utf-8編碼讀取檔案，以支援多種字元集。

檔案搜尋功能

概述

檔案搜尋是一項基本卻重要的功能，尤其是在大型資料夾或磁碟中尋找特設定檔案時。以下將介紹如何使用Python實作一個簡單的檔案搜尋功能。

程式碼實作

import os

def get_files(path, text):
    """
    搜尋指定路徑下的檔案中是否包含特定文字。
    
    Args:
        path (str): 搜尋的路徑。
        text (str): 要搜尋的文字。
    
    Returns:
        None
    """
    os.chdir(path)
    files = os.listdir()
    
    for file_name in files:
        abs_path = os.path.abspath(file_name)
        
        if os.path.isdir(abs_path):
            # 如果是資料夾，遞迴搜尋
            get_files(abs_path, text)
        elif os.path.isfile(abs_path):
            try:
                with open(file_name, "r") as f:
                    if text in f.read():
                        print(f"{text} found in {os.path.abspath(file_name)}")
            except Exception as e:
                print(f"Error occurred while reading {file_name}: {e}")

# 使用範例
path = "/path/to/search"
text = "example"
get_files(path, text)

解釋

路徑設定: 使用os.chdir()設定搜尋的路徑。
檔案列表: 使用os.listdir()取得當前路徑下的檔案和資料夾列表。
遞迴搜尋: 如果遇到資料夾，使用遞迴的方式呼叫get_files()繼續搜尋。
檔案讀取: 如果遇到檔案，嘗試以讀取模式("r")開啟檔案，然後使用in運運算元檢查檔案內容是否包含指定的文字。
結果輸出: 如果找到包含指定文字的檔案，輸出檔案的絕對路徑。

改進建議

錯誤處理: 增加對檔案讀取錯誤的處理，例如檔案不存在、無法讀取等情況。
搜尋效率: 對於大型資料夾，使用多執行緒或多程式可以提高搜尋效率。
檔案過濾: 提供檔案過濾功能，例如只搜尋特定副檔名的檔案。

從技術架構視角來看，Python 提供了強大的函式函式庫，讓郵件伺服器連線和郵件內容擷取變得簡潔高效。imaplib 函式庫的應用讓 IMAP 協定的實作變得容易，配合 ssl 函式庫確保了連線的安全性。BeautifulSoup 函式庫的引入則簡化了 HTML 郵件內容的解析，有效地提取了純文字資訊。然而，程式碼中直接將憑證儲存在檔案中存在安全風險，建議採用更安全的憑證管理方式，例如環境變數或專用的憑證儲存服務。此外，錯誤處理機制略顯不足，例如網路連線中斷或郵件格式異常等情況缺乏相應的處理邏輯。對於大型郵件檔案的處理，可以考慮引入多執行緒或非同步處理機制，以提升效率。展望未來，整合更進階的自然語言處理技術，可以實作郵件內容的語義分析和自動分類，進一步提升郵件處理的自動化程度。對於重視資訊安全的企業，建議採用更嚴格的郵件伺服器連線驗證機制，並對擷取的郵件內容進行敏感資訊過濾，以降低資料洩露的風險。玄貓認為，持續最佳化程式碼的安全性、穩定性和效率，才能更好地滿足日益增長的郵件處理需求。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。