資料處理

22 Articles

Python 網路介面整合與資料處理技術

2025年12月08日 – 13 分鐘閱讀

本文探討 Python 網路介面整合技巧，涵蓋 HTTP 請求、RESTful API 互動、JSON 與 XML 資料處理，以及網頁資料擷取。同時，文章也介紹了資料序列化與壓縮技術，包括 pickle、XDR、gzip 等，並探討了 Python 標準函式庫中的效能網路工具，例如

Python Pandas 更新、合併與串接技巧

2025年11月16日 – 13 分鐘閱讀

本文探討 Python Pandas 中資料框架的更新、合併與串接技巧，解析 `update()` 和 `merge()` 的差異、`loc()` 索引器的應用，以及條件式更新的實作方式。同時，比較了 Pandas 與 SAS 在資料串接方面的異同，提供更全面的資料處理策略。

Python操作PDF檔案合併提取加密解密

2025年10月02日 – 13 分鐘閱讀

本文示範如何使用 Python 的 PyPDF2 函式庫對 PDF 檔案進行操作，包含提取文字、圖片、合併、新增空白頁、加密、解密等功能，並提供程式碼範例及說明。

Python 處理 PDF 與 CSV Excel 檔案載入技術

2025年09月11日 – 6 分鐘閱讀

本文介紹如何使用 Python 處理和載入 PDF、CSV 和 Excel 檔案，特別是在 RAG 系統中的應用。文章涵蓋使用 PyPDF2 提取 PDF 檔案的文字和後設資料，以及三種處理 CSV 和 Excel 檔案的方法：將 CSV 行轉換為文字、將表格嵌入提示和使用專門的函式庫或工具。

Python資料處理HTML解析與物件建立

2025年07月08日 – 7 分鐘閱讀

本文探討使用Python處理資料，包含建立簡單物件、解析HTML和整合API。文章涵蓋使用`dict`、類別定義和`SimpleNamespace`建立物件，並示範如何使用BeautifulSoup解析HTML表格資料。此外，文章也說明如何使用Google Geocoding

Python 自動化瀏覽器操作與 Excel 檔案處理

2025年07月05日 – 10 分鐘閱讀

本文探討如何使用 Python 的 Playwright 和 Selenium 進行瀏覽器自動化操作，例如點選、鍵盤輸入和瀏覽器按鈕控制。同時，文章也深入講解如何使用 openpyxl 讀取和處理 Excel 檔案，包含存取儲存格、列、欄以及日期時間資料等實用技巧，並提供程式範例和流程圖說明。

Python程式設計核心技術與應用實踐

2025年05月14日 – 13 分鐘閱讀

本文深入探討 Python 程式設計的核心技術，涵蓋資料型別、運算子、控制結構、物件導向、資料結構、資料函式庫、網路程式設計等基礎概念。同時，文章也示範如何運用 Python 進行自動化操作，包含 GUI

PDF多媒體內容解析與表格摘要技術

2025年05月08日 – 7 分鐘閱讀

本文探討如何利用大語言模型 (LLM) 輔助解析 PDF 檔案中的多媒體元素，特別是表格資料的摘要與嵌入。透過 PDF 解析函式庫提取表格、圖片及文字等元素，並使用 GPT-4 等多模態模型生成摘要，最後將摘要與嵌入儲存至向量資料函式庫，以利後續 RAG 系統的檢索與應用。此方法能有效提升 PDF

Python PDF 檔案處理 PyPDF2 與 PyMuPDF 應用

2025年04月30日 – 5 分鐘閱讀

本文探討如何使用 Python 的 PyPDF2 和 PyMuPDF 函式庫處理 PDF 檔案，涵蓋元資料提取、文字擷取和圖片提取等技術。文章比較了兩個函式庫的優缺點，並提供最佳實務建議，協助開發者根據不同需求選擇合適的工具。

Python處理語言學資料NLTK與Toolbox資料應用

2025年04月22日 – 8 分鐘閱讀

本文介紹如何使用Python和NLTK函式庫處理Toolbox格式的語言學資料，涵蓋資料載入、存取、轉換、驗證以及上下文無關文法（CFG）的應用。文章提供實用的程式碼範例，演示如何使用NLTK的`toolbox`模組載入和操作Toolbox資料，包含索引存取、XPath查詢、XML轉換、HTML表格生成以及新增自定義欄

CSV 資料轉換文字描述技術方法

2025年04月18日 – 4 分鐘閱讀

本文探討如何將 CSV 資料轉換為文字描述，尤其針對自然語言處理的需求。文中介紹了三種方法：將 CSV 列轉換為獨立句子、將表格嵌入提示以及上傳 Excel 到 SQL 資料函式庫並使用文字到 SQL 方法。並以 Python 和 Pandas 函式庫示範如何將 CSV

Openpyxl讀取Excel與RE模組應用

2025年04月05日 – 10 分鐘閱讀

本文介紹如何使用 Python 的 openpyxl 模組讀取 Excel 檔案，並搭配 RE 模組進行字串處理。涵蓋了載入工作簿、選取工作表、讀取儲存格值、RE 模組的 findall、search、split 與 sub 等函式，以及特殊序列和集合的應用。搭配實務程式碼範例，講解如何運用這些技巧有效處理

Python資料集合操作技巧

2025年02月15日 – 11 分鐘閱讀

本文探討 Python 內建資料集合 List、Tuple 和字典的特性與操作技巧，包含如何使用索引、切片、`in` 運算子、lambda 函式以及生成器表示式等方法，有效率地處理和分析資料，並示範如何將這些技巧應用於實際案例，例如解析 HTTP Headers 和處理年份與乳酪消費量資料。

Python 處理壓縮檔與 JSON CSV 檔案

2024年12月30日 – 9 分鐘閱讀

本文介紹如何使用 Python 處理壓縮檔（ZIP）、JSON 檔案和 CSV 檔案，涵蓋讀取、寫入和解析等操作，並探討影像隱寫術的原理和 Pillow 函式庫的應用，包含安裝設定、圖片處理流程、元資料檢視和 Exif 資訊解析等實務技巧。

檔案合併與記錄更新邏輯及程式碼範例

2024年10月23日 – 7 分鐘閱讀

本文闡述檔案合併與記錄更新的核心邏輯和實作步驟，並提供程式碼範例與流程圖，深入探討資料處理在商業養成系統中的應用，涵蓋檔案讀取、更新、儲存等關鍵環節，以及如何確保資料處理的效率和正確性。

Pandas DataFrame 與 JSON 格式轉換：Orient 引數詳解

2024年10月08日 – 8 分鐘閱讀

本文探討 Pandas 中 DataFrame 與 JSON 格式轉換的技巧，著重於 `orient` 引數的應用。`orient` 引數提供多種選項，控制 JSON 輸出的結構，例如 `columns`、`records`、`split`、`index`、`values` 和

Python 解析 JSON YAML 資料格式處理技巧

2024年07月20日 – 11 分鐘閱讀

本文示範如何使用 Python 讀取、處理和驗證 JSON 與 YAML 格式資料，包含程式碼範例、流程圖解說以及常見錯誤處理方式，並探討 Plantuml 語法應用於流程圖繪製，展現資料處理流程的視覺化呈現。

圖表翻譯技術解析與 Python 工具應用

2024年05月28日 – 2 分鐘閱讀

本文介紹了圖表翻譯的技術，並以 RAG 系統為例說明其工作原理。同時，文章也示範瞭如何使用 Python 的 python-docx 和 unstructured 函式庫來處理 Word 檔案，提取文字內容並進行結構化分析，為後續的圖表翻譯或其他應用奠定基礎。

程式設計中迴圈結構與資料處理應用

2024年05月07日 – 8 分鐘閱讀

本文探討程式設計中迴圈結構的型別與應用，包含前測迴圈、後測迴圈、巢狀迴圈以及迴圈在資料處理中的應用，並說明迴圈控制變數、步驟值、資料驗證等關鍵概念，以及如何撰寫摘要報告。同時也涵蓋了迴圈的基礎概念、型別、結構和應用，以及迴圈控制變數、哨兵、迴圈體和計數器的概念。

Python 實作郵件伺服器連線與郵件內容擷取

2024年05月01日 – 8 分鐘閱讀

本文示範如何使用 Python 連線 IMAP 郵件伺服器，並利用 BeautifulSoup 解析郵件內容，最後將擷取的資料寫入 CSV 檔案。同時，文章也提供一個多檔案字串搜尋工具，方便使用者在指定目錄下搜尋特定字串，並示範如何遞迴搜尋檔案內容。

Python 提取 PDF 中繼資料與作者資訊

2024年04月17日 – 4 分鐘閱讀

本文示範如何使用 Python 從 PDF 檔案中提取中繼資料，包含標準欄位如作者、日期等，並結合 PyPDF2 函式庫及大語言模型 (LLM) 擷取額外資訊，例如頁數、檔案大小以及利用 Pydantic 模型結構化作者聯絡資訊，提升後續向量資料函式庫搜尋效率。

YAML 與 JSON 格式比較及應用於前置資料

2024年04月01日 – 6 分鐘閱讀

本文探討 YAML 與 JSON 兩種資料格式在 metadata 處理上的效率差異，並以 Python frontmatter 函式庫示範如何在 Markdown 檔案中嵌入前置資料，說明 YAML 更精簡的特性有助於降低計算成本，提升模型處理效率。