資料科學

168 Articles

GNU Parallel 分散式資料處理技術

2024年07月01日 – 8 分鐘閱讀

本文介紹如何使用 GNU Parallel 進行分散式資料處理，提升效率。涵蓋遠端機器安裝、資料分配、檔案處理、平行管線、資料建模、機器學習實務等導向。以葡萄酒品質資料集為例，示範如何運用命令列工具進行資料清理、降維、視覺化分析，並探討 PCA 和 t-SNE 降維技術的應用與比較。

機器學習公平性：從理論框架到偏見緩解實務

2024年06月26日 – 14 分鐘閱讀

本文深入解析機器學習的公平性議題，從核心理論框架出發，闡述人口統計均等性與機會均等性等數學定義。文章探討了演算法偏見的常見來源，並剖析準確率與公平性之間的權衡關係。內容聚焦於實務中的偏見檢測與去偏見技術，涵蓋資料預處理、訓練中約束及後處理調整等策略，旨在提供一個從理論到實踐的完整指引，協助開發者建立更值得信賴的人工智慧系統。

機器學習模型全流程：從選擇到部署的實戰指南

2024年06月24日 – 19 分鐘閱讀

深入探討機器學習模型從選擇、訓練、評估到部署的完整流程，涵蓋監督式學習與非監督式學習的實務應用技巧與常見陷阱

運用地理投影實現航空網路的空間視覺化

2024年06月20日 – 9 分鐘閱讀

本文探討如何將地理空間資訊整合至航空網路的視覺化呈現。傳統網路佈局演算法僅考量拓撲結構，常導致地理網路視覺化結果混亂，形成難以解讀的「毛球」。為解決此問題，我們引入地理投影技術，將球體上的經緯度座標轉換為二維平面上的 x, y

Pandas資料框操作技巧彙整

2024年06月20日 – 9 分鐘閱讀

本文深入探討使用 Python Pandas 函式庫操作資料框的技巧，涵蓋分割姓名欄位、修改資料、新增欄位、刪除欄位、排序、分組聚合、統計分析等導向，並輔以程式碼範例和圖表說明，提供工程師在實際應用中參考。

Polars 結合 DuckDB：SQL 查詢 DataFrame 效能提升

2024年06月08日 – 8 分鐘閱讀

本文將介紹如何使用 DuckDB 搭配 SQL 查詢 Polars DataFrame，結合兩者優勢，提升資料分析效能。透過 DuckDB 的 SQL 支援和 Polars 的高效能特性，開發者可以更輕鬆地進行資料操作和分析。

Pandas資料選擇與指定技巧

2024年05月29日 – 10 分鐘閱讀

本文探討 Pandas 資料選擇與指定的技巧，涵蓋 `pd.Series` 和 `pd.DataFrame` 的各種選取方法，包含位置索引、標籤索引、切片操作以及混合選取方式。同時，也解析了 `pd.DataFrame.loc`、`pd.DataFrame.iloc` 和 `pd.DataFrame.filter`

Pandas 進階資料處理技術：管道操作、Top N 分析與金融應用實務

2024年05月20日 – 25 分鐘閱讀

深入探討 Pandas 的進階資料處理技術，涵蓋管道操作模式、Top N 分析方法、金融市場追蹤停損策略實作，以及運動數據分析應用，提供台灣資料科學與金融科技從業人員完整的實務操作指南

Python 金融資料處理與向量化回測策略

2024年05月18日 – 13 分鐘閱讀

本文探討 Python 在金融資料處理和向量化回測策略中的應用。涵蓋資料取得、儲存、向量化技術、回測框架以及 Pandas 和 NumPy 等工具的實踐案例，並提供程式碼範例和圖表說明，幫助讀者理解金融資料處理流程和向量化回測策略的優勢。

資料轉換技巧與視覺化應用

2024年05月16日 – 19 分鐘閱讀

本文探討資料轉換技巧，特別針對偏態資料，介紹如何使用對數、平方根、Box-Cox 和 Yeo-Johnson 等方法進行轉換，並搭配 Python 程式碼與視覺化圖表，比較轉換前後的資料分佈差異，有效提升資料分析和機器學習模型的效能。

資料產品設計開發與生產環境操作

2024年05月14日 – 9 分鐘閱讀

本文闡述資料產品的設計、開發與生產環境操作，涵蓋內部組件定義、描述檔撰寫、資料管理策略、發布流程、治理機制及消費模式，並以程式碼範例與圖表說明應用程式、基礎設施資源的整合與運作方式，提供完整資料產品生命週期管理。

Deequ 資料品質驗證與單元測試實踐

2024年05月14日 – 10 分鐘閱讀

本文介紹如何使用 Deequ 函式庫在 Apache Spark 環境下進行資料品質驗證和單元測試，並探討 Deequ 的優勢與限制，同時也說明如何結合 Apache Airflow 建立資料品品檢查和斷路器，以及資料監控與異常檢測的技術與實踐。

資料分析的未來：從戰略資產到道德治理的全方位探索

2024年05月13日 – 36 分鐘閱讀

深入探討資料分析的未來發展方向，從道德治理框架到戰略資產管理，剖析企業如何建立資料驅動文化，並透過 Python 實作展示現代資料分析環境的建置策略。

Pandas資料對齊與合併運算和缺失值處理

2024年05月08日 – 15 分鐘閱讀

本文深入探討 Pandas 中的資料對齊與運算、資料合併與運算以及缺失值處理。文章涵蓋了 Series 和 DataFrame 的運算，索引和欄位對齊，缺失值填充，以及 NaN 和 None 的使用。此外，還討論瞭如何使用布林遮罩處理缺失值，以及如何選擇合適的填充方法。

DuckDB：高效能分析型資料函式庫，簡化資料科學流程

2024年05月02日 – 12 分鐘閱讀

DuckDB 作為一款高效能的分析型資料函式庫，以其輕量級、嵌入式特性和與 Pandas 的無縫整合，簡化了資料科學家的工作流程。它不需要額外的伺服器，可以直接在 Python 環境中執行 SQL 查詢，處理 CSV、Parquet 等多種資料格式，大幅提升資料分析效率。

資料科學理論與實務應用

2024年04月30日 – 9 分鐘閱讀

本探討資料科學核心概念、方法和應用，涵蓋資料準備、機器學習模型、大資料分析等關鍵導向，並闡述其在商業決策中的價值，提供從理論到實務的完整框架，協助讀者掌握資料科學精髓。

資料科學中ChatGPT與Python函式庫應用

2024年04月28日 – 18 分鐘閱讀

本文探討 ChatGPT 在資料科學中的應用，並比較 Pandas、Polars、Matplotlib、Seaborn、NumPy 和 Scipy 等 Python

Pandas資料合併技巧與索引處理

2024年04月26日 – 14 分鐘閱讀

本文深入探討 Pandas 資料合併的各種技巧，包含預設行為、重複索引處理、合併型別、多層索引、連線與合併、`reindex` 方法、`append` 方法、`merge` 函式、`join` 方法以及關聯代數等。文章提供豐富的程式碼範例，詳細說明不同合併方法的應用場景，並輔以圖表解說，幫助讀者快速掌握 Pandas

平行處理技術與GNUParallel應用

2024年04月22日 – 10 分鐘閱讀

本文探討在命令列環境下，如何運用平行處理技術提升資料處理效率，並詳細介紹 GNU Parallel 工具的應用，包含基本用法、進階功能、實際案例以及分散式處理的策略。從迴圈的序列處理到 GNU Parallel 的平行化執行，文章逐步闡述如何最佳化命令列工作流程，並有效利用多核心 CPU

網路分析中心性指標與整體結構探索

2024年04月17日 – 8 分鐘閱讀

本文探討網路科學中的中心性指標和整體網路結構分析方法。文章以婦女參政運動網路為例，示範如何使用 NetworkX 計算接近中心性和本地聚類別係數，並解釋其應用價值。此外，文章還介紹了描述網路整體結構的指標，例如直徑、平均最短路徑、全域叢集係數和網路韌性，並以空手道俱樂部、德國電網和歐洲 GÉANT

Docker Jupyter Notebook 資料科學應用

2024年04月13日 – 5 分鐘閱讀

本文探討 Docker 在 Jupyter Notebook 環境的應用，涵蓋基礎安裝、進階組態與資料函式庫整合。藉由 Docker 的環境隔離、一致性與易於分享特性，提升資料科學專案的開發效率。同時，文章也示範如何自定義 Jupyter Notebook 映象，滿足特定專案需求，並整合 PostgreSQL 和

Pandas Series DataFrame 運算技巧

2024年04月12日 – 9 分鐘閱讀

本文探討 Pandas 中 Series 與 DataFrame 的基本算術和聚合運算，包含向量化運算、索引對齊、缺失值處理、自定義聚合函式等技巧，並以程式碼範例和圖表說明，幫助讀者有效運用 Pandas 進行資料處理和分析。

不平衡資料處理方法與評估指標

2024年04月12日 – 4 分鐘閱讀

本文探討不平衡資料處理的常見技術與評估指標。涵蓋過抽樣、欠抽樣、SMOTE、ADASYN 等資料預處理方法，以及 Cost-sensitive Learning 和 Thresholding 等演算法層面技巧。此外，也討論了精確率、召回率、F1 分數和 AUC-ROC

時序分析與ARIMA模型應用

2024年04月12日 – 18 分鐘閱讀

本文探討時間序列分析中的自相關性與 ARIMA 模型應用，涵蓋自相關分析、ARIMA 模型原理、模型選擇與最佳化、預測評估以及案例分析。透過 Amtrak 乘客資料與 S&P 500 指數等案例，演示如何使用自相關圖、ACF、PACF 等工具識別資料模式，選擇合適的 ARIMA

資料科學核心技術：從視覺化探索到統計推論的完整實踐

2024年04月12日 – 22 分鐘閱讀

深入探討資料科學的核心技術體系,從資料視覺化的實踐方法到統計推論的理論基礎,結合製造業預測性維護的真實案例,展現資料驅動決策在企業營運中的關鍵價值與實務應用策略

機器學習資料集迭代最佳化與品品檢驗

2024年04月10日 – 12 分鐘閱讀

本文探討機器學習專案中資料集的重要性，強調迭代最佳化和品品檢驗是模型成功的關鍵。從初始資料集的收集、探索到驗證其適用性，確保資料品質以支援後續建模工作。文章涵蓋資料探索的目的、資料品質評估框架、資料數量與分佈分析，並以實際案例說明資料品品檢驗的重要性。最後，以 Stack Exchange 資料集為例，示範如何使用

異常檢測模型的精準度與召回率

2024年04月06日 – 10 分鐘閱讀

本文探討異常檢測模型中精準度與召回率的權衡，以及如何使用 F-score 綜合評估模型效能。同時介紹 Python 機器學習函式庫如 TensorFlow、PyTorch 和 scikit-learn 在異常檢測的應用，並以資料鮮度異常檢測為例說明如何評估模型的有效性。

本文探討在名字性別預測任務中，如何透過特徵工程策略提升模型的泛化能力。傳統基於完整名字的分析方法在面對未曾見過的創意命名時效果不佳。為解決此問題，本文提出採用字符片段分析（N-gram），將名字拆解為更細粒度的單位，以捕捉跨名字的共同模式。實務上，結合改進的TF-IDF向量化方法與出生人數作為權重，能更精確反映名字在真實世界中的性別關聯強度。此方法尤其適用於處理台灣獨特的命名習慣，顯著提高了對新創名字的預測準確率。

Polars高效能資料儲存與處理技術

2024年04月02日 – 11 分鐘閱讀

本文深入探討 Polars 這個 Python 資料處理函式庫，如何有效儲存和處理多種型別資料，包含結構化資料、列表、時間群組和其他群組，並提供使用 Polars 建立數值群組、DataFrame 的程式碼範例，以及不同整數和浮點數型別的操作說明，同時圖文並茂地解釋如何選擇合適的資料型別和使用 Polars

機器學習：神經網路訓練中的過擬合陷阱

2024年03月22日 – 36 分鐘閱讀

神經網路訓練中的過擬合陷阱在機器學習領域，特別是在訓練複雜的深度神經網路時，過擬合是一個揮之不去的問題。當我們觀察一個模型在訓練過程中的表現時，通常會看到訓練誤差不斷下降，但在某個時間點後，測試誤差卻開始上升。