資料科學

168 Articles

形式概念分析：理論、應用與 Python 實作

2024年03月21日 – 17 分鐘閱讀

本文介紹形式概念分析 (FCA) 的基本概念，包括匯出運算、概念格的構建以及其在資料分析、知識工程和文字分析中的應用。文章還提供了使用 Python 的 `concept` 函式函式庫實作 FCA 的程式碼範例，並探討了 FCA 與語義網路、WordNet 的關聯，以及如何利用 FCA 進行詞彙語義分析。

Pandas資料型別最佳化與PyArrow應用

2024年03月17日 – 9 分鐘閱讀

本文探討Pandas中類別型與時間型資料的處理技巧，有效利用`pd.CategoricalDtype`和`datetime64[ns]`降低記憶體使用並提升效能。同時，文章也介紹了PyArrow擴充套件應用，包含時間差計算、時區處理、List型別和十進位制資料型別，以應對更複雜的資料結構和高精確度計算需求，避免浮點數誤

資料視覺化實戰指南:從分析到商業洞察的完整決策流程

2024年03月15日 – 19 分鐘閱讀

深入探討資料視覺化技術在企業決策中的完整應用流程,從視覺化設計原則、Python 實作技巧到商業溝通策略。涵蓋 Matplotlib、Seaborn、Plotly 等主流工具的實務操作,以及如何透過資料敘事驅動商業決策。透過豐富的程式碼範例與實務案例,協助台灣企業建立數據驅動的決策文化。

Dask 與 Ray 資料框架高階技巧與效能調校

2024年03月11日 – 12 分鐘閱讀

本文探討 Dask 和 Ray 兩個 Python 分散式計算框架的資料框架高階操作技巧，包含自動分割槽、DataFrame 合併、效能最佳化以及實務案例。同時比較 Dask 與 Ray 的特性與適用場景，並提供程式碼範例和圖示說明，幫助讀者瞭解如何有效運用這些技術處理大規模資料集。

資料科學統計方法與機器學習應用

2024年03月07日 – 11 分鐘閱讀

本文探討資料科學中常用的統計方法與機器學習技術，涵蓋資料縮放、降維、分群、分類別、模型評估以及不平衡資料處理等關鍵議題。文章深入比較不同分群方法的特性與適用場景，並提供程式碼範例說明 K-Means

NumPy多維陣列建立與對角線元素操作技巧

2024年03月01日 – 11 分鐘閱讀

本文深入探討 NumPy 多維陣列的建立與對角線元素操作。涵蓋 `zeros`、`ones`、`full` 初始化不同值陣列，`eye` 建立單位矩陣，以及 `diag` 提取和建構對角陣列等技巧，並輔以程式碼範例和圖表說明，幫助讀者快速掌握 NumPy 陣列操作。

LangChain 與 OpenAI 應用於資料分析和標籤預測

2024年02月29日 – 15 分鐘閱讀

本文深入探討如何運用 LangChain 和 OpenAI 進行資料分析及標籤預測，涵蓋 Pandas DataFrame Agent、標籤函式建立、標籤模型訓練、Compose 函式庫應用以及半監督式學習等關鍵技術，並佐以實際案例與程式碼，展現其在資料科學領域的應用價值。

Polars高效能資料分析：資料轉換與聚合技巧

2024年02月20日 – 40 分鐘閱讀

Polars 是一個高效能的 DataFrame 函式庫，專為資料科學和分析任務設計。本文將探討 Polars 的資料轉換和聚合功能，並提供實用的程式碼範例，幫助你更好地理解和應用這些技巧，提升資料處理效率。

NumPy 陣列索引與廣播機制最佳化技巧

2024年02月20日 – 12 分鐘閱讀

本文深入探討 NumPy 陣列的索引與廣播機制，並提供使用案例和效能最佳化技巧。涵蓋基本索引、切片、複合索引、布林遮罩、高階索引以及如何應用於粒子模擬器等實際案例，有效提升程式碼執行效率。

Python 建立雲端演算法交易環境與金融資料處理

2024年02月11日 – 12 分鐘閱讀

本文介紹如何使用 Python 建立雲端演算法交易環境，包含設定環境變數、安裝必要的 Python 函式庫、設定和啟動 Jupyter Lab，以及使用 DigitalOcean 建立虛擬機器。同時，文章也涵蓋了金融資料的讀取、處理和分析，包括使用 pandas 讀取 CSV 和 HDF5 檔案，以及使用

資料可觀測性異常檢測實戰

2024年02月07日 – 10 分鐘閱讀

本文以模擬的系外行星資料集為例，示範如何使用 SQL 和 Python 建立資料可觀測性演算法，並重點講解如何監控資料的 Freshness 和 Distribution 這兩個關鍵指標，以偵測異常情況。文章涵蓋了 SQL 查詢的撰寫、結果分析，以及如何設定門檻值來調整偵測的靈敏度。

Pandas資料索引操作與應用技巧

2024年01月27日 – 10 分鐘閱讀

本文深入探討 Pandas 資料索引的設定、重設與運用技巧，包含設定特定欄位為索引、使用 `reset_index` 方法還原索引、利用 `loc` 索引器精確選取資料，以及處理索引錯誤的實務方法。搭配程式碼範例與圖表說明，有效提升資料操作效率。

人工智慧中機率模型的應用與發展

2024年01月26日 – 9 分鐘閱讀

本文探討機率模型在人工智慧中的應用，涵蓋從簡單貝葉斯分類別器到機率程式設計的演進，並分析邏輯與機率融合的挑戰和解決方案。文章也探討了高科技養成系統的發展趨勢，強調資料驅動決策、自動化技術和個人化養成路徑的重要性，為未來人工智慧發展方向提供見解。

向量與矩陣運算實務指南：從線性代數基礎到 Python 資料分析應用

2024年01月20日 – 34 分鐘閱讀

深入探討線性代數中向量與矩陣的核心運算概念，透過 Python NumPy 與 Pandas 實作向量加減法、點積、矩陣乘法、單位矩陣與逆矩陣計算，並展示如何將這些數學概念應用於實際的資料分析與機器學習場景

糖尿病分類別深度學習模型建構與效能評估

2024年01月14日 – 7 分鐘閱讀

本文探討使用 Apache Spark 進行糖尿病資料預處理，並利用 PyTorch 建構深度學習分類別模型的完整流程。涵蓋特徵工程、模型定義、訓練、評估指標計算，以及混淆矩陣和 ROC-AUC 分數等關鍵導向，提供實務程式碼範例與詳細步驟說明，有效提升模型效能和泛化能力。

Pandas資料操作與索引技巧

2024年01月14日 – 10 分鐘閱讀

本文深入探討 Pandas 資料操作技巧，包含使用 loc 和 iloc 索引器進行資料選擇、切片與修改，以及如何處理索引錯誤和多索引標籤查詢。搭配程式碼範例與圖表說明，有效提升 Pandas 資料處理效率。

機器學習驅動的信用評分系統：從資料分析到智慧貸款決策的完整實踐

2024年01月11日 – 29 分鐘閱讀

深入探討機器學習技術在信用評分與貸款決策中的應用，從資料前處理、特徵工程到模型建構的完整流程，涵蓋決策樹、隨機森林、梯度提升等演算法實作，並詳細分析模型偏差、公平性評估與風險管理策略，提供金融機構建構智慧信貸系統的實務指南。

從平行邊界到網路建模的決策思維

2024年01月04日 – 11 分鐘閱讀

本文深入探討 NetworkX 中處理複雜網路結構的進階功能，特別是 `MultiGraph` 與 `MultiDiGraph` 如何解決節點間的平行邊界問題，並以克尼斯堡橋樑問題為例示範其應用。文章進一步闡述網路建模的關鍵決策，包括如何根據分析目標定義節點與邊界，以及選擇合適的網路類型。最後，透過分析