金融資料分析與視覺化完全實戰指南

在現代金融產業的運作中，資料已成為最重要的戰略資產。從信用評估到風險管理，從客戶行為分析到投資組合優化，資料驅動的決策模式正在重塑金融服務的各個面向。銀行與金融機構每天處理著數以百萬計的交易記錄、客戶資訊與市場資料，如何從這些海量資料中萃取有價值的洞察，是金融科技發展的核心議題。

資料視覺化在這個過程中扮演著關鍵角色。人類大腦對視覺資訊的處理速度遠超過文字與數字，精心設計的圖表能夠在瞬間傳達複雜的資料模式與趨勢。在信用貸款的場景中，視覺化不僅幫助風險管理團隊快速識別高風險申請，也讓管理階層能夠直觀理解業務表現與市場動態。Python 生態系統中的 Pandas、Seaborn 與 Matplotlib 等工具，提供了強大且靈活的資料處理與視覺化能力。

在台灣的金融環境中，從傳統銀行到新興的金融科技公司，資料分析能力正在成為競爭力的關鍵來源。消費金融部門利用資料分析優化信用評分模型，降低違約風險。財富管理團隊透過客戶資料分析，提供個人化的投資建議。風險控管單位運用視覺化工具，即時監控市場風險暴露。然而，如何建構有效的資料分析流程，如何選擇適當的視覺化方法，如何在資料分析中兼顧效率與道德，這些都是實務上需要深入探討的問題。

本文將從實戰的角度，系統性地探討金融資料分析與視覺化的完整流程。我們將深入分析信用貸款資料集，展示從資料載入、清理、探索性分析到視覺化呈現的完整實作，透過實際案例說明如何運用 Python 工具萃取商業洞察，並探討資料驅動文化在組織中的建立與實踐。

金融資料分析基礎架構

金融資料分析是一個系統性的過程，涉及資料收集、清理、轉換、分析與呈現等多個環節。一個完善的分析架構需要整合資料來源、處理流程、分析工具與呈現介面，確保從原始資料到商業洞察的轉換過程高效且可靠。

@startuml
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

package "金融資料分析架構" {
  package "資料層" {
    database "交易資料庫" as txdb
    database "客戶資料庫" as custdb
    database "外部資料源" as extdb
  }
  
  package "處理層" {
    component "資料擷取" as extract
    component "資料清理\n缺失值處理" as clean
    component "資料轉換\n特徵工程" as transform
  }
  
  package "分析層" {
    component "探索性分析\n(EDA)" as eda
    component "統計建模" as stats
    component "機器學習" as ml
  }
  
  package "呈現層" {
    component "視覺化引擎\n(Matplotlib/Seaborn)" as viz
    component "互動式儀表板" as dashboard
    component "分析報告" as report
  }
  
  component "資料品質監控" as quality
}

txdb --> extract
custdb --> extract
extdb --> extract

extract --> clean
clean --> transform
transform --> quality

quality --> eda
quality --> stats
quality --> ml

eda --> viz
stats --> viz
ml --> viz

viz --> dashboard
viz --> report

note right of clean
  缺失值處理
  異常值偵測
  資料型態轉換
end note

note bottom of eda
  分佈分析
  相關性分析
  群組比較
end note

@enduml

資料層包含了各種資料來源，在信用貸款的場景中，這包括交易紀錄資料庫、客戶基本資料庫，以及外部的信用評分資料。這些資料可能分散在不同的系統中，格式也各不相同。處理層負責將這些異質資料整合起來，進行必要的清理與轉換。資料清理是整個流程中最耗時但也最關鍵的環節，處理缺失值、異常值與不一致的資料格式，確保後續分析的品質。

分析層運用統計方法與機器學習技術，從資料中萃取模式與洞察。探索性資料分析幫助我們理解資料的基本特性，發現變數之間的關係。統計建模則提供更嚴謹的假設檢驗與推論能力。機器學習模型能夠處理複雜的非線性關係，提升預測準確度。呈現層將分析結果轉換為易於理解的視覺形式，支援決策制定。

信用貸款資料處理與分析

信用貸款資料包含了申請人的基本資訊、財務狀況與貸款申請細節。透過對這些資料的系統性分析，我們能夠理解影響貸款核准的關鍵因素，識別潛在風險，並優化審核流程。

#!/usr/bin/env python3
"""
信用貸款資料分析系統

完整的資料載入、清理、探索與視覺化流程
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from typing import Dict, List, Tuple
from scipy import stats
import warnings

warnings.filterwarnings('ignore')

# 設定中文字型與樣式
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style('whitegrid')
sns.set_palette('husl')

class LoanDataAnalyzer:
    """信用貸款資料分析器"""
    
    def __init__(self):
        self.data = None
        self.cleaned_data = None
        self.analysis_results = {}
    
    def load_data(self, source: str = 'sample') -> pd.DataFrame:
        """
        載入資料
        
        Args:
            source: 資料來源 ('sample' 或檔案路徑)
            
        Returns:
            原始資料 DataFrame
        """
        if source == 'sample':
            # 建立範例資料集
            np.random.seed(42)
            
            n_samples = 1000
            
            data = {
                '客戶ID': [f'C{str(i).zfill(5)}' for i in range(1, n_samples + 1)],
                '年齡': np.random.randint(22, 65, n_samples),
                '性別': np.random.choice(['男', '女'], n_samples),
                '收入': np.random.randint(30000, 150000, n_samples),
                '貸款金額': np.random.randint(50000, 500000, n_samples),
                '信用評分': np.random.randint(300, 850, n_samples),
                '就業年資': np.random.randint(0, 30, n_samples),
                '負債比率': np.random.uniform(0, 0.8, n_samples),
                '貸款期限': np.random.choice([12, 24, 36, 48, 60], n_samples),
                '貸款目的': np.random.choice(
                    ['購屋', '購車', '教育', '創業', '整合負債'],
                    n_samples
                )
            }
            
            self.data = pd.DataFrame(data)
            
            # 根據規則生成貸款核准狀態
            self.data['貸款核准'] = self._generate_approval_status()
            
            print(f"已載入 {len(self.data)} 筆範例資料")
        
        else:
            # 從檔案載入
            self.data = pd.read_csv(source)
            print(f"已從 {source} 載入 {len(self.data)} 筆資料")
        
        return self.data
    
    def _generate_approval_status(self) -> pd.Series:
        """根據規則生成貸款核准狀態"""
        # 簡化的核准邏輯
        approval_prob = (
            (self.data['信用評分'] / 850) * 0.4 +
            (1 - self.data['負債比率']) * 0.3 +
            (self.data['就業年資'] / 30) * 0.2 +
            (self.data['收入'] / 150000) * 0.1
        )
        
        # 加入隨機性
        approval_prob += np.random.normal(0, 0.1, len(self.data))
        approval_prob = np.clip(approval_prob, 0, 1)
        
        return (approval_prob > 0.6).map({True: '核准', False: '拒絕'})
    
    def clean_data(self) -> pd.DataFrame:
        """
        清理資料
        
        Returns:
            清理後的資料 DataFrame
        """
        print("\n=== 資料清理 ===\n")
        
        self.cleaned_data = self.data.copy()
        
        # 檢查缺失值
        missing_counts = self.cleaned_data.isnull().sum()
        if missing_counts.any():
            print("發現缺失值:")
            print(missing_counts[missing_counts > 0])
            
            # 處理缺失值（這裡假設沒有缺失值）
            self.cleaned_data = self.cleaned_data.dropna()
        else:
            print("無缺失值")
        
        # 檢查重複記錄
        duplicates = self.cleaned_data.duplicated().sum()
        if duplicates > 0:
            print(f"\n發現 {duplicates} 筆重複記錄，已移除")
            self.cleaned_data = self.cleaned_data.drop_duplicates()
        
        # 檢查異常值
        print("\n檢查數值欄位異常值:")
        numeric_cols = ['年齡', '收入', '貸款金額', '信用評分']
        
        for col in numeric_cols:
            Q1 = self.cleaned_data[col].quantile(0.25)
            Q3 = self.cleaned_data[col].quantile(0.75)
            IQR = Q3 - Q1
            
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            
            outliers = (
                (self.cleaned_data[col] < lower_bound) | 
                (self.cleaned_data[col] > upper_bound)
            ).sum()
            
            if outliers > 0:
                print(f"  {col}: {outliers} 個異常值")
        
        print(f"\n清理後資料筆數: {len(self.cleaned_data)}")
        
        return self.cleaned_data
    
    def exploratory_analysis(self) -> Dict:
        """
        探索性資料分析
        
        Returns:
            分析結果字典
        """
        print("\n=== 探索性資料分析 ===\n")
        
        results = {}
        
        # 基本統計
        print("[基本統計資訊]\n")
        results['descriptive_stats'] = self.cleaned_data.describe()
        print(results['descriptive_stats'])
        
        # 核准率分析
        print("\n[貸款核准率]\n")
        approval_rate = (
            self.cleaned_data['貸款核准'].value_counts(normalize=True) * 100
        )
        results['approval_rate'] = approval_rate
        print(approval_rate)
        
        # 按性別分析核准率
        print("\n[性別核准率分析]\n")
        gender_approval = pd.crosstab(
            self.cleaned_data['性別'],
            self.cleaned_data['貸款核准'],
            normalize='index'
        ) * 100
        results['gender_approval'] = gender_approval
        print(gender_approval)
        
        # 相關性分析
        print("\n[數值變數相關性]\n")
        numeric_data = self.cleaned_data.select_dtypes(include=[np.number])
        correlation_matrix = numeric_data.corr()
        results['correlation'] = correlation_matrix
        print(correlation_matrix.round(3))
        
        self.analysis_results = results
        
        return results
    
    def visualize_data(self, save_path: str = None) -> None:
        """
        建立視覺化圖表
        
        Args:
            save_path: 圖表儲存路徑
        """
        print("\n=== 建立視覺化圖表 ===\n")
        
        # 建立圖表網格
        fig = plt.figure(figsize=(20, 15))
        
        # 1. 貸款核准率分佈
        ax1 = plt.subplot(3, 3, 1)
        approval_counts = self.cleaned_data['貸款核准'].value_counts()
        colors = ['#2ecc71', '#e74c3c']
        
        wedges, texts, autotexts = ax1.pie(
            approval_counts,
            labels=approval_counts.index,
            autopct='%1.1f%%',
            colors=colors,
            startangle=90
        )
        
        for autotext in autotexts:
            autotext.set_color('white')
            autotext.set_fontweight('bold')
        
        ax1.set_title('整體貸款核准率', fontsize=14, fontweight='bold')
        
        # 2. 性別與核准狀態
        ax2 = plt.subplot(3, 3, 2)
        gender_approval = pd.crosstab(
            self.cleaned_data['性別'],
            self.cleaned_data['貸款核准']
        )
        
        gender_approval.plot(kind='bar', ax=ax2, color=colors)
        ax2.set_title('性別與貸款核准關係', fontsize=14, fontweight='bold')
        ax2.set_xlabel('性別')
        ax2.set_ylabel('申請數量')
        ax2.legend(title='核准狀態')
        ax2.tick_params(axis='x', rotation=0)
        
        # 3. 收入分佈
        ax3 = plt.subplot(3, 3, 3)
        self.cleaned_data['收入'].hist(bins=30, ax=ax3, color='#3498db', alpha=0.7)
        ax3.axvline(
            self.cleaned_data['收入'].median(),
            color='red',
            linestyle='--',
            label=f"中位數: {self.cleaned_data['收入'].median():.0f}"
        )
        ax3.set_title('收入分佈', fontsize=14, fontweight='bold')
        ax3.set_xlabel('年收入 (元)')
        ax3.set_ylabel('頻率')
        ax3.legend()
        
        # 4. 收入與貸款金額關係
        ax4 = plt.subplot(3, 3, 4)
        scatter = ax4.scatter(
            self.cleaned_data['收入'],
            self.cleaned_data['貸款金額'],
            c=self.cleaned_data['貸款核准'].map({'核准': 0, '拒絕': 1}),
            cmap='RdYlGn_r',
            alpha=0.6,
            s=50
        )
        
        # 加入趨勢線
        z = np.polyfit(self.cleaned_data['收入'], self.cleaned_data['貸款金額'], 1)
        p = np.poly1d(z)
        ax4.plot(
            self.cleaned_data['收入'],
            p(self.cleaned_data['收入']),
            "r--",
            alpha=0.8,
            linewidth=2
        )
        
        ax4.set_title('收入與貸款金額關係', fontsize=14, fontweight='bold')
        ax4.set_xlabel('年收入 (元)')
        ax4.set_ylabel('貸款金額 (元)')
        plt.colorbar(scatter, ax=ax4, label='核准狀態')
        
        # 5. 信用評分分佈
        ax5 = plt.subplot(3, 3, 5)
        for status in ['核准', '拒絕']:
            data = self.cleaned_data[
                self.cleaned_data['貸款核准'] == status
            ]['信用評分']
            ax5.hist(data, bins=20, alpha=0.6, label=status)
        
        ax5.set_title('信用評分分佈 (依核准狀態)', fontsize=14, fontweight='bold')
        ax5.set_xlabel('信用評分')
        ax5.set_ylabel('頻率')
        ax5.legend()
        
        # 6. 年齡分佈箱型圖
        ax6 = plt.subplot(3, 3, 6)
        age_by_approval = [
            self.cleaned_data[self.cleaned_data['貸款核准'] == status]['年齡']
            for status in ['核准', '拒絕']
        ]
        
        box = ax6.boxplot(
            age_by_approval,
            labels=['核准', '拒絕'],
            patch_artist=True
        )
        
        for patch, color in zip(box['boxes'], colors):
            patch.set_facecolor(color)
            patch.set_alpha(0.7)
        
        ax6.set_title('年齡分佈 (依核准狀態)', fontsize=14, fontweight='bold')
        ax6.set_ylabel('年齡')
        
        # 7. 貸款目的分析
        ax7 = plt.subplot(3, 3, 7)
        purpose_approval = pd.crosstab(
            self.cleaned_data['貸款目的'],
            self.cleaned_data['貸款核准'],
            normalize='index'
        ) * 100
        
        purpose_approval.plot(kind='barh', stacked=True, ax=ax7, color=colors)
        ax7.set_title('貸款目的核准率', fontsize=14, fontweight='bold')
        ax7.set_xlabel('核准率 (%)')
        ax7.set_ylabel('貸款目的')
        ax7.legend(title='核准狀態')
        
        # 8. 負債比率分佈
        ax8 = plt.subplot(3, 3, 8)
        for status in ['核准', '拒絕']:
            data = self.cleaned_data[
                self.cleaned_data['貸款核准'] == status
            ]['負債比率']
            ax8.hist(data, bins=20, alpha=0.6, label=status)
        
        ax8.set_title('負債比率分佈 (依核准狀態)', fontsize=14, fontweight='bold')
        ax8.set_xlabel('負債比率')
        ax8.set_ylabel('頻率')
        ax8.legend()
        
        # 9. 相關性熱圖
        ax9 = plt.subplot(3, 3, 9)
        numeric_cols = ['年齡', '收入', '貸款金額', '信用評分', '就業年資', '負債比率']
        corr_data = self.cleaned_data[numeric_cols].corr()
        
        sns.heatmap(
            corr_data,
            annot=True,
            fmt='.2f',
            cmap='coolwarm',
            center=0,
            ax=ax9,
            square=True,
            linewidths=1
        )
        ax9.set_title('變數相關性矩陣', fontsize=14, fontweight='bold')
        
        plt.tight_layout()
        
        if save_path:
            plt.savefig(save_path, dpi=300, bbox_inches='tight')
            print(f"圖表已儲存至: {save_path}")
        
        plt.show()
    
    def generate_insights(self) -> List[str]:
        """
        生成商業洞察
        
        Returns:
            洞察列表
        """
        insights = []
        
        # 核准率洞察
        approval_rate = (
            self.cleaned_data['貸款核准'] == '核准'
        ).mean() * 100
        
        insights.append(
            f"整體貸款核准率為 {approval_rate:.1f}%，"
            f"{'高於' if approval_rate > 70 else '低於'} 業界標準"
        )
        
        # 性別差異
        gender_approval = self.cleaned_data.groupby('性別')['貸款核准'].apply(
            lambda x: (x == '核准').mean() * 100
        )
        
        if abs(gender_approval['男'] - gender_approval['女']) > 5:
            insights.append(
                f"性別間核准率存在顯著差異 "
                f"(男性: {gender_approval['男']:.1f}%, "
                f"女性: {gender_approval['女']:.1f}%)，需檢視評估模型公平性"
            )
        
        # 收入與核准關係
        approved_income = self.cleaned_data[
            self.cleaned_data['貸款核准'] == '核准'
        ]['收入'].median()
        
        rejected_income = self.cleaned_data[
            self.cleaned_data['貸款核准'] == '拒絕'
        ]['收入'].median()
        
        insights.append(
            f"核准申請的收入中位數 ({approved_income:.0f} 元) "
            f"{'顯著' if approved_income > rejected_income * 1.2 else '略'}"
            f"高於拒絕申請 ({rejected_income:.0f} 元)"
        )
        
        # 信用評分影響
        approved_score = self.cleaned_data[
            self.cleaned_data['貸款核准'] == '核准'
        ]['信用評分'].mean()
        
        insights.append(
            f"核准申請的平均信用評分為 {approved_score:.0f}，"
            "信用評分是影響核准的關鍵因素"
        )
        
        return insights

# 使用範例
if __name__ == "__main__":
    print("=== 信用貸款資料分析系統 ===\n")
    
    # 初始化分析器
    analyzer = LoanDataAnalyzer()
    
    # 載入資料
    data = analyzer.load_data('sample')
    
    # 顯示前幾筆資料
    print("\n資料預覽:")
    print(data.head())
    
    # 清理資料
    cleaned = analyzer.clean_data()
    
    # 探索性分析
    results = analyzer.exploratory_analysis()
    
    # 建立視覺化
    analyzer.visualize_data('loan_analysis.png')
    
    # 生成商業洞察
    print("\n=== 商業洞察 ===\n")
    insights = analyzer.generate_insights()
    
    for i, insight in enumerate(insights, 1):
        print(f"{i}. {insight}\n")

這個完整的分析系統展示了從資料載入到洞察生成的完整流程。在實務應用中，可以進一步整合機器學習模型進行預測分析，或建立互動式儀表板供業務團隊使用。

資料驅動文化的建立

技術工具只是資料驅動決策的一部分，更重要的是組織文化的轉變。資料驅動文化意味著組織的各個層級都認同資料的價值，願意基於資料分析結果做出決策，而非僅憑直覺或經驗。

@startuml
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

start

:領導階層承諾\n設定資料策略;

:建立資料治理架構;

:提升組織資料素養\n培訓與教育;

:導入分析工具與平台;

:建立資料分析團隊;

if (資料品質是否充足?) then (是)
  :執行試點專案;
  
  if (試點成功?) then (是)
    :擴大實施範圍;
    
    :持續優化與迭代;
    
    :建立最佳實務;
    
    :文化深度融入;
  else (否)
    :檢討改進;
  endif
else (否)
  :改善資料基礎建設;
  :建立資料治理架構;
endif

stop

note right
  資料驅動文化建立路徑
  
  關鍵成功因素:
  - 高階支持
  - 資料素養
  - 工具支援
  - 持續優化
end note

@enduml

建立資料驅動文化始於領導階層的承諾。管理團隊需要明確表達對資料分析的重視，將資料納入策略規劃與績效評估體系。這種由上而下的支持能夠為組織變革提供必要的資源與動力。同時，提升全員的資料素養也至關重要。這不意味著每個人都要成為資料科學家，而是理解資料的價值，能夠解讀基本的統計圖表，並在決策時考量資料證據。

資料治理架構確保資料的品質、安全與合規性。這包括建立資料標準、定義資料擁有權、實施存取控制，以及建立資料品質監控機制。沒有良好的資料治理,分析結果的可信度將大打折扣。工具與平台的選擇需要考量組織的技術能力與業務需求，在易用性與功能性之間找到平衡。

試點專案是驗證資料驅動方法的重要步驟。選擇影響範圍適中但商業價值明確的場景,透過資料分析解決實際問題,展現資料的價值。成功的試點案例能夠建立信心,推動更大範圍的實施。持續的優化與學習則確保組織能夠適應不斷變化的環境,將資料驅動真正融入組織的 DNA。

總結

金融資料分析與視覺化是現代金融服務的核心能力。透過系統性的資料處理、統計分析與視覺化呈現,我們能夠從海量資料中萃取有價值的洞察,支援更明智的決策。Python 生態系統提供了強大且靈活的工具,讓資料分析變得更加高效與accessible。

在台灣的金融環境中,資料分析能力正在成為競爭優勢的關鍵來源。從風險管理到客戶服務,從產品設計到營運優化,資料驅動的方法正在改變金融服務的各個面向。然而,技術只是實現資料驅動的一部分,更重要的是組織文化的轉變與資料素養的提升。

隨著機器學習、人工智慧與即時分析技術的進步,金融資料分析將變得更加智慧與自動化。從預測性分析到規範性分析,從批次處理到串流處理,資料分析的能力將持續擴展。同時,資料倫理、隱私保護與公平性等議題也需要持續關注,確保資料驅動的決策不僅高效,更是負責任與公正的。持續學習與實踐,掌握資料分析的最新發展,將是每位金融從業人員在新時代保持競爭力的關鍵。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。