Java JDBC 操作 DuckDB 資料函式庫整合應用

DuckDB 作為一款高效能的嵌入式分析型資料函式庫，結合 Java 的 JDBC Driver，讓開發者能以熟悉的 Java 環境操作 DuckDB。本文提供的程式碼範例示範瞭如何生成大量測試資料、使用 SQL 進行資料分析，並透過 JDBC 執行查詢。此外，文章也涵蓋了 DuckDB 的唯讀模式設定、串流結果處理，以及如何設定連線屬性等實務技巧，方便開發者快速上手並整合至既有 Java 專案。

使用 Java 經由 JDBC Driver 操作 DuckDB

DuckDB 提供了一個 JDBC Driver，讓 Java 開發者能夠輕鬆地與 DuckDB 資料函式庫互動。以下是一個使用 Java 和 JDBC Driver 操作 DuckDB 的範例。

生成資料

首先，我們需要生成一些資料來測試 DuckDB 的效能。以下是一個簡單的 Java 程式，用於生成一億筆隨機的天氣資料：

import java.sql.DriverManager;
import java.sql.SQLException;
import java.util.concurrent.ThreadLocalRandom;
import org.duckdb.DuckDBConnection;

static void generateData(int size) throws SQLException {
    var stations = weatherStations();
    var numStations = stations.size();
    try (var con = DriverManager.getConnection("jdbc:duckdb:weather.db").unwrap(DuckDBConnection.class)) {
        var rand = ThreadLocalRandom.current();
        long start = System.currentTimeMillis();
        try (var appender = con.createAppender(DuckDBConnection.DEFAULT_SCHEMA, "weather")) {
            for (int i = 0; i < size; ++i) {
                if (i > 0 && i % 50_000_000 == 0) {
                    appender.flush();
                }
                var station = stations.get(rand.nextInt(numStations));
                appender.beginRow();
                appender.append(station.id());
                appender.append(station.measurement());
                appender.endRow();
            }
        }
    }
}

內容解密：

生成資料方法：generateData 方法接受一個整數 size，表示要生成的資料筆數。
取得氣象站資料：weatherStations() 方法傳回一個包含所有氣象站的列表。
建立 DuckDB 連線：使用 DriverManager.getConnection 方法建立一個到 weather.db 資料函式庫的連線，並將其轉換為 DuckDBConnection 物件。
建立 Appender：使用 con.createAppender 方法建立一個 Appender 物件，用於將資料附加到 weather 表中。
生成隨機資料：使用 ThreadLocalRandom 類別生成隨機數，並根據隨機數選擇氣象站和測量值。
將資料寫入資料函式庫：使用 appender.beginRow()、appender.append() 和 appender.endRow() 方法將資料寫入 weather 表中。

執行 One Billion Row Challenge

DuckDB 能夠快速地處理大量的資料。以下是一個 SQL 查詢，用於計算每個氣象站的最小值、平均值和最大值：

WITH src AS (
    SELECT id AS station_name,
           MIN(measurement) AS min,
           CAST(AVG(measurement) AS DECIMAL(8,1)) AS mean,
           MAX(measurement) AS max
    FROM weather
    GROUP BY station_name
)
SELECT '{' || ARRAY_TO_STRING(
    LIST(station_name || '=' || CONCAT_WS('/', min, mean, max)
    ORDER BY station_name), ', ')
|| '}' AS "1BRC"
FROM src;

內容解密：

建立暫存表：使用 WITH 子句建立一個暫存表 src，包含每個氣象站的最小值、平均值和最大值。
計算聚合值：使用 MIN、AVG 和 MAX 聚合函式計算每個氣象站的最小值、平均值和最大值。
格式化輸出：使用 ARRAY_TO_STRING 和 CONCAT_WS 函式將結果格式化為一個字串。

使用 JDBC Driver 執行查詢

以下是一個 Java 程式，使用 JDBC Driver 執行上述 SQL 查詢：

import java.sql.DriverManager;
import java.sql.SQLException;
import java.util.Locale;
import java.util.Properties;
import org.duckdb.DuckDBDriver;

class read_only {
    public static void main(String... args) throws SQLException {
        var properties = new Properties();
        properties.setProperty(DuckDBDriver.DUCKDB_READONLY_PROPERTY, "true");
        properties.setProperty(DuckDBDriver.JDBC_STREAM_RESULTS, "true");
        var query = """
            SELECT id AS station_name,
                   MIN(measurement) AS min,
                   CAST(AVG(measurement) AS DECIMAL(8,1)) AS mean,
                   MAX(measurement) AS max
            FROM weather
            GROUP BY station_name
            ORDER BY station_name
            """;
        var url = "jdbc:duckdb:weather.db";
        try (var con = DriverManager.getConnection(url, properties);
             var stmt = con.createStatement();
             var result = stmt.executeQuery(query)) {
            boolean first = true;
            System.out.print("{");
            while (result.next()) {
                if (!first) {
                    System.out.print(", ");
                }
                var station = result.getString("station_name");
                var min = result.getDouble("min");
                var mean = result.getDouble("mean");
                var max = result.getDouble("max");
                System.out.printf(Locale.ENGLISH, "%s=%3.2f/%3.2f/%3.2f", station, min, mean, max);
                first = false;
            }
        }
        System.out.println("}");
    }
}

內容解密：

設定連線屬性：使用 Properties 物件設定連線屬性，包括唯讀模式和串流結果。
建立連線：使用 DriverManager.getConnection 方法建立一個到 weather.db 資料函式庫的連線。
執行查詢：使用 con.createStatement() 和 stmt.executeQuery() 方法執行 SQL 查詢。
處理結果：使用 result.next() 方法遍歷查詢結果，並使用 System.out.printf 方法格式化輸出。

DuckDB 技術：資料分析與處理的強大工具

前言

DuckDB 是一種高效、靈活的資料分析工具，廣泛應用於資料探索、轉換和建模。本文將探討 DuckDB 的核心功能及其在資料處理和分析中的應用。

資料探索與查詢

使用 DuckDB CLI 分析 CSV 檔案

DuckDB 提供了命令列介面（CLI）來分析 CSV 檔案。透過 duckdb 命令，可以輕鬆查詢和分析資料。

-- 分析 CSV 檔案
SELECT * FROM 'data.csv';

資料查詢與過濾

DuckDB 支援 SQL 語法，可以對資料進行查詢和過濾。例如，使用 WHERE 子句來篩選資料。

-- 查詢特定條件的資料
SELECT * FROM 'data.csv' WHERE column_name = 'value';

資料轉換與建模

使用 dbt 進行資料轉換

dbt（Data Build Tool）是一個強大的資料轉換工具，可以與 DuckDB 結合使用，實作資料的轉換和建模。

-- 定義資料模型
{{ config(
    materialized='table',
    alias='my_model'
) }}

SELECT 
    column1,
    column2,
    SUM(column3) AS total
FROM 
    source_table
GROUP BY 
    column1, column2;

使用 dlt 進行資料載入

dlt（Data Load Tool）是一個用於資料載入的工具，可以將資料載入到 DuckDB 中。

# 載入資料到 DuckDB
import dlt

pipeline = dlt.pipeline(
    pipeline_name='my_pipeline',
    destination='duckdb',
    dataset_name='my_dataset'
)

data = [{'column1': 'value1', 'column2': 'value2'}]
pipeline.run(data)

資料視覺化

使用 Streamlit 構建資料應用

Streamlit 是一個用於構建資料應用的框架，可以與 DuckDB 結合使用，實作資料的視覺化。

# 使用 Streamlit 構建資料應用
import streamlit as st
import duckdb

# 連線 DuckDB
conn = duckdb.connect(database='my_database.db')

# 查詢資料
data = conn.execute('SELECT * FROM my_table').fetchdf()

# 視覺化資料
st.write(data)

效能最佳化

使用索引提高查詢效能

DuckDB 支援索引，可以提高查詢效能。

-- 建立索引
CREATE INDEX idx_column_name ON my_table (column_name);

使用分割槽提高查詢效能

DuckDB 支援分割槽，可以提高查詢效能。

-- 建立分割槽表
CREATE TABLE my_table (
    column1 INT,
    column2 VARCHAR,
    column3 DATE
) PARTITION BY (column3);

DuckDB 深度解析與實務應用

前言

DuckDB 是一種高效能的分析型資料函式庫系統，專為處理大量資料而設計。本文將探討 DuckDB 的核心功能、實務應用及其在資料處理和分析中的優勢。

DuckDB 基礎架構與核心功能

資料載入與查詢

DuckDB 支援多種資料來源的載入，包括 CSV、Parquet 和 JSON 檔案。其強大的查詢引擎支援標準 SQL 語法，並提供多種進階功能，如視窗函式、通用表表達式（CTE）等。

-- 載入 CSV 資料
CREATE TABLE readings AS SELECT * FROM read_csv_auto('data.csv');

-- 查詢資料
SELECT * FROM readings WHERE value > 100;

內容解密：

CREATE TABLE readings AS SELECT * FROM read_csv_auto('data.csv');：這行程式碼使用 read_csv_auto 函式自動偵測 CSV 檔案的結構並建立一個名為 readings 的表格。
SELECT * FROM readings WHERE value > 100;：這行查詢從 readings 表格中選取所有 value 大於 100 的資料列。

進階查詢功能

分組與聚合

DuckDB 支援多種分組與聚合功能，如 GROUP BY、CUBE 和 ROLLUP，可用於複雜的資料分析。

-- 使用 GROUP BY 分組資料
SELECT category, AVG(value) AS avg_value FROM data GROUP BY category;

-- 使用 CUBE 進行多維度分析
SELECT category, subcategory, AVG(value) AS avg_value FROM data GROUP BY CUBE(category, subcategory);

內容解密：

SELECT category, AVG(value) AS avg_value FROM data GROUP BY category;：這行查詢根據 category 分組資料並計算每組的平均 value 值。
SELECT category, subcategory, AVG(value) AS avg_value FROM data GROUP BY CUBE(category, subcategory);：這行查詢使用 CUBE 對 category 和 subcategory 進行多維度分組，並計算平均 value 值。

與其他工具的整合

Python API

DuckDB 提供 Python API，使用者可以輕鬆地在 Python 環境中進行資料處理和分析。

import duckdb

# 建立 DuckDB 連線
con = duckdb.connect(database='my_database.db')

# 查詢資料
result = con.execute("SELECT * FROM my_table").fetchall()

內容解密：

import duckdb：匯入 DuckDB 的 Python 函式庫。
con = duckdb.connect(database='my_database.db')：建立與 DuckDB 資料函式庫的連線。
result = con.execute("SELECT * FROM my_table").fetchall()：執行 SQL 查詢並取得所有結果。

大型資料集處理

Parquet 檔案處理

DuckDB 可以高效地讀取和寫入 Parquet 檔案，適合用於大型資料集的儲存和處理。

-- 讀取 Parquet 檔案
SELECT * FROM read_parquet('data.parquet');

-- 將資料匯出為 Parquet 檔案
COPY (SELECT * FROM data) TO 'output.parquet' (FORMAT PARQUET);

內容解密：

SELECT * FROM read_parquet('data.parquet');：使用 read_parquet 函式讀取 Parquet 檔案中的資料。
COPY (SELECT * FROM data) TO 'output.parquet' (FORMAT PARQUET);：將查詢結果匯出為 Parquet 格式的檔案。

MotherDuck 與雲端整合

MotherDuck 簡介

MotherDuck 是 DuckDB 的雲端服務，提供資料函式庫託管、分享和查詢服務。

-- 連線到 MotherDuck
ATTACH 'md://my_database' AS my_database;

內容解密：

ATTACH 'md://my_database' AS my_database;：將 MotherDuck 資料函式庫附加到目前的 DuckDB 連線中。

DuckDB 技術深度解析與應用實務

DuckDB 是一種高效能、嵌入式資料函式庫系統，能夠快速處理大量資料，適用於多種資料分析場景。本文將探討 DuckDB 的技術特點、SQL 擴充套件功能、以及在實際應用中的最佳實踐。

DuckDB 的核心優勢

DuckDB 是一種設計用於快速處理大量資料的資料函式庫系統，具有以下核心優勢：

高效能：DuckDB 能夠快速處理數百 GB 的資料，無需設定複雜的分散式系統。
嵌入式設計：DuckDB 可以輕易嵌入到各種資料分析應用程式中，無需額外的基礎設施。
多源資料支援：DuckDB 支援多種資料來源，包括 JSON、CSV、Parquet、SQLite 和 Postgres。

DuckDB 的 SQL 擴充套件功能

DuckDB 提供了多種 SQL 擴充套件功能，使得資料分析更加便捷。以下是一些值得注意的功能：

簡化 GROUP BY 子句：使用 GROUP BY ALL 可以簡化 GROUP BY 操作，避免重複列出所有欄位。
欄位別名：DuckDB 允許在 WHERE、GROUP BY 和 HAVING 子句中使用欄位別名，減少查詢的複雜度。
細粒度星號選擇：使用 SELECT * EXCLUDE 和 SELECT * REPLACE 可以精確控制查詢結果中的欄位。

使用 DuckDB 進行資料分析

DuckDB 可以用於多種資料分析場景，包括：

資料準備和引入：DuckDB 可以快速匯入和處理大量資料。
雲端資料管道建置：DuckDB 可以用於建置雲端資料管道，實作資料的自動化處理和分析。
自定義擴充套件：DuckDB 支援自定義擴充套件，可以根據特定需求進行功能擴充套件。

DuckDB 在 Streamlit 中的應用

DuckDB 可以與 Streamlit 結合，建置自定義的資料分析應用程式。以下是一些應用場景：

建置資料分析應用程式：使用 DuckDB 和 Streamlit 可以快速建置資料分析應用程式，提供互動式資料分析功能。
視覺化資料：使用 Plotly 等視覺化工具，可以將 DuckDB 中的資料以圖表形式呈現。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。