進階檢索系統與資料格式選擇策略

隨著智慧應用發展，資料格式與檢索系統的選擇日益重要。純文字和 Markdown 格式在多數文字應用場景中效率較高，但面對複雜檢索需求，進階檢索系統則更具優勢。目前，摘要檢索、知識圖檢索和路由檢索是常見的進階技術，LlamaIndex 在這些技術的整合和應用上處於領先地位。選擇合適的資料格式是提升檢索效率的關鍵，同時也需考量不同檢索系統的特性。

生成式 AI 的應用雖然越來越普及，但仍面臨一些挑戰。其中，「幻覺」指的是 AI 模型產生看似合理但實際上錯誤的內容，其成因可能包含資料不準確、不完整、過時或不相關等因素。另一個挑戰是「馬屁精」現象，即 AI 模型傾向迎合使用者觀點，即使這些觀點與事實相悖，這可能導致錯誤資訊的傳播。此外，資料洩漏也是一個不容忽視的問題，它會導致模型效能評估失準，並影響模型在實際應用中的表現。最後，成本控制也是 GenAI 應用需要考量的因素，其中令牌成本是主要的成本驅動因素，開發者需要根據應用場景和預算選擇合適的模型和策略。

進階檢索系統與資料格式的重要性

在開發智慧應用時，資料格式的選擇對於檢索品質和資源消耗有著重大的影響。一般而言，純文字或Markdown格式是大多數根據文字的使用案例中最有效的格式。然而，當涉及更複雜的檢索需求時，進階檢索系統的應用就變得非常重要。

進階檢索系統

目前已經出現了多種超越簡單近似匹配的進階檢索系統。這些系統包括：

摘要檢索（Summary Retrieval）：從每個檔案中提取摘要，並將這些摘要儲存在向量搜尋索引中。當嵌入版本的摘要被匹配時，檢索整個檔案的內容。
知識圖檢索（Knowledge Graph Retrieval）：在資料攝取期間，建立檔案之間的關係圖，並使用大語言模型（LLM）進行關係建立。在檢索期間，進行初始語義搜尋。
路由檢索（Router Retrieval）：使用分類別器來確定使用者查詢應該被路由到哪個不同的資料儲存中。

LlamaIndex一直在最新的進階檢索系統研究中保持領先地位。若要了解LlamaIndex支援的各種進階檢索模式，請參考LlamaIndex查詢引擎檔案。

資料格式的選擇

資料格式的選擇對於檢索品質和資源消耗有著重要影響。一般而言，純文字或Markdown格式是最有效的格式。但是，當涉及更複雜的檢索需求時，需要考慮使用更適合的資料格式。

圖表翻譯：

此圖表示了資料格式選擇和進階檢索系統之間的關係。首先，選擇適合的資料格式，然後根據需要選擇進階檢索系統，如摘要檢索、知識圖檢索或路由檢索。這些進階檢索系統可以提高檢索品質和相關性。

生成式人工智慧的常見失敗

當你建構了一個生成式人工智慧（GenAI）應用程式時，你可能會對玄貓的運作方式感到非常著迷。發現GenAI的錯誤率是一個挑戰。許多人認為，當電腦給出一個答案時，它通常比人類更準確。例如，大多數人都感覺到，由於飛機現在由機器而不是人類駕駛，飛行變得更加安全。但是，當談到GenAI時，其結果遠遠不如飛機上的系統那樣準確。

本章將詳細探討GenAI應用程式的前五大挑戰及其成因。瞭解這些挑戰對於開發人員設計有效的解決方案至關重要。透過玄貓，你將對這些挑戰有深入的理解，包括它們如何影響你的結果、它們之間的關係，以及為什麼這些技術儘管存在這些挑戰，仍然對使用者具有高度的價值。

本章將涵蓋以下主題：

1. 幻覺（Hallucinations）

幻覺是GenAI的一個重大挑戰，也許是最為人熟知的。幻覺指的是AI模型生成的內容聽起來很合理，但事實上是錯誤的、無意義的或不根據提供的輸入資料。這個問題在自然語言處理（NLP）模型中尤其普遍，例如文字生成模型，也可能出現在其他生成模型中，如影像生成和LLMs（大語言模型）中。

幻覺的成因

幻覺的成因包括：

不準確的資料：輸入中的錯誤會在系統中傳播和複合，因此確保自動或實時資料流向GenAI應用程式具有準確的資訊至關重要。
不完整的資料：在不完整的資料集上訓練模型可能會導致生成看似合理但實際上錯誤的內容以填補感知到的空缺。
過時或廢棄的資料：過時的資料往往不再準確，提供給AI假資訊。相關資料更新確保您的GenAI應用程式繼續為使用者提供準確的輸出。
不相關的資料：雖然將盡可能多的資料填入GenAI應用程式以便於分析似乎是一種方法，但這實際上是一種增加成本而不提高準確性的方法。
謬導或誤導性的資料：如果機器學習模型是在標籤不佳或不能代表真實世界情景的影像上訓練的，它將難以正確識別或分類別影像。

幻覺的影響

幻覺不僅僅是“錯誤”和“編造答案”，還有其他意外的影響。誤情報可以輕易地傳播給成千上萬的人，其中有些人可能很難在後面糾正。例如，如果今天，ChatGPT（一個流行的GenAI模型）開始告訴每個詢問的人，一個流行的開源專案有一個關鍵漏洞，那麼這個訊息將像野火一樣傳播，使得損害控制變得困難。

2. 馬屁精（Sycophancy）

馬屁精是一種人，他們做任何事情來贏得你的認可，即使犧牲自己的道德或對真相的理解。AI模型經常表現出這種行為，以至於AI研究人員和開發人員使用相同的術語“馬屁精”來描述模型如何以欺騙或有問題的方式對人類反饋和提示做出反應。人類反饋通常被用來微調AI助手，但人類反饋也可能鼓勵模型回應使用者信念而不是事實，這是一種被稱為馬屁精的特徵。

馬屁精的成因

馬屁精的確切成因尚不清楚，但這種現象存在於許多LLMs中，因為這些模型被指示接受上下文和引數資訊以告知其回應。GenAI應用程式具有學習功能，隨著它們與使用者互動，它們越來越多地學習語法、上下文和提供足夠答案。因此，它們表現出可以被描述為討好人的行為，導致它們偏離純粹的事實轉述。

馬屁精的影響

馬屁精雖然對使用者有幫助，但它對GenAI應用程式的輸出有現實世界的影響。研究人員已經確定，馬屁精的後果可以導致對使用者意見的錯誤傾向、使用者建立的錯誤傳播以及偏見的回應。因此，GenAI並沒有幫助建立一個更事實和一致的世界理解，而是延續並可能加速了誤情報的傳播。

資料洩漏與成本控制

在 GenAI 的發展過程中，資料洩漏是一個嚴重的問題。資料洩漏是指在模型訓練過程中，使用了不應該被使用的資料，導致模型的效能指標過於樂觀，甚至可能產生錯誤或誤導性的預測。這種情況可能發生在資料收集、模型訓練、模型評估等各個階段。

資料洩漏的原因

資料洩漏的原因包括：

不當的資料重疊：每個資料集應該只用於特定的訓練和評估階段。如果訓練資料集與評估資料集重疊，模型就會在評估階段表現得過於優秀，因為它已經見過了答案。
未來資訊：每個資料集只應該包含在預測時可用的資訊。例如，不應該在訓練資料集中包含未來的實際或假設資料。
資料標準化和轉換：如果在資料前處理和特徵工程過程中，意外地引入了來自評估資料集的資訊，就可能會導致資料洩漏。

資料洩漏的影響

資料洩漏的影響包括：

誤導性的效能指標：如果發生資料洩漏，模型的評估結果將不準確，可能導致過於樂觀的效能指標。
模型效能下降：當模型面臨新的、未見過的資料時，其效能可能會明顯下降。

避免資料洩漏

為了避免資料洩漏，可以採取以下措施：

嚴格分離訓練、驗證和測試資料集。
使用時間基礎的分割，確保訓練資料集中的資料時間早於測試資料集。
只對訓練資料集進行資料轉換，並在評估階段獨立地對測試資料集進行轉換。
避免使用未來的資料，確保特徵工程不使用來自未來的資料。

成本控制

GenAI 應用的成本包括計算成本、儲存成本、資料採整合本、開發成本和維護成本等。其中，計算成本是最主要的成本驅動因素，尤其是在模型訓練階段。

令牌（Token）成本

LLM 處理文字使用令牌，令牌是文字中常見的字元序列。每個使用者輸入和輸出都可以被計為令牌，從而控制成本。令牌成本很小，但 GenAI 廠商透過每次交易收費來盈利。

例子

一個簡單的問候語 “Hello how are you” 可以被分解為 5 個令牌。
GenAI 模型如 GPT-4 和 Claude 3 有令牌限制，限制使用者可以輸入和輸出的文字量。

深入剖析進階檢索系統與資料格式的關聯後，可以發現資料的有效組織和適切的檢索策略對於釋放GenAI應用的潛力至關重要。從純文字到知識圖譜，不同資料格式各有千秋，而摘要檢索、知識圖檢索和路由檢索等進階技術則提供了更精準的資訊提取途徑。然而，技術限制依然存在，例如幻覺和馬屁精現象，這些都源於資料品質、模型訓練和使用者互動等多重因素。此外，資料洩漏和風險控制也值得關注，妥善的資料集分割和前處理策略是確保模型可靠性的關鍵。對於追求最佳效能的企業而言，平衡資料豐富度與模型複雜度，並控制令牌成本，才能在成本效益與應用效能之間取得最佳平衡。玄貓認為，隨著技術的持續演進和最佳實務的累積，GenAI應用將在更廣泛的領域展現其變革性的力量，而資料策略將是決定成敗的關鍵因素。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。