評估 AI 提示工程的效能,除了考量成本、延遲和呼叫次數外,安全性、合理性和對抗性攻擊的防禦能力也至關重要。透過分析提示的分類別、推理、幻覺、安全性以及與參考文字的相似度,可以更全面地評估其在實際應用中的表現。產品命名策略可以作為一個實際案例,展示如何利用 AI 工具進行評估和創新。考量產品名稱的描述性、吸引力和市場吸引力等因素,可以更有效地篩選和最佳化命名方案。
程式化評估的多元動機
在評估提示的過程中,存在多種動機和考量。以下是一些關鍵因素:
成本考量
- 成本: 使用大量token或僅與高昂模型合作的提示可能不適合生產環境。
- 延遲: token數量越多或模型越大,完成任務所需的時間就越長,這可能會影響使用者經驗。
效能與安全
- 呼叫次數: 許多AI系統需要多次迴圈呼叫來完成任務,這可能會嚴重拖慢過程。
- 效能: 實施外部反饋系統,例如物理引擎或其他預測實際結果的模型。
- 分類別: 確定提示正確標記給定文字的頻率,使用另一個AI模型或根據規則的標記。
- 推理: 確定AI在哪些例項中未能應用邏輯推理或出現數學錯誤,與參考案例進行比較。
安全性與合理性
- 幻覺: 使用玄貓的上下文測量幻覺的頻率。
- 安全性: 標記系統可能傳回不安全或不理想結果的場景,使用安全過濾器或檢測系統。
- 拒絕: 確定系統錯誤拒絕合理使用者請求的頻率,使用玄貓的標準。
攻擊與相似度
- 對抗性攻擊: 評估提示對已知提示注入攻擊的抵禦能力。
- 相似度: 使用 BLEU、ROGUE 或向量距離等指標,衡量生成文字與參考文字的相似度。
提示工程評估維度關聯圖
圖表描述 (Alt Text): 此圖表展示了評估AI提示工程時的多元維度及其相互影響關係,從成本考量開始,延伸至延遲、使用者體驗、系統效能、安全性、合理性,最終影響綜合評估結果。
評估品質是提升AI系統智慧的關鍵步驟。當您開始評分哪些例子是好的時,您就可以更容易地更新用於提示的例子,以此來不斷使您的系統變得更聰明。這些反饋資料也可以用於微調的例子,一旦您可以提供幾千個例子,就會開始超越提示工程,如圖1-13所示。
圖1-13. 一個提示值多少個資料點? 從簡單的讚否評價開始,您可以實施3分、5分或10分的評分系統,以獲得對提示品質的更細緻的反饋。您也可以透過比較回應的相對效能來確定聚合的相對效能,而不是一次檢視一個回應。從這裡,您可以使用Elo評分系統構建一個公平的跨模型比較,這在棋類別遊戲中很流行。
在影像生成中,評估通常採用排列提示的形式,您輸入多個方向或格式,並為每個組合生成一張影像。然後,可以掃描影像或稍後將其排列在網格中,以展示提示中不同元素對最終影像的影響。
輸入: {股票照片,油畫,插圖} 的商務會議 {四,八} 人正在白色MacBook上觀看,放在玻璃桌子上
在Midjourney中,這將被編譯成六個不同的提示,每個提示對應三種格式(股票照片,油畫,插圖)和兩個人數(四,八)之一。
輸入:
-
商務會議四人觀看白色MacBook的股票照片,放在玻璃桌子上
-
商務會議八人觀看白色MacBook的股票照片,放在玻璃桌子上
-
商務會議四人觀看白色MacBook的油畫,放在玻璃桌子上
-
商務會議八人觀看白色MacBook的油畫,放在玻璃桌子上
-
商務會議四人觀看白色MacBook的插圖,放在玻璃桌子上
-
商務會議八人觀看白色MacBook的插圖,放在玻璃桌子上
每個提示生成四張影像,如常見的輸出會稍微難以檢視。我們已經選擇了每個提示的一張影像進行放大,然後將它們放在一起,如圖1-14所示。您會注意到,模型並不總是能夠正確地得到人數(生成式AI模型在數學方面令人驚訝地差),但它已經正確地推斷出了總體意圖。
圖1-14顯示了輸出的結果。
當模型具有API,如Stable Diffusion時,您可以更容易地操作照片並以網格格式顯示它們,以便於掃描。您也可以操作影像的隨機種子以固定樣式,以達到最大程度的可重現性。使用影像分類別器,也可能可以根據其安全內容或是否包含與成功或失敗相關的某些元素來程式設計評級影像。
- 分割勞動 當您構建提示時,您開始接近一個點,即您在單個AI呼叫中請求很多東西。當提示變得更長且更複雜時,您可能會發現回應變得不那麼確定,幻覺或異常增加。即使您成功地到達了一個可靠的提示,您的任務很可能只是您需要完成工作的一系列相關任務之一。探索有多少其他任務可以由AI完成是很自然的。
工程的一個核心原則是使用任務分解將問題分解為其組成部分,以便您可以更容易地解決每個個別問題,然後重新聚合結果。將AI工作分解為多個連結在一起的呼叫,可以幫助您完成更複雜的任務,並提供更多可視性,以檢視鏈中的哪個部分失敗了。
有很多因素影響產品命名,一個重要任務是天真地外包給AI,沒有任何可見性,以瞭解它如何權衡這些因素的重要性(如果有)。我們當前的系統運作方式是,我們得到了一份名稱列表,但所有名稱都以相同的重要性顯示,沒有任何進一步的上下文幫助我們做出決定。幸運的是,AI工具具有自我評估能力;如果我們在任務中新增第二步,我們可以自動檢查不理想的輸出。
輸入:
為一雙可以適合任何腳大小的鞋子評分以下產品名稱列表。評分應為10分, inline顯示在產品名稱旁邊:
UniFit SoleStrides FlexiSize All-Fit Shoes
產品命名評估與創新
在評估一系列產品名稱時,尤其是針對一款可以適應任何腳大小的鞋子,我們需要考慮多個因素,包括描述性、吸引力以及整體的市場吸引力。以下是對每個產品名稱的評估和建議:
1. UniFit SoleStrides
評分:7/10 評語:雖然「UniFit」這個名字傳達了統一和適應的概念,但可能不夠直接地告訴消費者這雙鞋可以適應任何腳的大小。為了提高描述性,可能需要進行一些調整或新增相關的標語。
2. FlexiSize All-Fit Shoes
評分:8/10 評語:這個名字結合了「FlexiSize」和「All-Fit」,很好地傳達了鞋子的可適應性。然而,為了使其更具吸引力和記憶性,可能需要簡化或修改為更口語化的版本。
3. OmniFit FootFlex
評分:7/10 評語:「OmniFit」明確地傳達了適應所有尺寸的概念,但「FootFlex」可能需要更多的強調來突出其柔韌性和舒適度。
4. AnyStep AdaptiWalkers
評分:7/10 評語:這個名字強調了適應任何腳步的能力,但可能需要更多的創意來使其更具市場競爭力和吸引力。
5. FlexiRange UniversalSteps
評分:7.5/10 評語:這個名字結合了「FlexiRange」和「UniversalSteps」,很好地傳達了其適應性和通用性。然而,為了提高記憶性和口語化,可能需要進行一些調整。
6. PerfectGlide MultiFit Shoes
評分:9/10 評語:這個名字不僅傳達了適應多種尺寸的能力,還強調了「PerfectGlide」的舒適感和滑順性。這使得它成為一個非常有競爭力的選擇。
在產品命名的過程中,實際上我們可以採用更為系統化和創新的方法。例如,透過使用AI工具來生成和評估更多的名稱選擇,或者結合使用者反饋和市場調查來最佳化最終的產品名稱。這樣不僅能夠提高命名的效率,也能夠使最終的選擇更好地符合市場需求和消費者偏好。
產品命名評估維度圖
圖表描述 (Alt Text): 此圖表展示了評估產品名稱時的三個核心維度:描述性、吸引力和市場吸引力,並列舉了對應的候選名稱範例。
玄貓評測:OneFit UltraStride Shoes
在評估各種鞋款時,我們發現「OneFit UltraStride Shoes」是一款結合了舒適、科技和時尚的革命性產品。這款鞋子使用了最先進的技術和精湛的工藝,確保每位穿著者都能享受到真正的個人化和愉悅的行走或跑步體驗。
設計與材料
OneFit UltraStride Shoes擁有時尚且現代的設計,吸引了時尚達人和運動愛好者的目光。它們具有流線型的外觀,使用高階材料製成,以確保耐用性和美觀。鞋子的上部由透氣網眼和柔韌的合成材料組合而成,提供優異的通風性和輕盈的感受。
顏色與定製
OneFit UltraStride Shoes提供多種豐富的顏色和時尚的圖案,迎合了不同的人們的個人偏好。你可以從經典的單色選擇中選擇,以呈現永恆的風格,或者選擇大膽而豐富的色彩,以表達自己的獨特風格。鞋子的外觀可以根據個人的喜好進行定製,讓每個人都能夠表達自己的獨特風格,並享受到OneFit技術帶來的益處。
OneFit UltraStride Shoes 評估活動圖
圖表描述 (Alt Text): 此活動圖展示了評估「OneFit UltraStride Shoes」的完整流程,從考量設計、材料、顏色等基本因素,到分析其技術與工藝,再到評估舒適度與時尚感,最終得出綜合結論。
從使用者經驗的角度來看,程式化評估提示的多元動機,核心在於如何在成本、效能、安全性和合理性之間取得最佳平衡。分析不同評估方法,例如根據token數量、呼叫次數、安全性過濾、對抗性攻擊防禦等,可以發現,沒有一種單一方法能滿足所有需求。技術限制在於,如何有效地量化評估指標,例如「幻覺」或「合理性」,並建立可程式化的標準。
目前,從概念到實踐的關鍵考量在於,如何將這些評估方法整合到實際的AI系統開發流程中。實務佈署中的常見陷阱是,過於關注單一指標而忽略其他重要因素,例如過度追求效能而犧牲安全性。對於不同規模的專案,客製化的評估策略至關重要。小型專案可以優先考慮成本和效能,而大型專案則更需重視安全性和合理性。
未來3-5年,隨著AI技術的快速發展,預計評估方法也將不斷演進。潛在的技術突破點在於,發展更精確、更自動化的評估指標和工具,例如根據深度學習的模型評估系統。這將有助於降低評估成本,提高評估效率,並推動AI系統的整體效能提升。隨著生態系統日趨完善,我們預見評估的自動化程度將大幅提升,進而促進更可靠、更安全的AI應用落地。玄貓認為,建立一套全面、客觀、可程式化的評估體系,是AI技術走向成熟的關鍵一步。