自然語言直接生成 SQL、notebook、圖表,把「寫查詢、跑數據、做圖、寫摘要」四步合成一次呼叫——壓縮的是「等待與切換工具」的時間,不是「思考與判斷」的時間。 而 AI 最危險的失敗模式,是給你一個語法正確、可以執行、看起來完全正常,但數字是錯的結果,且沒有任何錯誤訊息。
核心方法
- NL→SQL 可靠性不是模型問題,是上下文工程問題。2026 年業界共識已從「哪個模型 text-to-SQL 最強」轉向「怎麼給模型足夠的 schema/業務語境」。
- Semantic layer 是最有效的解法:dbt 2026 benchmark 顯示,純 text-to-SQL 準確率從 2023 的 32.7% 提升到 2026 的 64.5%(模型進步),但在 semantic layer 涵蓋範圍內,新模型都能做到 100% 正確(dbt)。架構差異:不讓 LLM 直接寫 raw SQL,而是先定義 metrics/dimensions/entities 的結構化本體,LLM 的工作縮小成「把問題拆成正確的 metric + dimension 組合」,而非自己拼 join。
- 讓 AI 做 EDA 有明確能力邊界:ChatGPT/Claude 上傳 CSV、沙箱寫 Python、讀回自然語言解釋很強,但不會主動做資料剖析(profiling)——偏態、缺值模式、共線性除非你明確問,否則對你隱形。
- 讓 AI 當統計魔鬼代言人目前仍是弱點而非強項:現有 LLM「缺乏懷疑、不擅長判斷什麼時候該懷疑」;沒有主流商用工具內建「主動挑戰假設、系統性查 p-hacking/倖存者偏誤/Simpson’s paradox」的功能——這仍是 prompt engineering(你自己要求 AI 扮演懷疑者)與學術研究階段。
Best practices(可操作檢查清單)
- 不要問「這個模型 text-to-SQL 準不准」,要問「我的語意層/schema 文件夠不夠完整」。
- 把「AI 生成的 SQL/圖表」當一等公民做抽樣審查,比照 Evals 起步規模(20–50 個真實案例)建驗證集,而非每次肉眼檢查。
- 對會拿去做決策的高風險數字,要求雙重驗證:換角度 prompt 重問、或退回原始資料表用另一工具交叉核對——因為生成端和偵測端共享同一套盲點,自己審自己不可靠。
- 明確要求 AI 做 profiling,不要假設它會主動做。
- 警覺 prompt 裡透露的預期結論:若已暗示「我想證明 X」,要求 AI 同時輸出反面論證,降低 sycophancy 導致的單向確認——呼應 決策與紅隊思考。
工具版圖
- 對話優先型:ChatGPT Advanced Data Analysis、Claude(Claude 勝在解釋品質,適合想「打開黑盒子看邏輯」的分析師)。
- Notebook/工作區型:Hex、Deepnote(給資料科學家,需 SQL/Python 底子)。
- 試算表優先/隱藏 SQL 型:Julius AI(給非技術商業使用者,看不到底層查詢)。
- 倉儲原生型:Snowflake Cortex Analyst、Databricks Genie、BigQuery Gemini、Power BI Copilot。
陷阱(證據強)
- NL→SQL 幻覺欄位與靜默錯誤:「text-to-SQL 會很開心地給你一個錯的數字」——查詢語法正確、可執行、看起來一模一樣,但「這個 join 悄悄把訂閱數算了兩次」不會觸發任何 exception。schema 相關錯誤造成 >80% 執行失敗;BIRD benchmark 中語意錯誤(語法對意思錯)佔 36.1%,就連專門抓錯的 SOTA 模型也只有 75.16% 偵測準確率(四分之一漏抓)。
- 看似對的錯圖表:ChartAttack 顯示 LLM 能自動生成誤導圖表讓人類判讀準確率降 20%;而 MLLM 偵測誤導圖表準確率掉到接近隨機——「AI 幫你做圖」與「AI 幫你檢查圖有沒有騙人」是兩個獨立且都不成熟的能力,別假設同一個 AI 生成又驗證會抓到自己的錯。
- Sycophancy 附和偏見:生醫研究已有具體證據(algorithmic sycophancy 扭曲輸出);資料分析場景是合理推論——若 prompt 透露期望結論,AI 傾向選支持該結論的切分/圖表/檢定。
主張 vs 可佐證
- 可佐證:dbt 語意層 benchmark(官方);NL→SQL 靜默錯誤(多來源 + BIRD 學術數據);誤導圖表生成/偵測皆不可靠(ChartAttack、Misviz 多篇學術)。
- 不可直接比較:Snowflake「90%+」與 Databricks「32→90%+」不是同一把尺(第三方指出);顧問稱「benchmark 90% 真實只 60–70%」是單一觀察。
- 中/二手:Deutsche Bank、Natura 案例來自聚合報導,未見一手;McKinsey「78% 增強而非取代」為二手引述。「分鐘級」壓縮的是執行,不是「該不該問、怎麼解讀、能不能做決策」的判斷——分析越快,複核被跳過的誘因越大。
資料分析的品質量化見 Evals;讓 AI 質疑資料的紅隊手法見 決策與紅隊思考;接資料源的工具管道見 MCP 整合;作為 AI-Native 產品 的一種形態。