AI 輔助資料分析：把分析週期從「天」壓縮到「分鐘」—

自然語言直接生成 SQL、notebook、圖表，把「寫查詢、跑數據、做圖、寫摘要」四步合成一次呼叫——壓縮的是「等待與切換工具」的時間，不是「思考與判斷」的時間。而 AI 最危險的失敗模式，是給你一個語法正確、可以執行、看起來完全正常，但數字是錯的結果，且沒有任何錯誤訊息。

核心方法

NL→SQL 可靠性不是模型問題，是上下文工程問題。2026 年業界共識已從「哪個模型 text-to-SQL 最強」轉向「怎麼給模型足夠的 schema/業務語境」。
Semantic layer 是最有效的解法：dbt 2026 benchmark 顯示，純 text-to-SQL 準確率從 2023 的 32.7% 提升到 2026 的 64.5%（模型進步），但在 semantic layer 涵蓋範圍內，新模型都能做到 100% 正確（dbt）。架構差異：不讓 LLM 直接寫 raw SQL，而是先定義 metrics/dimensions/entities 的結構化本體，LLM 的工作縮小成「把問題拆成正確的 metric + dimension 組合」，而非自己拼 join。
讓 AI 做 EDA 有明確能力邊界：ChatGPT/Claude 上傳 CSV、沙箱寫 Python、讀回自然語言解釋很強，但不會主動做資料剖析（profiling）——偏態、缺值模式、共線性除非你明確問，否則對你隱形。
讓 AI 當統計魔鬼代言人目前仍是弱點而非強項：現有 LLM「缺乏懷疑、不擅長判斷什麼時候該懷疑」；沒有主流商用工具內建「主動挑戰假設、系統性查 p-hacking/倖存者偏誤/Simpson’s paradox」的功能——這仍是 prompt engineering（你自己要求 AI 扮演懷疑者）與學術研究階段。

不要問「這個模型 text-to-SQL 準不准」，要問「我的語意層/schema 文件夠不夠完整」。
把「AI 生成的 SQL/圖表」當一等公民做抽樣審查，比照 Evals 起步規模（20–50 個真實案例）建驗證集，而非每次肉眼檢查。
對會拿去做決策的高風險數字，要求雙重驗證：換角度 prompt 重問、或退回原始資料表用另一工具交叉核對——因為生成端和偵測端共享同一套盲點，自己審自己不可靠。
明確要求 AI 做 profiling，不要假設它會主動做。
警覺 prompt 裡透露的預期結論：若已暗示「我想證明 X」，要求 AI 同時輸出反面論證，降低 sycophancy 導致的單向確認——呼應決策與紅隊思考。

對話優先型：ChatGPT Advanced Data Analysis、Claude（Claude 勝在解釋品質，適合想「打開黑盒子看邏輯」的分析師）。
Notebook/工作區型：Hex、Deepnote（給資料科學家，需 SQL/Python 底子）。
試算表優先/隱藏 SQL 型：Julius AI（給非技術商業使用者，看不到底層查詢）。
倉儲原生型：Snowflake Cortex Analyst、Databricks Genie、BigQuery Gemini、Power BI Copilot。

NL→SQL 幻覺欄位與靜默錯誤：「text-to-SQL 會很開心地給你一個錯的數字」——查詢語法正確、可執行、看起來一模一樣，但「這個 join 悄悄把訂閱數算了兩次」不會觸發任何 exception。schema 相關錯誤造成 >80% 執行失敗；BIRD benchmark 中語意錯誤（語法對意思錯）佔 36.1%，就連專門抓錯的 SOTA 模型也只有 75.16% 偵測準確率（四分之一漏抓）。
看似對的錯圖表：ChartAttack 顯示 LLM 能自動生成誤導圖表讓人類判讀準確率降 20%；而 MLLM 偵測誤導圖表準確率掉到接近隨機——「AI 幫你做圖」與「AI 幫你檢查圖有沒有騙人」是兩個獨立且都不成熟的能力，別假設同一個 AI 生成又驗證會抓到自己的錯。
Sycophancy 附和偏見：生醫研究已有具體證據（algorithmic sycophancy 扭曲輸出）；資料分析場景是合理推論——若 prompt 透露期望結論，AI 傾向選支持該結論的切分/圖表/檢定。

可佐證：dbt 語意層 benchmark（官方）；NL→SQL 靜默錯誤（多來源 + BIRD 學術數據）；誤導圖表生成/偵測皆不可靠（ChartAttack、Misviz 多篇學術）。
不可直接比較：Snowflake「90%+」與 Databricks「32→90%+」不是同一把尺（第三方指出）；顧問稱「benchmark 90% 真實只 60–70%」是單一觀察。
中/二手：Deutsche Bank、Natura 案例來自聚合報導，未見一手；McKinsey「78% 增強而非取代」為二手引述。「分鐘級」壓縮的是執行，不是「該不該問、怎麼解讀、能不能做決策」的判斷——分析越快，複核被跳過的誘因越大。

資料分析的品質量化見 Evals；讓 AI 質疑資料的紅隊手法見決策與紅隊思考；接資料源的工具管道見 MCP 整合；作為 AI-Native 產品的一種形態。