為什麼搜「AI 月費省錢」找不到能用的方法論
SERP 上「AI 省錢」這個題目分兩派,兩派都沒打到痛點**:
-
訂閱攻略派(MrMad、SOGI):教共享號、代充、年繳——但沒講「個人 portfolio」——你可能同時付 Claude Pro + ChatGPT Plus + Cursor + Midjourney,這幾個怎麼搭配最划算沒人寫
-
API 工程文派(CSDN、Towards AI):寫得很深(prompt caching、batch API、model routing)但寫給工程師看,台灣中小企業老闆讀不懂
最大內容空缺:沒有「個人 / 接案 / 中小企業 / 大企業」四級分層 + 真實月帳單對照**——這篇補上。
第一步:盤點你 / 公司的 AI 月費 portfolio
90% 的人不知道自己每月花了多少 AI 訂閱——先做個盤點。
個人常見地雷組合
| 訂閱 | 月費 | 你真的有在用嗎? |
|---|---|---|
| ChatGPT Plus | $20 | 用什麼?寫東西?查資料? |
| Claude Pro | $20 | 用什麼?寫程式?查資料? |
| Cursor Pro | $20 | 跟 Claude Code 重複嗎? |
| Claude Code Pro | $20 | 跟 Cursor 重複嗎? |
| Perplexity Pro | $20 | 跟 ChatGPT Search 重複嗎? |
| Midjourney | $10-30 | 用 DALL-E 不行嗎? |
| GitHub Copilot | $10 | 跟 Cursor 重複嗎? |
| Notion AI | $10 | 我有那麼多 Notion? |
典型「重度 AI 使用者」月帳單:$100-200 USD**
公司常見地雷:每個工程師都自己刷信用卡
- 5 個工程師,每個各自訂 Cursor / Claude Code
- 公司沒統一採購,單位成本最高
- 沒人在帳上知道——只有 expense report 月底才看到
Mason 的真實月帳單(假設範例)
最高峰(2026/04):
| 訂閱 | 月費 |
|---|---|
| Claude Code Max 5x | $100 |
| ChatGPT Plus | $20 |
| Cursor Pro | $20 |
| Perplexity Pro | $20 |
| Midjourney Standard | $10 |
| GitHub Copilot Pro | $10 |
| 總計 | $180 |
做了什麼壓到 $100:
- 砍掉 Cursor——Claude Code 已涵蓋 80% 場景
- 砍掉 Midjourney——改用 ChatGPT 內建 DALL-E
- 砍掉 GitHub Copilot——Claude Code 已替代
- 保留 ChatGPT Plus(寫稿、聊天)
- 保留 Perplexity Pro(學術 / 英文研究)
結果:$100(節省 $80 / 月 = 一年 $960)
四級分層策略矩陣
第一層:個人輕度(月費 $0-30)
典型用戶:學生、興趣使用者、輕度知識工作者
主要痛點:$20 / 月對學生是負擔
必做 3 件事:
- 用免費版(ChatGPT 免費、Claude.ai 免費、Gemini 免費)
- 本地 Ollama 補強(隱私敏感或長任務)
- 學會 prompt engineering——同樣需求用更少 token
不該做的 2 件事:
- 不要訂閱——免費版對輕度足夠
- 不要碰共享號 / 代充——違反 ToS + 帳號可能被鎖
第二層:個人重度 + 接案(月費 $30-100)
典型用戶:Mason 這類 SOHO / 全職創作者 / 接案工程師
主要痛點:訂閱組合容易爆(輕鬆 $150+),但每個都有實際用途
必做 3 件事:
- 年繳省 15-20%——Claude Pro 年繳 $200(月省 $3.30)
- 每月做訂閱檢視——3 個月沒打開的訂閱直接砍
- 加 1 個本地 Ollama 跑長任務(批次摘要、爬蟲整理)
不該做的 2 件事:
- 不要同時訂 Cursor + Claude Code——選一個,另一個用免費
- 不要訂太多寫圖工具(Midjourney + DALL-E + Stable Diffusion)——主用一個
第三層:中小企業 / Solo 顧問(月費 $100-1000)
典型用戶:小團隊 SaaS、AI 顧問、5-20 人公司
主要痛點:員工各自訂閱、無法控管;API 帳單突然爆
必做 3 件事:
- 企業統一採購——團隊版比個別訂便宜 30-50%
- API 使用要走 prompt caching + batch(下節詳述)
- 設定 API 用量警報——超過月預算 70% 自動提醒
不該做的 2 件事:
- 不要讓每個工程師自己刷信用卡——失控的開始
- 不要在 production 用最貴的模型做所有事——分流(下節 Model Routing)
第四層:工程團隊 / 大企業(月費 $1000+)
典型用戶:內部 LLM 應用團隊、產品內含 AI 功能、API 月燒 $1k+
主要痛點:單一優化就影響數千美元;模型選擇 / 架構決定長期成本
必做 5 件事(以下詳述):
- Prompt Caching(可省 90% cache hit 部分)
- Batch API(50% off)
- Model Routing(分流)
- 輸出壓縮
- 監控與帳單預警
不該做的 2 件事:
- 不要用 ChatGPT Plus / Claude Pro 跑 production——用 API
- 不要假設「最大模型最便宜」——量大時最大模型總成本爆
五個槓桿:API 工程實戰(企業向)
槓桿 1:Prompt Caching(讀者 API 帳單暴跌的關鍵)
Anthropic Prompt Caching 怎麼運作:
- 第一次請求:正常價(寫入快取)
- 後續 5 分鐘內請求同樣 prefix:只算非 prefix 部分 + cache read(10x 便宜)
- 5 分鐘後快取過期
典型場景:RAG agent 每次都帶同樣的 system prompt + 知識庫——cache hit 後省 90%
範例試算:
- 沒 caching:10,000 tokens × 200 requests / 天 = 2M tokens / 天 = $30/天
- 有 caching(80% cache hit):0.2M 正常 + 1.6M cache read = $6/天
- 省 80%,月省 $720
程式碼範例(Anthropic SDK):
response = client.messages.create(
model="claude-sonnet-4-6",
system=[
{
"type": "text",
"text": "You are a customer service agent...", # 大量靜態內容
"cache_control": {"type": "ephemeral"} # 啟用 caching
}
],
messages=[{"role": "user", "content": user_query}]
)
槓桿 2:Batch API(50% off,適合什麼任務)
OpenAI Batch API + Anthropic Message Batches API 都提供 50% 折扣——條件是24 小時內回應(非即時)。
適合場景:
- 批次摘要(過去 1 個月的客戶反饋全部摘要)
- 批次翻譯(把 1,000 篇文章從英翻中)
- batch enrichment(補完資料庫的描述欄位)
- 離線分析(夜間跑的 cron job)
不適合:
- 即時對話
- 使用者等待中的請求
範例:每月 batch 1M tokens = $0.5(用 batch)vs $1(用即時) — 省 50%。
槓桿 3:Model Routing(GPT-mini → Sonnet → Opus 三層)
核心觀念:90% 的請求可以用便宜的模型解決,10% 才需要最強模型。
典型分流邏輯:
- GPT-5.4 mini / Claude Haiku:簡單 query(分類、摘要、固定格式輸出)
- Claude Sonnet 4.6:中等複雜(寫作、分析、一般推理)
- Claude Opus 4.7:最複雜(架構設計、深度推理、創意)
實作方法:
- 手動規則(根據 prompt 長度、關鍵字判斷)
- AI 路由 agent(讓小模型先判斷該用哪個大模型)
- 試算流量分布:80% Haiku + 15% Sonnet + 5% Opus 的平均成本約Opus 全用的 1/5
槓桿 4:輸出壓縮(JSON schema + 縮寫 key)
長 JSON 響應 = 浪費 token。
壓縮前(每個 record 100 tokens):
{
"customer_name": "John",
"order_date": "2026-05-15",
"total_amount": 1500,
"items_purchased": [...]
}
壓縮後(每個 record 30 tokens):
{"n":"John","d":"260515","t":1500,"i":[...]}
省 70% 輸出 token——大量結構化資料的場景顯著省。
槓桿 5:Extended Thinking vs 換更大模型?
Anthropic 的 Extended Thinking 讓 Claude 更深度思考,但耗 token 倍增(thinking token 也計費)。
該用 Extended Thinking 的情境:
- 複雜推理任務(數學、邏輯、規劃)
- 要解釋 AI 的決策過程
該換大模型而非 Extended Thinking 的情境:
- 創意任務(寫稿、文案)——Opus 直出比 Sonnet + thinking 好
- 多輪對話——thinking tokens 累加會很貴
試算:Sonnet + Extended Thinking 跑 1k 個 request = 比 Opus 直跑略貴 10-20%——所以「Extended Thinking 省錢」**不一定成立。
「免費替代」**真實能力對照
Claude Code + Ollama + Gemma 4 能做什麼
| 任務 | Ollama + Gemma 3 | Claude Opus 4.7 | 差距 |
|---|---|---|---|
| 簡單摘要 | ✅ 夠用 | ✅ 略強 | ~5% |
| 寫文章 | 🟡 中等 | ✅ 強 | 20-30% |
| 寫程式 | 🟡 簡單可,複雜不行 | ✅ 強 | 40-50% |
| 深度推理 | ❌ 弱 | ✅ 最強 | 60%+ |
| 繁中 | 🟡 中等 | ✅ 強 | 15-25% |
結論:簡單摘要、batch 翻譯、輕度寫作 → Ollama 可取代;複雜任務 → 仍需 Claude / GPT。
DeepSeek V4 / Qwen 36 / GLM 4.6 真實成本
三家中國開源模型 2026 年都極便宜:
- DeepSeek V4:約 Claude Sonnet 1/10 價格
- Qwen 36 (Closed):約 Claude Sonnet 1/5 價格
- GLM 4.6:約 Claude Sonnet 1/8 價格
但要小心 2 個問題:
- 資料留存——這些 API 預設可能用對話訓練(看 ToS)
- 政治敏感任務——某些內容會被審查
建議:簡單任務 / 高量 batch 任務用 DeepSeek 沒問題;敏感業務、客戶資料、商業機密 → 走 Anthropic / OpenAI 西方雲端。
本地 LLM 的隱形成本
「Ollama 免費」的真實成本**:
- 電費:RTX 4090 跑大模型 24/7 約 $5-10/月
- 時間:模型回應比 Claude 慢 3-10x——「等的時間 × 你的時薪」**是成本
- 硬體折舊:RTX 4090 24/7 跑 2 年磨損是真實的
ROI 評估:
- 如果你只是「偶爾用 Ollama」——電費省、值得
- 如果你「24/7 跑 batch」——電費 + 折舊 + 你的時間,可能比直接付 API 還貴
監控與帳單預警:讓花費不再失控
個人:Anthropic / OpenAI dashboard 設預算上限
Anthropic Console:
- Console → Settings → Spend limits
- 設「Soft limit $30 → 通知」、「Hard limit $50 → 停 API」
OpenAI Platform:
- Settings → Usage limits
- 設「Monthly hard limit」**
Mason 的建議:個人 hard limit 設 $50-100——超過你會痛,但不至於毀掉專案。
企業:OpenTelemetry + Langfuse / Helicone 監控 stack
production 環境必裝:
- Langfuse(開源 LLM 監控):每個 request 的 token、cost、latency
- Helicone(LLM 觀測):proxy 包裝,自動收集 metrics
- OpenTelemetry(通用):整合到既有監控 stack
該設的警報線:
- 超過月預算 70% → 通知
- 單一 user 超過 daily quota → 限制
- API 失敗率 > 5% → 緊急通知
不該省的省法(職人倫理)
1. 共享 ChatGPT / Claude 帳號:違反 ToS
OpenAI / Anthropic 都明文禁止「單一帳號多人共用」**。
後果:
- 帳號被鎖——資料、對話歷史全沒
- 退費爭議——共享號的「主人」**消失後你拿不回錢
- 隱私問題——你的對話被其他共享人看到
2. 第三方代充:結算風險
「代充 ChatGPT Plus 半價」這類服務**:
- 可能是盜刷信用卡買的帳號——你用了等於收贓
- 代充商可能跑路——下個月帳號就沒了
- 沒有客服
3. 純對岸 API 代理:資料外流 + 突然斷線
OpenRouter / 各種「GPT API 代理」:
- 資料外流——你的 prompt + response 通過第三方 server,可能被儲存 / 訓練
- 突然斷線——某天政策改、被封,你的服務炸
- 沒有 SLA
4. 「免費 Pro 升級教學」**幾乎都是釣魚
Telegram / Discord 上的「教你免費升級 ChatGPT Plus」:
- 要你輸入信用卡資料——直接盜刷
- 要你裝瀏覽器擴充——惡意軟體
- 要你登入 fake 網站——帳號被偷
Mason 的紅線:沒有真的「免費 Pro」——OpenAI / Anthropic 不會給你**。
❓ FAQ
Claude Pro 跟 ChatGPT Plus 一定要兩個都付嗎?
看用途:
只用其中一個(省 $20/月):
- 主要寫程式:Claude Pro 夠(Claude Code 強)
- 主要寫作 / 聊天:ChatGPT Plus 夠(Canvas、DALL-E 整合)
- 主要查資料:Perplexity Pro 比兩家都好
兩個都付(月費 $40):
- 全職 AI 內容創作者(需要兩家寫作風格切換)
- 工程師 + 內容創作者(Claude 寫程式 + ChatGPT 寫文)
Mason 的建議:先用一個 3 個月——感受到「這個解不了的問題」時,再加另一個**。
App Store 年繳 vs 官網月繳哪個划算?
直接答:官網年繳最便宜。
比價(以 ChatGPT Plus 為例):
- 官網月繳:$20 × 12 = $240/年
- App Store 年繳:約 $239(差不多,Apple 收 30%)
- 官網年繳:約 $200(省 17%)
Apple Pay 為什麼貴:Apple 收 30% 抽成——廠商必須漲價才能撐住毛利。
Mason 的建議:從官網訂閱(用信用卡),省下的錢一年 $40 = 兩本書。
API 跟 ChatGPT Plus 哪個比較省?
看用量:
< 10 萬 tokens / 月 → ChatGPT Plus(月費 $20 包到飽) 10 萬 - 30 萬 tokens / 月 → 看用法(Plus 配額會碰到上限) > 30 萬 tokens / 月 → API 比 Plus 便宜(按用計費)
試算:30 萬 tokens 跑 GPT-4o ≈ $9——比 Plus $20 便宜。
但 Plus 包含:Canvas、DALL-E、Voice、Custom GPTs——API 沒有這些。
prompt caching 真的能省 90% 嗎?
理論上對 cache hit 部分省 90%——但整體帳單看任務型態。
最划算的場景:
- RAG agent(每次帶同樣知識庫)——cache hit 率高
- 客服 chatbot(同樣 system prompt 不停用)——cache 經常複用
沒效益的場景:
- 單次 query(沒有重複的 prefix)
- 每次 prompt 都不同(沒法 cache)
真實案例:RAG agent 月帳單從 $220 降到 $78(Mason 給客戶的範例)——省 65%(不到理論的 90%,但夠好)。
中小企業導入 AI 月費抓多少合理?
經驗法則:營收的 1-5% 是合理 AI 預算。
- 年營收 NT$ 500 萬(小型新創) → 月 AI 預算 NT$ 4,000-20,000(USD 130-650)
- 年營收 NT$ 5,000 萬(中型公司) → 月 AI 預算 NT$ 40,000-200,000(USD 1,300-6,500)
- 年營收 NT$ 5 億(中大型) → 月 AI 預算 NT$ 400,000-2M(USD 13,000-65,000)
Mason 的觀察:台灣中小企業實際導入 AI 的預算通常遠低於這個建議——這是「機會成本」——當競爭對手用 AI 提升 30% 效率時,省 AI 預算等於慢性自殺。
⚠️ 警語
- 本文試算數字是 2026/05 各模型公開定價估算——Anthropic / OpenAI 定價可能變動
- 「省錢」永遠要平衡「效率」——為了省 $30 而花 20 小時設定本地 LLM,可能不划算**
- Production 環境——監控、預算上限、警報是必要的,沒設就是定時炸彈
權威來源: