【實測紀錄】我的 AI 小秘書養成記：為什麼 2026 年大家都在「養龍蝦」？

我一月底就想養了，直到我認識了Claude code跟文皓大神我才成功。

一、崛起：開源界的搖滾颶風 OpenClaw#

如果你還在用網頁版的 ChatGPT 聊天，那你可能落後了。近期在科技圈掀起颶風的 OpenClaw ，絕對是 2026 年初最現象級的專案。它的誕生就像一場「開源界的搖滾巡演」，充滿了技術突破、商標爭議與社群的瘋狂共鳴。

🏗️ 從實驗室走到你的電腦：Jarvis 的既視感#

OpenClaw 的前身其實是軟體工程師 Peter Steinberger 在 2025 年底的一個小實驗，最初叫作「WhatsApp Relay」，他只是想透過 WhatsApp 遠端控制家裡的電腦。

發跡與爆紅 ：2026 年 1 月，一段影片在 X 上瘋傳——一個人在外面用手機 Telegram 命令家裡的 AI 寫完程式、跑完測試並直接發信給客戶。這種電影《鋼鐵人》中 Jarvis 的既視感，讓這個專案在 GitHub 上短短兩個月就突破 10 萬顆星（截至 1 月底甚至超過 18 萬星）。
技術核心 ：它與傳統聊天機器人最大的不同在於，它是一個**「自託管的 AI 代理 (Self-hosted AI Agent)」**。它住在你自己的硬體（如 Mac Mini 或雲端 VPS）裡，具備長期記憶，能直接操作瀏覽器、檔案系統，是你真正的數位管家。

🏷️ 改名三部曲：龍蝦的「脫殼」與蛻變#

有趣的是，OpenClaw 在短短一週內經歷了兩次改名，這在開源界堪稱傳奇：

Clawdbot (2025/11) ：最初向 Anthropic 的 Claude 致敬，取了諧音加上 Claw（爪子）。
Moltbot (2026/01/27) ：因為商標侵權要求，開發者靈機一動改名為 Molt ，意為「脫殼」，象徵龍蝦必須拋棄舊殼才能長大。
OpenClaw (2026/01/29) ：僅僅兩天後正式定名。開發者幽默地宣佈：「龍蝦完成了最終蛻變 (The lobster has molted into its final form)」。這個名字更強調了它開放 (Open) 的開源本色。

二、實測：養龍蝦的環境準備#

既然要養龍蝦，給它的「魚缸」不能太差。關於架設環境，我直接參考了文皓大神的教學。

目前我把龍蝦養在 新加坡 Oracle Cloud (OCI) 的 ARM 4核心/24GB RAM 主機上。為了搶到這台神機，我還特地把帳戶升級成 Pay As You Go 。雖然是免費資源，但效能跑起 AI Agent 綽綽有餘，重點是它 24 小時不間斷運作，這才叫真正的自動化。

三、安裝：懶人的極致——就讓 Claude Code 幫你吧！#

很多人卡在 Linux 指令、Docker 權限或是 API 串接。我的心得只有一個：別硬幹，交給專業的來。

學會安裝與使用 Claude Code 是我這陣子最大的收穫。

為什麼選它？ 當我遇到權限地獄或 Docker 容器連不上本機資料夾時，Claude Code 展現了驚人的解決問題能力。它能直接進入主機、修改 config、重設權限。
心得：與其對著終端機發呆，不如把預算花在最強的 Claude 大腦上，讓它幫你把基礎建設蓋好。這錢花得非常值得！

四、大腦：決定小秘書是「Jarvis」還是「小笨蛋」的關鍵#

魚缸（主機）架好了，水（環境）也灌滿了，接下來最核心的問題就是：你要給這隻龍蝦什麼樣的「大腦」？

在 OpenClaw 的世界裡，硬體只是軀殼，真正的智商來自於你串接的 LLM (大語言模型) API 。但在進入正題前，我必須先給大家一個誠懇的忠告：千萬不要迷信模型自己給出的數據！

我在實測過程中發現，這些模型在報價時常有「幻覺」，價格給錯是家常便飯。這真的很嚴重，一旦誤判，你的荷包可能就會像我後面會提到的驚魂記一樣，瞬間面臨考驗。所以，看各家 LLM 的性能表格時，記得保持懷疑，親自對帳才是王道。以下整理四大主流LLM給的資料，下一篇完章我會詳細說明我的選擇歷程＾＿＾

1. Grok#

模型	邏輯思考 & 自行解決問題 (0-100)	分析推理 (0-100)	程式撰寫 & Debug (0-100)	輸入價格 (USD/M tokens)	輸出價格 (USD/M tokens)	總整理（一句話）
Gemini 2.5 Flash Light	65	60	55	0.10–0.15	0.40–0.60	最便宜超快輕量版，適合簡單高速任務
Gemini 2.5 Flash	70	65	60	0.30	2.50	性價比高，日常多模態與一般推理首選
Gemini 3 Flash	85	78	76	0.50	3.00	速度與性能兼顧，2026年性價比王者之一
Claude Sonnet (4.x)	78	75	79	3.00–5.00	15.00–25.00	安全穩定、代碼品質優秀，企業級中高端選擇
Claude Opus (4.x)	85	85	81	5.00	25.00	深度推理與bug修復頂尖，但價格最高
OpenAI GPT-4.1	72	68	65	2.00	8.00	可靠平衡型，適合一般長上下文任務
OpenAI GPT-5.2	88	86	82	1.75–2.00	14.00	先進抽象推理領先，綜合性能強勁
xAI Grok 4-1-fast-reasoning	80	78	80	0.20–3.00	0.50–15.00	快速推理 + 極高性價比，互動與開發利器
MiniMax M2.5	78	75	78	0.07–0.26	0.07–1.00	超低成本高表現，分析與編程黑馬

建議使用說明 ：

如果預算有限 → 優先 Gemini 3 Flash / Grok 4 fast / MiniMax M2.5
如果追求頂級深度推理與代碼品質 → Claude Opus 或 GPT-5.2
表格分數為綜合多個2026基準的近似值，實際表現依任務而異。

2. Claude#

📋 表格摘要#

核心數據亮點：#

模型	SWE-Bench（程式）	GPQA（推理）	Tool Calling	價格（Output/1M）
MiniMax M2.5	80.2% ✅	62%	76.8% ✅	$1.20
Claude Opus 4.6	80.8% ✅	91.3% ✅	63.3%	$75.00
GPT-5.2	80%	92.4% ✅	高	$14.00
Gemini 3 Flash	78%	90.4% ✅	高	$3.00
Grok 4.1 Fast	~72%	85%	最高	$0.50 ✅

🎯 關鍵結論#

對於 OpenClaw Agent 使用者：

CP 值之王 ：MiniMax M2.5（程式能力頂尖、Tool Calling 第一、價格僅 Claude Opus 的 1/60）
免費入門 ：Grok 4.1 Fast（$175 免費額度 + 2M context）
全面升級 ：Gemini 3 Flash（推理 90.4%、多模態支援）

3. Gemini#

🚀 2026 AI 革命：OpenClaw 崛起與 LLM 旗艦模型大比拼 📊 2026 全球主流 LLM 深度對比表

[!info] 評分說明評分基於 2026 年 Q1 的各項基準測試（如 ARC-AGI-2、SWE-bench Pro），採 1-10 分制，分數越高代表表現越強。

模型系列	具體型號	邏輯解決 (1-10)	分析推理 (1-10)	程式 Debug (1-10)	輸入價格 (1M Tokens)	輸出價格 (1M Tokens)
Google	Gemini 3 Flash	9.2	9.0	9.3	$0.50	$3.00
Gemini 2.5 Flash	8.5	8.3	8.0	$0.10	$0.40
Gemini 2.5 Flash Lite	7.6	7.2	6.8	$0.03	$0.09
Anthropic	Claude 4.6 Opus	9.8	9.9	9.6	$5.00	$25.00
Claude 4.5 Sonnet	9.5	9.4	9.8	$3.00	$15.00
OpenAI	GPT-5.2 (Pro)	9.9	9.8	9.7	$21.00	$168.00
GPT-4.1	9.1	9.0	8.9	$2.50	$10.00
xAI	Grok 4.1 Fast-R	9.3	9.5	8.8	$0.20	$0.50
MiniMax	M2.5	8.8	8.9	8.2	$0.30	$1.20
📝 2026 旗艦模型總整理

最佳開發者選：Claude 4.5 Sonnet 在程式撰寫與 Debug 項目上依然是業界天花板（9.8分），對於需要處理複雜代碼架構、API 對接的開發者來說，它是 CP 值最高且最穩定的選擇。

最強 Agent 大腦：Gemini 3 Flash 憑藉極低的延遲與超高的邏輯處理能力，成為 OpenClaw 使用者的最愛。它在處理高頻率自動化任務時，能以不到 flaghip 模型 10% 的成本提供 90% 以上的效能。

極致邏輯頂端：GPT-5.2 如果你的任務涉及跨領域的高難度數學推理、長期策略規劃，GPT-5.2 Pro 依然是目前的絕對王者，即便它的定價偏高，但在「難題攻堅」上無可取代。

💬 結語在 2026 年，選擇模型不再只是看「誰最聰明」，而是看「誰最適合你的工作流」。無論你是想建立一個 24 小時運作的 OpenClaw 自動化代工，還是需要一位頂尖的程式副駕駛，這份表格希望能為你提供清晰的指引。

4. ChatGPT#

就只有ChatGPT的我貼上會一直很醜改不了然後額度用完＝＝

2026 LLM 比較總表

1️⃣ 能力評分（10分制）

Model Logic Reason Code Level

Gemini 2.5 Flash Lite 6.5 6.5 6.0 Entry Gemini 2.5 Flash 7.5 7.5 7.5 Value Gemini 3 Flash 8.5 8.5 8.0 Fast Claude Sonnet 4.6 9.0 9.0 8.5 Biz Claude Opus 4.6 9.5 9.5 9.0 Deep OpenAI 4.1 8.5 8.5 9.0 Eng OpenAI 5.2 9.5 9.5 9.5 Top Grok 4-1-fast 8.5 8.5 8.0 Cheap Minimax M2.5 7.5 7.5 7.0 CN

2️⃣ API 價格（USD / 1M tokens）

Model In Out Avg

Gemini 2.5 Flash Lite 0.10 0.40 0.20 Gemini 2.5 Flash 0.35 1.05 0.60 Gemini 3 Flash 0.80 2.40 1.40 Claude Sonnet 4.6 3.00 15.00 8.00 Claude Opus 4.6 15.00 75.00 45.00 OpenAI 4.1 5.00 15.00 10.00 OpenAI 5.2 15.00 60.00 37.50 Grok 4-1-fast 0.20 0.50 0.28 Minimax M2.5 1.00 2.00 1.25

一、 崛起：開源界的搖滾颶風 OpenClaw##

🏗️ 從實驗室走到你的電腦：Jarvis 的既視感##

🏷️ 改名三部曲：龍蝦的「脫殼」與蛻變##

二、 實測：養龍蝦的環境準備##

三、 安裝：懶人的極致——就讓 Claude Code 幫你吧！##

四、 大腦：決定小秘書是「Jarvis」還是「小笨蛋」的關鍵##

1. Grok##

2. Claude##

📋 表格摘要##

核心數據亮點：##

🎯 關鍵結論##

3. Gemini##

4. ChatGPT##