看完前面這幾個主流模型的分析,你可能會問我:「那實測起來到底感覺如何?」
說實話,自從我加入 Google 家庭群組後,就順勢退掉了 ChatGPT 的訂閱,所以 Gemini 3 一直是我最常用的「大腦」。但這次實測下來,我發現它有個致命傷:價格資訊經常給錯。這真的很嚴重,導致我初期在規劃成本時產生了不少誤判。
在與 OCI (Oracle Cloud) 權限地獄搏鬥的過程中,我的 Openclaw 小秘書經歷了幾次「大腦移植」。以下是這 24 小時的血淚進化史:
1. Gemini 1.5 Flash / 2.0 Flash|初期拓荒:出師不利
-
實測狀況:作為最早嘗試在 OCI 主機串接的先鋒,這兩個版本讓我吃足了苦頭。頻繁遭遇 404 連線失敗,或是 Session 紀錄在數據庫中出現死鎖(Deadlock),導致系統整台動彈不得。
-
最終結果:在環境設定與權限地獄(Permission Hell)的雙重夾擊下,為了不讓進度卡死,我果斷決定先跳過這個版本,另尋出路。
2. Gemini 2.5 Flash-Lite|初次接通:0 元生存戰的曙光
-
實測狀況:在解決了 OCI 權限與 Docker 報錯後,這款模型成了第一個成功在主機上「活過來」的大腦。
-
最終結果:作為 Telegram 機器人的初始大腦,它的價格極其親民,僅為 2.0 版的十分之一。它幫我驗證了整個自動化流程的連通性,讓計畫從「理論」正式進入「實作」。
-
碎碎念:不過,實測發現她真的太笨了 XD。
3. Gemini 2.5 Flash|穩定運作期:負重前行的數據累積
-
實測狀況:這是 2/21 實測中的主力軍,單日跑了將近 95 萬個 Token。從數據中我發現一個驚人的事實:由於 LLM 的無狀態特性,每次呼叫都要重傳高達 19,158 字元 的 System Prompt,導致 Input 與 Output 的比例高達 81:1。
-
最終結果:單日營運成本約為 $0.32 USD。雖然相對穩定,但面對這種高頻率的 API 呼叫,我開始思考如何進一步優化。
-
碎碎念:嗯…她還是感覺有點笨笨的 XD。
4. Gemini 3 Flash-Preview|能力突破期:攻克 7 家銀行帳單
-
實測狀況: 當自動化腳本進入「解析加密 PDF 帳單」的深水區時,舊模型的應變能力明顯出現瓶頸。我決定直上 Gemini 3 Flash-Preview,並搭配 Brave Search API 賦予小秘書聯網能力。
-
最終結果: 這顆大腦展現了強悍的多模態理解力。它幫我詳細解鎖一月份的七張信用卡帳單,成功跨越 7 家銀行完全不同密碼與格式的藩籬,達成最終 0 元誤差 的極致目標,以及產出詳細Excel報表與圓餅分析圖。同時,我也在這裡順手完成了多個 AI Agent 的人格孵化。
⚠️ 意外插曲:差點嚇出心臟病的「噴錢」驚魂記
正當我覺得一切順風順水時,發生了一場烏龍。在一次自動發布文章的測試中,小秘書突然當機,我點開 Google Cloud 帳單頁面一看,數字竟然開始狂噴:
30…180… 210… 250… 370… 470… 587…
看著那個跳動速度,我心跳差點漏了一拍。心想:「天啊,傳說中的 AI 噴錢慘案真的發生了嗎?美金這樣噴真的會出人命!」 當時我立刻採取「緊急避難」:關 API、截圖存證準備找客服、然後瘋狂找便宜替代模型。
💡 破案:原來是幣別在搞鬼
冷靜下來後仔細一看,才發現是我自己烏龍一場——那個數字的單位其實是「台幣」! 會誤判是因為 Claude 或其他儲值單位都是美金。加上 Google Cloud 帳戶一開始是 26.34 這種帶小數點的數字,看著它爬升到 30.23,我先入為主認定那是美金幣別跳動。這場驚魂記最後以「自嘲」收場,Google線上客服應該很傻眼^^“ 但那種血壓飆高的感覺,真的非常深刻。
5. Gemini 2.5 Flash|務實回歸期:管理者的成本校準
-
實測狀況:在完成最艱難的帳單解析任務後,身為管理者的務實本能告訴我,不該一直燒高價模型處理日常雜務。
-
最終結果:我將大腦短暫降回 2.5 Flash。這是一個「冷卻期」,讓我重新審視整體架構。
-
心得:但我發現我的 Claude Code 真的很聰明(畢竟是用最強的 Claude 大腦),解決問題能力一流。相比之下,Gemini 2.5 Flash 簡直像卡關一樣,連怎麼連線 Syncthing 都教不會…真的讓人受不了!我決定再換一個大腦,而且要更便宜!至於 MiniMax 這個大陸貨,我就先不考慮啦 ^^"。
6. Grok 4.1 Fast Reasoning|當前進化:長效維運的性價比之王
-
實測狀況:最後,我將目光轉向 Grok 4.1 Fast。它最吸引我的是極具侵略性的定價:Input 每百萬只要 $0.20,Output 更是低到 $0.50。
-
最終結果:我儲值了 $20 USD 作為「保險絲」,預付額度即是硬上限,絕不超支。根據 2/21 的用量估算,這 20 美金足以支撐我約 105 天 的運作。目前已透過 Claude Code 在 OCI 主機上佈署了自動餘額監控,正式開啟我的「高 CP 值」長效維運模式。
對了,這三篇文章,以及這個網站,都是龍蝦小秘書幫我建立跟自動發佈的 ^_^