LLM Token 計算器
字元數 0 · 排除空白 0 · 行數 0正在載入 BPE 編碼器...
預設模型估算
GPT-5.4
0
tokens
占 Context Window: 0.00% / 1,050,000估算 input 成本: $0.0000
各模型 Token 數比較
| 模型 | Token | Context 占用 | 估算成本(input) | 精度 |
|---|---|---|---|---|
| RAG / 向量檢索 Embedding 模型 | ||||
mxbai-embed-large (v1) Max Seq 512 · 自架免費 | 0 | Max Seq 0.000% | — | 精確 |
BGE-M3 Max Seq 8,192 · 自架免費 | 0 | Max Seq 0.000% | — | 精確 |
nomic-embed-text (v1.5) Max Seq 8,192 · 自架免費 | 0 | Max Seq 0.000% | — | 精確 |
| OpenAI | ||||
GPT-3.5 Turbo Context 16,385 · $0.5/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-4 Context 8,192 · $30/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-4 Turbo Context 128,000 · $10/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-4o Context 128,000 · $2.5/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-4o mini Context 128,000 · $0.15/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-4.1 Context 1,047,576 · $2/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-5 Context 400,000 · $1.25/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-5.1 Context 400,000 · $1.25/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-5.2 Context 400,000 · $1.75/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-5.3 Context 128,000 · $1.75/1M | 0 | 0.000% | $0.0000 | 精確 |
GPT-5.4 Context 1,050,000 · $2.5/1M | 0 | 0.000% | $0.0000 | 精確 |
o1 Context 200,000 · $15/1M | 0 | 0.000% | $0.0000 | 精確 |
| Anthropic | ||||
Claude 3.5 Sonnet Context 200,000 · $3/1M | 0 | 0.000% | $0.0000 | 估算 |
Claude Sonnet 4 Context 200,000 · $3/1M | 0 | 0.000% | $0.0000 | 估算 |
Claude Haiku 4.5 Context 200,000 · $1/1M | 0 | 0.000% | $0.0000 | 估算 |
Claude Sonnet 4.6 Context 1,000,000 · $3/1M | 0 | 0.000% | $0.0000 | 估算 |
Claude Opus 4.6 Context 1,000,000 · $5/1M | 0 | 0.000% | $0.0000 | 估算 |
Gemini 1.5 Pro Context 2,097,152 · $1.25/1M | 0 | 0.000% | $0.0000 | 估算 |
Gemini 2.5 Pro Context 2,097,152 · $1.25/1M | 0 | 0.000% | $0.0000 | 估算 |
Gemini 3 Pro Context 1,000,000 · $2/1M | 0 | 0.000% | $0.0000 | 估算 |
關於 LLM Token 與本工具
- 什麼是 Token: LLM 不是以「字」或「字元」為單位,而是以 BPE(Byte Pair Encoding) 切分後的子詞單元為單位。一個英文單字可能是 1 個 token, 一個中文字常常是 2~3 個 token。
- 精確 vs 估算: OpenAI 的 cl100k_base 與 o200k_base 編碼表為公開, 本工具直接以 BPE 計算,結果與 OpenAI tiktoken 一致; Claude 與 Gemini 官方未公開 tokenizer,本工具採字元權重啟發式估算, 數值僅供參考。
- RAG Embedding 模型:
mxbai-embed-large(BERT-large WordPiece)、BGE-M3(XLM-RoBERTa SentencePiece)、nomic-embed-text(BERT-base WordPiece) 均使用 HuggingFace 上公開的tokenizer.json, 透過@xenova/transformers在瀏覽器精確計算, 結果與 Pythontransformers一致。 為節省首屏載入,tokenizer 在您首次輸入文字時才開始下載 (BGE-M3 SentencePiece 較大、需數秒)。 注意計算結果不含[CLS]/[SEP](BERT 系) 或<s>/</s>(XLM-R)等特殊 token, 實際 inference 時會額外加 2 個。 - Max Sequence(Embedding 限制): Embedding 模型的最大序列長度(mxbai 為 512、BGE-M3 與 nomic 為 8192), 超過會被截斷,影響向量品質。RAG 文件切塊建議預留安全邊距 (例如目標 80% 以下)。
- Context Window: 每個模型有最大可接受的 token 數(輸入+輸出), 超過會被截斷或拒絕。本工具的進度條會顯示您的文字占用比例。
- 成本估算: 顯示之金額為 input token 成本。實際 API 帳單還包含 output tokens、 cache 折扣、批次折扣等,請以服務商公告為準。
- 隱私: 所有運算皆在您的瀏覽器本機完成,輸入文字不會上傳至任何伺服器。
編碼器: cl100k_baseGPT-3.5 / GPT-4 / GPT-4-turbo; o200k_baseGPT-4o / GPT-4.1 / GPT-5 / o1; BERT WordPiecemxbai-embed-large / nomic-embed-text; XLM-R SentencePieceBGE-M3; 估算Claude / Gemini(無公開 tokenizer)。
使用情境:Token 計算能幫你做什麼?
RAG 文件切塊(Chunking)規劃
建構 RAG(Retrieval-Augmented Generation,檢索增強生成) 知識庫時,需要把長文件切成多個 chunk 再送進 embedding 模型。 切太大會超過 max sequence、切太小語意不足。本工具可以協助你:
- 估算文件會切成幾個 chunk: 假設 chunk size 為 512 tokens、overlap 50, 把整篇文件貼進來看 BGE-M3 / mxbai-embed-large 的 token 數, 除以(chunk_size − overlap)即得 chunk 總數。例如 8,000 tokens 的文章,以 512/50 切會產生約 17 個 chunk。
- 確認 chunk 不會被截斷: mxbai-embed-large 上限 512、BGE-M3 與 nomic-embed-text 上限 8,192。 建議預留 10~20% 安全邊距,例如 BGE-M3 實務 chunk size 設 6,000~7,000, 避免特殊 token、中文 byte 拆分等因素超出限制。
- 評估 LangChain / LlamaIndex 切塊器的 token 成本:
RecursiveCharacterTextSplitter、SentenceSplitter、SemanticChunker等 切塊器各有 token 計算邏輯,可在這裡先以實際文件試算, 再決定 splitter 與 chunk size 參數。
LLM API 預期花費試算
呼叫 OpenAI、Anthropic、Google 等 API 前,先把 system prompt、 few-shot 範例、檢索到的 context、使用者問題串起來貼進本工具, 即可預估單次呼叫成本與 context window 占用率。常見應用:
- 計算 ChatGPT API、Claude API、Gemini API 月成本: 預估每次請求平均 input tokens × 預期 QPS × 一個月秒數 × 單價, 即可在開發階段就掌握量級,避免上線後驚喜。
- 選擇性價比最高的模型: 同一段 prompt 在 GPT-5、Claude Sonnet 4.6、Gemini 3 Pro 上的 token 數略有差異(BPE 切分不同),搭配不同單價, 有時換模型能降低 30~50% 成本。
- 判斷是否需要 Prompt Caching / Batch API: 若 prompt 中重複的 system / context 部分超過 1,024 tokens, Anthropic Prompt Caching、OpenAI 自動 cache 可省下大量重複費用。 先用本工具量出固定段落 token 數,評估啟用快取的效益。
- 避免 Context Window 截斷: 超過 context 上限時 API 會直接回 400 錯誤或自動截斷, 影響回答品質。本工具會以進度條顯示占用比例, 超過 85% 即顯示紅色警示。
向量資料庫(pgvector / Pinecone / Qdrant / Weaviate)規劃
- 估算 embedding API 帳單: 若使用 OpenAI
text-embedding-3-large($0.13/1M) 或 Cohere、Voyage 等付費 API,先計算整個語料庫的 token 總數, 乘以單價即得一次性 indexing 成本。本地 embedding 模型 (mxbai-embed-large / BGE-M3 / nomic-embed-text)則完全免費, token 計算用於估算 GPU/CPU 推論時間。 - 估算向量數量與儲存空間: chunk 數 = 向量數量,每個向量維度(mxbai 1024、BGE-M3 1024、 nomic 768、OpenAI 3072)× 4 bytes(float32)即得儲存體積。 例如 10 萬個 BGE-M3 向量 ≈ 400 MB(未壓縮)。
- 多語言場景選擇: BGE-M3 基於 XLM-RoBERTa,支援 100+ 語言、中文表現佳; mxbai-embed-large 與 nomic-embed-text 為英文 BERT 系, 中文會因 WordPiece 詞表退化為逐字甚至逐 byte 拆分, token 數會明顯偏高。把同一段中文貼到比較表即可一眼看出差異。
中英文 Token 計算的差異
中文每字消耗的 token 通常比英文多。以 GPT-4o(o200k_base)為例, 英文 1 token ≈ 3.5~4 個字元,中文 1 字 ≈ 1~2 個 token。 這導致同樣意思的中文 prompt 比英文貴約 1.5~2 倍。 本工具支援即時切換查看,協助你:
- 判斷是否值得把 system prompt 改寫為英文以省成本
- 評估翻譯應用、中英對照場景的 token 用量
- 觀察「token 視覺化」清楚看到中文如何被 BPE 拆分
常見問題
- 本工具計算的 token 數會跟 API 帳單完全一致嗎?
- OpenAI GPT 系列(cl100k_base / o200k_base)與三個 RAG embedding 模型為精確計算,結果與
tiktoken、Pythontransformers一致。 Claude 與 Gemini 官方未公開 tokenizer,本工具採字元權重估算, 與實際帳單可能有 ±10% 誤差。實際呼叫 API 時還會包含對話歷史、 tools 定義、回應 tokens,請以服務商計費為準。 - 為什麼 RAG embedding 計算結果比 LLM 少 2 個 token?
- BERT 系模型實際推論時會在開頭加
[CLS]、結尾加[SEP];XLM-RoBERTa 系(BGE-M3)則加<s>與</s>。 這 2 個特殊 token 會佔 max sequence 但不算文本內容, 本工具預設不計入,讓你能精準評估「實際文字內容」的 token 用量。 - 輸入隱私資料安全嗎?
- 所有 tokenizer 都在你的瀏覽器本機執行,輸入文字不會上傳到伺服器。 首次使用 RAG embedding 時,瀏覽器只會從 HuggingFace 下載 tokenizer 詞表檔(僅詞彙映射,不含模型權重), 之後即離線運作。