2025 年,一個新問題浮現:你的網站在 ChatGPT 裡看得到嗎?
Gartner 預測 2026 年傳統搜尋量將下降 25%。60% 的搜尋已經不產生點擊。52% 的成年人用 AI 搜尋。如果你的內容沒有為 LLM 優化,你正在變成隱形的。
這不是未來式——是現在進行式。這篇整理了「把網站變成 AI 可讀資料來源」這個領域的完整技術地圖。
這個領域叫什麼?
你會看到很多名詞指向同一件事:
| 名詞 | 側重點 |
|---|---|
| AI-ready content | 內容本身為 AI 消費而優化 |
| LLM-friendly website | 網站結構讓 LLM 容易理解 |
| RAG-ready web | 內容可以直接被 RAG pipeline 吃進去 |
| AI ingestion pipeline | 從網頁到向量資料庫的整條工程管線 |
| GEO(Generative Engine Optimization) | 行銷端:讓 AI 搜尋引用你的內容 |
| LLMO / AEO / AIO | 同一件事的不同縮寫 |
本質上分兩個面向:
- 供給端:我怎麼讓我的網站更容易被 AI 讀取和引用?
- 需求端:我怎麼把別人的網站內容拉進我的 AI 系統?
一、供給端:讓網站被 AI 看懂
1.1 llms.txt — 給 AI 的自我介紹
llms.txt 是 Jeremy Howard(Answer.AI)在 2024 年提出的提案:在網站根目錄放一個 Markdown 檔,告訴 AI 系統你的網站是什麼。
格式規範:
# 你的網站名稱
> 一段簡短摘要
詳細說明(任意 Markdown,但不能用 heading)
## Optional
- [文件名](url): 說明
- [API 文件](url): 說明
跟 robots.txt 的差異:
| robots.txt | llms.txt | |
|---|---|---|
| 用途 | 定義存取權限 | 提供理解脈絡 |
| 格式 | 純文字指令 | Markdown |
| 對象 | 搜尋引擎爬蟲 | LLM / AI 助手 |
現況(2026 初):
- 超過 84 萬個網站已實作(BuiltWith 追蹤)
- Anthropic、Cloudflare、Stripe、Vercel、Astro 都有部署
- Mintlify 在 2025 年 11 月為所有託管文件站台啟用 llms.txt,一夜之間數千個文件站支援
- 但:Semrush 分析伺服器日誌發現,GPTBot、ClaudeBot、PerplexityBot 都沒有主動存取 llms.txt
- 截至 2026 年 2 月,仍然是社群提案,不是 IETF/W3C 正式標準
結論:低成本、高潛力。就算 AI 爬蟲目前沒讀,你也有了一份乾淨的品牌摘要。先做不吃虧。
1.2 新興標準:RSL、Content Signals、WebMCP
llms.txt 不是唯一的新標準。2025–2026 年還冒出了幾個重要的協定:
RSL(Really Simple Licensing)
2025 年 9 月由 RSL Collective(RSS 共同創造者 Eckart Walther 共同創辦)推出。核心概念:把機器可讀的授權和付費條款直接嵌入 robots.txt、HTTP headers、RSS feeds 和 HTML <link> 元素。
- 定義使用類別:
ai-all、ai-input、ai-index - 支援定價模式:pay-per-crawl、pay-per-inference、subscription、free with attribution
- 1,500+ 媒體組織背書,Reddit、Yahoo、Medium、AP、Cloudflare、Stack Overflow 都支持
- 官方網站:rslstandard.org
Cloudflare Content Signals
Cloudflare 擴展 robots.txt,新增三個信號:
Content-signal: search=yes, ai-train=no, ai-input=no
search:傳統搜尋索引ai-train:是否允許用來訓練模型ai-input:是否允許在推論時存取
以 CC0 授權釋出,已部署在 380 萬+ 網域。配套的 Pay-Per-Crawl 機制(2025 年 7 月)用 HTTP 402(Payment Required)阻擋未付費的 AI 爬蟲,50+ 家主要出版商加入(AP、Condé Nast、Reddit、Time)。
WebMCP(Web Model Context Protocol)
2026 年 2 月的 W3C Draft Community Group Report,由 Google Chrome、Microsoft Edge 共同開發。
核心想法:讓網站直接對瀏覽器內的 AI agent 暴露結構化工具,不需要靠 screen-scraping。
// 網站可以透過 navigator.modelContext 暴露能力
navigator.modelContext.registerTool({
name: "search_products",
description: "搜尋產品目錄",
parameters: { query: { type: "string" } }
});
- 兩種 API:Declarative(HTML forms)和 Imperative(JavaScript)
- 「Permission-first」設計——瀏覽器會在 agent 執行前詢問使用者
- Chrome 146 Canary 已有早期預覽,預計 2026 下半年正式支援
- 與 Anthropic 的 MCP 互補(不是取代)
標準層生態總覽:
| 標準 | 用途 | 狀態 |
|---|---|---|
| robots.txt | 存取控制 | 成熟 |
| llms.txt | 內容摘要 | 社群提案 |
| Content Signals | AI 使用偏好 | Cloudflare 部署中 |
| RSL | 授權與付費 | 1,500+ 組織背書 |
| WebMCP | Agent 互動介面 | W3C Draft |
| IETF AIPREF | AI 使用偏好(正式標準) | 制定中 |
1.3 結構化資料 — JSON-LD Schema Markup
JSON-LD 在 2026 年的角色已經從「SERP 顯示輔助」變成「機器理解的 API」。
關鍵數據:
- 有正確 Schema Markup 的網站,被 AI 回答引用的機率是沒有的 3.2 倍(73 個網站的分析)
- GPT-4 在有結構化內容時,表現從 16% 提升到 54%
- 2025 年 3 月,微軟 Bing 的 Fabrice Canel 確認:Schema Markup 幫助微軟的 LLM 理解內容
- SearchVIU 測試確認:ChatGPT、Claude、Perplexity、Gemini 都會處理 Schema Markup
2026 最佳實踐:
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "AI-Ready Content 完整指南",
"author": {
"@type": "Person",
"name": "Vincent Hsu",
"knowsAbout": ["AI", "RAG", "Web Development"]
},
"about": {
"@type": "Thing",
"name": "AI-Ready Content",
"sameAs": "https://www.wikidata.org/wiki/Q..."
}
}
重點策略:
| 策略 | 說明 |
|---|---|
| Entity Depth | 不只標 Article,要往下展開:Product → Manufacturer → Organization → Founder |
| Wikidata 連結 | 用 sameAs 和 mentions 連到 Wikidata ID,這是 2026 Entity SEO 最強信號 |
| Content Parity | Schema 裡的資料必須在頁面上可見,否則 Google 會標記為垃圾結構化資料 |
| LLM 專屬屬性 | knowsAbout、transcript、FAQPage——可能不會觸發 rich result,但會影響 AI 引用 |
1.4 內容結構優化
LLM 不像人一樣「瀏覽」,它們需要明確的結構信號來定位資訊:
必做清單:
- 語意化 HTML:正確使用 H1 → H2 → H3 層級,不跳級
- Answer-first:前 200 字直接回答核心問題(AI 系統優先評估開頭內容)
- FAQ 格式:Q&A 結構是 LLM 最容易引用的格式
- 語意分塊:每個段落一個概念,方便 AI 擷取特定事實
- 作者資訊:匿名內容是 GEO 的減分項,AI 系統越來越重視作者可信度
1.5 技術層面
robots.txt → 允許 AI 爬蟲(GPTBot、ClaudeBot、PerplexityBot)
llms.txt → 提供網站摘要
sitemap.xml → 列出所有頁面
JSON-LD Schema → 提供結構化語意
語意化 HTML → 清晰的內容層級
確認你的 robots.txt 沒有擋掉 AI 爬蟲:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
二、需求端:把網頁內容拉進 AI 系統
2.1 AI 爬蟲工具比較
傳統爬蟲輸出 HTML,AI 爬蟲輸出 Markdown / JSON——token-efficient、保留結構、適合 chunking。
| 特性 | Firecrawl | Crawl4AI | Jina Reader |
|---|---|---|---|
| 類型 | SaaS API | 開源 Python | Hosted API |
| 輸出 | Markdown / JSON | Markdown / JSON | Markdown / JSON |
| 最適合 | RAG pipeline、LangChain 整合 | 自建、隱私優先團隊 | 快速原型 |
| AI 萃取 | Schema-based | 支援 local LLM(Llama 3、Mistral) | 有限 |
| Anti-Bot | 付費方案支援 | 有限 | 有限 |
| MCP Server | ✅ | ❌ | ✅ |
| 定價 | Free 500 credits,$16/mo 起 | 免費(自建基礎設施成本) | 免費到 1M tokens |
| 特色 | Map endpoint 可秒生成 sitemap | Adaptive crawling 省 ~40% 爬取時間 | r.jina.ai/URL 即用 |
選擇建議:
- Firecrawl:深度整合 LangChain 生態、需要 managed service
- Crawl4AI:要完全控制、有 Python 基礎設施、在意隱私(金融/醫療)
- Jina Reader:原型階段、想快速拿到 Markdown、不想管基礎設施
2.2 RAG Ingestion Pipeline 架構
把網頁內容送進 AI 系統的標準管線,2026 年已經從 ETL 演化成 PTI(Parse-Transform-Index):
網頁 → 爬取 → 解析(Parse) → 轉換(Transform) → 索引(Index) → 向量 DB
↓ ↓ ↓
HTML → Markdown Chunking + Metadata Embedding + Store
表格/圖片處理 摘要生成、實體抽取 HNSW / IVF 索引
三代 RAG 架構演進:
| 世代 | 名稱 | 特徵 |
|---|---|---|
| 第一代 | Naive RAG | 線性:Index → Retrieve → Generate |
| 第二代 | Advanced RAG | 加入 pre/post-retrieval 優化(query rewrite、reranking) |
| 第三代 | Modular RAG | 模組可替換、支援 adaptive retrieval、multi-agent 協作 |
2026 關鍵趨勢:
- Agentic RAG:不再是「查一次、生一次」,而是推理迴圈 + 多步檢索 + 動態查詢改寫
- RAG as Context Engine:從「檢索增強生成」進化成「智慧檢索」核心能力
- Traceability > Accuracy:2026 年 RAG 系統的評判標準不只是答對,而是能否證明答案來源
- Multimodal Ingestion:純文字 RAG 在遇到圖表、表格時會失敗,multimodal 處理成為必要
- Hybrid Retrieval:語意搜尋 + 關鍵字搜尋混合,更穩健
2.3 MCP(Model Context Protocol)— AI 工具整合標準
MCP 不是爬蟲,是控制面(control plane)——標準化 AI 模型呼叫外部工具的介面。
現況(2026 初):
- Anthropic 2024 年 11 月推出,2025 年 12 月捐給 Linux Foundation AAIF
- 月下載量超過 9,700 萬次(Python + TypeScript SDK)
- Anthropic、OpenAI、Google、Microsoft、Amazon 全部採用
跟 AI-ready content 的關係:
MCP Server(爬蟲/API) → AI Agent → 使用者
↓
Firecrawl MCP Server
Apify MCP Server(4000+ Actors)
自建 MCP Server(包裝你的 API)
MCP 讓 AI agent 可以即時存取網頁內容,但爬取本身仍然需要基礎設施(headless browser、proxy、rate limit)。
2026 Roadmap 重點:
- Streamable HTTP 讓 MCP server 可以跑在遠端
.well-knownmetadata 讓 server 可被發現(不需要建立連線就能知道能力)- 企業級:audit trail、SSO 整合、gateway 行為標準化
三、GEO — 行銷端的 AI 可見性
GEO(Generative Engine Optimization)是這個領域的行銷面:讓你的內容被 AI 搜尋引用。
為什麼重要:
- AI 導流的 session 數量年增 527%(Previsible 2025 報告)
- Google AI Overviews 每月觸及超過 20 億用戶
- ChatGPT 每週 9 億用戶
- McKinsey 報告:50% 消費者已經把 AI 搜尋當主要資訊來源
GEO vs SEO:
| SEO | GEO | |
|---|---|---|
| 目標 | 排進 10 個藍色連結 | 被 AI 回答引用(通常只引 2-7 個來源) |
| 排名因素 | 反向連結、關鍵字 | 結構、可信度、新鮮度 |
| 衰退速度 | 排名可持續數年 | AI 引用每週都在輪替 |
| 衡量指標 | 排名、流量 | AI 引用頻率、Share of Voice、引用情感 |
GEO 六大策略:
- 語意分塊:內容分成 AI 可獨立擷取的段落
- Answer-first:前 200 字直接回答,AI 優先評估開頭
- 技術標記:Schema Markup(Article、FAQ、HowTo)+ llms.txt + 不擋 AI 爬蟲
- 作者可信度:有名字、有經歷、有外部可驗證的存在
- 內容新鮮度:AI 引用衰退比 SEO 排名快得多,持續更新是必要的
- 第三方背書:Princeton 研究顯示 AI 強烈偏好 earned media 而非品牌自有內容
四、內容授權與變現
AI 爬蟲在 2025 年成為網站流量的重要來源——但也引發了「你拿我的內容去訓練模型,我得到了什麼?」的問題。
主要授權交易(2025):
- News Corp 每年從 OpenAI 獲得 $5,000 萬+
- OpenAI-Axios 簽了 3 年合約
- Google-AP 整合 Gemini
- Meta 簽了 7 筆交易(CNN、Fox News、People、USA Today)
- Perplexity 的 Comet Plus 計畫:$4,250 萬出版商收入池,80/20 分成偏向出版商
技術執行機制:
| 機制 | 說明 |
|---|---|
| Cloudflare Pay-Per-Crawl | HTTP 402 阻擋未付費 AI 爬蟲 |
| RSL 授權協定 | 機器可讀的付費條款嵌入 robots.txt |
| IAB Tech Lab CoMP | 標準化從 pay-per-crawl 到 outcome-based 的變現模式 |
出版商對各 AI 平台的評價:
- 微軟:最願意為 IP 付費,評價最高
- OpenAI:第二(18 筆全球交易)
- Google:評價最低(AI Overviews 衝擊流量)
- Anthropic:爬取量遠大於回導流量,crawl-to-refer 比率最差
五、Agentic Web — 下一步
2026 年的新趨勢:AI agent 不只是「讀」網站,而是「用」網站——瀏覽、比較、下單、完成交易。
- Gartner 報告 multi-agent 系統諮詢量暴增 1,445%(2024 Q1 → 2025 Q2)
- OpenAI Operator 整合進 ChatGPT,執行多步驟網頁任務
- Anthropic Computer Use 可控制整個桌面
- Google AI Mode 可直接訂餐廳
這對網站意味著什麼?
網站將同時服務兩種受眾:人類(視覺、互動)和機器(結構化、語意、API 驅動)。WebMCP 就是這個方向的具體協定——讓每個網站變成 AI agent 的工具介面。
行銷漏斗也要為 AI agent「使用者」優化,不只是人類。你的下一個最大「使用者」可能不是人。
六、完整技術堆疊一覽
如果你要從零開始讓一個網站「AI-ready」,這是完整的 checklist:
供給端(讓你的網站被 AI 讀取)
□ robots.txt 允許 GPTBot、ClaudeBot、PerplexityBot
□ 設定 Cloudflare Content Signals(控制 ai-train / ai-input)
□ 部署 /llms.txt(Markdown 格式的網站摘要)
□ JSON-LD Schema Markup(Article、Organization、FAQ、HowTo)
□ 語意化 HTML(正確的 heading 層級)
□ Answer-first 內容結構
□ 作者資訊(姓名、經歷、外部連結)
□ sitemap.xml 保持更新
□ 內容定期更新(對抗 AI 引用衰退)
□ 評估 RSL 授權條款(如果你是出版商)
□ 關注 WebMCP(為 agentic web 做準備)
需求端(把網頁內容送進你的 AI 系統)
□ 選擇爬蟲工具(Firecrawl / Crawl4AI / Jina Reader)
□ 設計 PTI pipeline(Parse → Transform → Index)
□ Chunking 策略(語意分塊 + metadata)
□ Embedding + 向量資料庫(Pinecone / Weaviate / Qdrant / Cloudflare Vectorize)
□ Hybrid retrieval(語意 + 關鍵字)
□ MCP Server 整合(讓 AI agent 即時存取)
□ 增量更新機制(不需要每次全部重建索引)
□ Traceability(每個答案可追溯到來源)
結語
「把網站變成 AI 可讀的資料來源」不是單一技術,是一整個生態系:
- 標準層:llms.txt、Schema Markup、robots.txt、RSL、Content Signals
- 工具層:Firecrawl、Crawl4AI、Jina Reader
- 協定層:MCP、WebMCP、A2A
- 管線層:PTI pipeline、RAG 架構
- 變現層:Pay-Per-Crawl、RSL 授權、出版商交易
- 策略層:GEO、LLMO
- 未來層:Agentic Web、AI agent 商務
這個領域在 2025–2026 年正在經歷類似早期 SEO 的爆發期。差別是:SEO 花了十年成熟,AI-ready content 可能只需要兩年。
現在開始做,成本低、風險小、先行者優勢明確。等到變成標準配備時再追,就晚了。
參考資料
- llms.txt Proposal — Jeremy Howard 提出的 llms.txt 規範,給 AI 的網站自我介紹標準
- Retrieval-Augmented Generation for Large Language Models: A Survey — arXiv 論文,Naive RAG、Advanced RAG、Modular RAG 三代架構的學術綜述
- Model Context Protocol Introduction — MCP 官方文件,AI agent 工具整合的標準控制面
- Firecrawl GitHub Repository — AI-ready 爬蟲工具,將網頁轉換為 LLM 可消費的 Markdown
- Crawl4AI GitHub Repository — 開源 AI 爬蟲框架,支援本地 LLM 萃取
- RSL Standard — Really Simple Licensing 官方網站,機器可讀授權標準
- Schema.org — 結構化資料詞彙標準,JSON-LD Schema Markup 的定義來源
- Google Search Central: Structured Data — Google 官方結構化資料指南,AI 引用最佳化的技術基礎