Skip to content

arXiv 論文品質判讀指南:從 endorsement 機制到實戰 checklist

2026年5月28日 1 分鐘
TL;DR arXiv 不做 peer review,約 2% 投稿被拒。判斷品質靠外部信號:頂會收錄 > 機構 + 開源復現 > 引用品質。附 20 項實戰 checklist 和 2026 年工具箱(PWC 已關閉)。

每天有超過 1,000 篇論文上傳到 arXiv。「arXiv 不是 peer review」這句話大家都聽過,但它的 endorsement 和 moderation 到底擋掉了什麼、放進了什麼?這篇整理 arXiv 自身的品質機制、外部信號的判讀方式、2026 年還能用的工具,以及一份讀完論文該打勾的 checklist。

arXiv 的兩道守門員

Endorsement:信任網路,不是品質認證

arXiv 自 2004 年起要求首次投稿者須經 endorsement。依 arXiv 官方說明,endorser 的責任是:

“You should not endorse the author if the author is unfamiliar with the basic facts of the field, or if the work is entirely disconnected with current work in the area.”

換句話說,endorser 確認的是「這個人屬於科學社群」,不是「這篇論文是對的」。來自公認學術機構的新作者通常自動獲得 endorsement,實務上根本不會碰到這道關卡。

Moderation:格式審查,不是內容審查

arXiv moderation 政策,moderator 是志工領域專家,擁有終端學位。他們可以:

  • 重新分類:移至更適合的類別(移至 general 類別在社群中被視為降級)
  • 拒絕投稿:格式不合、非研究論文(課程作業、研究提案)、抄襲、投稿頻率過高(上限每天 3 篇)

Scientific American 報導,約 6% 投稿被 hold,約 2% 被拒。對比 Nature/Science 低於 10% 的接受率,arXiv 的門檻明顯不在同一個量級。

一旦論文公告,即成為永久學術紀錄。arXiv 僅在授權問題時移除,違反政策時會 withdraw 但 metadata 保留。

結論:能上 arXiv 只代表格式合格、作者屬於學術社群。品質判斷必須靠外部信號。

外部品質信號金字塔

        ┌──────────────────┐
        │  頂會收錄 (最強)   │  NeurIPS / ICML / ICLR / ACL / CVPR
        ├──────────────────┤
        │ 知名機構 + 開源復現 │  DeepMind / FAIR / 有可跑的 code
        ├──────────────────┤
        │    引用品質        │  Highly Influential Citations > 絕對數字
        ├──────────────────┤
        │  純 arXiv,無佐證  │  需自行驗證
        └──────────────────┘

會議收錄:最直接的背書

論文首頁標註 “Accepted at NeurIPS 2025” 代表通過了 3-4 位 reviewer 的同行審查。AI/ML 領域主要會議:

等級會議接受率
Tier 1NeurIPS, ICML, ICLR~20-25%
Tier 1ACL, EMNLP(NLP); CVPR, ICCV(CV)~20-25%
Tier 2AAAI, IJCAI, AISTATS, UAI~25-30%

沒有會議標註不代表論文差——很多工業界技術報告和基礎模型論文(如 GPT-4、Llama)選擇不投會議。但如果一篇宣稱突破性結果的論文既沒有會議收錄、也沒有知名機構背書,就需要格外謹慎。

引用指標:看品質,不看數量

DORA 宣言 明確反對以 Impact Factor 作為個別論文品質的代理指標。更有意義的做法:

  • Semantic Scholar 的 “Highly Influential Citations”:區分「related work 順便提一句」和「方法真正建立在此基礎上」
  • 引用圖譜:被 30 個獨立團隊延伸方法,比被 200 篇論文在 related work 提到更有價值
  • 新論文看引用數沒有意義:發表 6 個月內,引用數還沒累積起來

開源復現:沒 code 是負面信號

2025 年之後,不附程式碼已經從「中性」變成「負面信號」。但要注意:有 GitHub 連結但 README 之後零 commit,是已知的表面功夫模式。真正有價值的是能跑起來、有明確 seed 和環境設定的 repo。

2026 年的論文評估工具箱

Papers With Code 於 2025 年 7 月被 Meta 關閉,曾追蹤 79,817 篇論文、9,327 個 benchmark、5,628 個 dataset 的整合體驗不復存在(CodeSOTA 記錄TIB-Blog 報導)。以下是目前可用的替代組合:

工具用途免費
Semantic Scholar引用品質分析(Highly Influential Citations)、TLDR 摘要、200M+ 論文索引
Connected Papers從種子論文視覺化探索相關領域(基於相似度,非引用圖)每月 5 張圖
OpenReview直接看 ICLR 等會議的 reviewer 意見和評分
HF Daily PapersAI 領域每日熱門論文、社群投票
CodeSOTAPWC 精神繼承者,SOTA leaderboard(有復現驗證)
ar5iv / arXiv HTML論文 HTML 版,比 PDF 好讀好搜尋
DBLP確認作者發表紀錄、查會議論文列表

推薦工作流

發現 ─→ HF Daily Papers / Semantic Scholar / X

篩選 ─→ 作者、機構、會議收錄標記

評估 ─→ OpenReview 審稿意見 / S2 引用品質

延伸 ─→ Connected Papers 相關工作 / DBLP 作者紀錄

驗證 ─→ CodeSOTA / GitHub / HF Models 找實作

紅旗清單

論文本體

紅旗為什麼是問題
Related work 引用了不存在的論文AI 生成痕跡,全文可信度歸零
只在自製 dataset 上測試無法與其他方法公平比較
沒有 ablation study不知道哪個組件真正有貢獻
只報告最有利的 metric選擇性報告
沒有 error bar / confidence interval結果可能是隨機波動
Baseline 超過 2 年前比較不公平
宣稱大幅超越 SOTA 但無程式碼無法驗證
Abstract 與 Results 表格數字差距大過度包裝

arXiv 特有陷阱

  • Version bombing:短期內頻繁更新版本,可能在偷偷修正被發現的問題
  • 被移至 general 分類:通常是 moderator 的降級處理
  • 自引灌水:大量引用自己先前的未審查 arXiv 論文
  • 引用卡特爾:一群作者互相引用灌水——依 arXiv 2509.07257 的調查,citation cartel 已是學術出版的系統性問題

ML 可復現性:63.5% 的成功率

依 Raff (2019) 的研究,嘗試獨立復現 255 篇論文的成功率僅 63.5%(Princeton 復現性危機專頁)。主要原因:缺少程式碼、未報告 hyperparameter、random seed 影響、framework 版本差異。

arXiv 2407.12220 列出了 43 種 Questionable Research Practices (QRPs),其中最常見的包括:

  • Train/test leakage:訓練資料汙染了測試集
  • Benchmark contamination:LLM 預訓練時可能已見過 benchmark 資料
  • 不公平 baseline 比較:對自己的模型精心調參,對 baseline 用預設值
  • 選擇性 metric 報告:只報告表現最好的指標

NeurIPS 已採用 ML Reproducibility Checklist,REFORMS framework 則提供了涵蓋 8 個模組、32 項的完整 checklist(arXiv 2308.07832)。

實戰 checklist:讀完一篇 arXiv ML 論文該打的勾

綜合 REFORMS checklist、ML Reproducibility Checklist 和 CodeSOTA 指南

Datasets

  • 使用了該任務的標準 benchmark
  • 資料前處理有足夠細節可復現
  • train/val/test 切分是標準的還是自定義的

Baselines

  • baseline 是近期的(12-18 個月內)
  • baseline 是作者自己跑的,不是從其他論文抄數字
  • baseline 使用了相同的計算預算

Metrics & 統計

  • 報告了該任務的所有標準 metrics
  • 有 error bar 或 confidence interval
  • 有報告計算成本和推理速度

Reproducibility

  • 程式碼公開可用
  • hyperparameter 完整列出
  • 訓練硬體和時長已揭露

Integrity

  • 有 data leakage / contamination 分析
  • 有展示失敗案例(不是只放成功的)
  • limitations 誠實討論了局限性
  • ablation study 測試了所有關鍵組件

依 CodeSOTA 的建議:如果超過 3 項未勾選,將結果視為「初步且未驗證」。

整體來說

判斷 arXiv 論文品質是一種需要練習的技能。核心原則:arXiv 的門檻只擋格式,品質判斷靠你自己

最有效率的做法是從外部信號開始篩(會議收錄、機構、開源),通過初篩的再用 checklist 細看實驗設計。工具會換(PWC 的關閉就是最好的例子),但「看 baseline 是否公平、看 ablation 是否完整、看結果是否可復現」這套判斷邏輯不會變。

參考資料