#vision-language-model

2 篇文章

ai deep-dive 2026年5月23日

Midscene.js：押注純視覺的跨平台 UI 自動化框架

字節跳動開源(MIT、約 13k stars)的 UI 自動化框架。UI 動作只靠截圖餵給視覺語言模型(Qwen3-VL / Doubao / Gemini-3 / UI-TARS),不解析 DOM;一套 JS API 跨 Web / Android / iOS / 桌面,v1.0 起更直接移除 DOM 動作模式。代價是每步較慢、token 較貴。

#midscene #ui-automation #vision-language-model #mcp #agent #bytedance

ai deep-dive 2026年5月9日

DeepSeek-OCR：把長上下文壓成圖片的 10× 壓縮實驗

DeepSeek-OCR 的論文題目是 Contexts Optical Compression — OCR 只是手段，真正驗證的是『把文字渲染成圖片再餵給 VLM』能達到 10× 壓縮且 97% 精度。這對長上下文 LLM 與 RAG 的 token 成本是質變。

#ocr #deepseek #vision-language-model #long-context #context-compression #rag