最近看到一篇非常有意思的论文: 《The Missing Memory Hierarchy: Demand Paging for LLM Context Windows》 论文地址: The Missing Memory Hierarchy: Demand Paging for LLM Context Windows 原文:https://arxiv.org/abs/2603.09023 这篇论文的核心观点非常简单但极具启发性: **LLM 的上下文窗口,本质上是一个没有内存管理系统的“裸内存...
—— OpenAI 如何用 Codex 构建一个 100 万行代码的系统 最近 OpenAI 工程团队分享了一篇非常值得工程师阅读的文章: 原文: https://openai.com/zh-Hans-CN/index/harness-engineering/ 文章讲述了他们进行的一次实验: 构建一个真实的软件产品,但整个代码库没有一行代码是人工编写的。 所有代码,包括: 应用逻辑 测试 CI/CD 文档 运维脚本 *...
SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents arXiv:2602.11210 近年来,Software Engineering Agents(AI 自动修 bug / 改代码)成为一个热门方向,例如: SWE-agent OpenHands Devin 类系统 SWE-bench 等评测体系 但这类系统背后有一个 非常现实的工程问题: 如何为 AI agent 提供可执行代码、运行测试、修...
Structurally Aligned Subtask-Level Memory for Software Engineering Agents Kangning Shen, Jingyuan Zhang, Chenxi Sun et al. arXiv:2602.21611 (2026) 🔗 原论文地址:https://arxiv.org/abs/2602.21611 ✨ 一句话总结 这篇论文解决的是: ❌ 过去:AI 只会“按整道题记经验”,容易误用 ...
1. LLM 最简原理:它在做什么? LLM(Large Language Model)本质上做的是一件事: 给定上下文,预测下一个 token 是什么。 它不断生成 token 并拼接成文本,因此看起来能“对话”“写作”“编程”。底层关键架构是 Transformer,依靠 Attention(注意力机制) 在上下文里动态关注关键信息。 Role:最早期的“角色设定” 最经典、最早期的提示方式是 Role Prompt: “你是一个资深产品经理 / 你是一个资深 SRE / 你是一个代码审查专家……” 它的作用是给模型一个行为边界与输出风格,让回答更贴合领域语境,例如: 语气更专业 输出结构更像行业习惯 更倾向于该角色的关注点(风险、边界、指标等) **局限...
在跨境电商搜索里,多语言相关性一直是个又重要又难搞的问题。 英语模型强,不代表它懂泰语; 懂泰语的模型,可能又看不懂东南亚常见的“混合语言 query”; 而现实世界的用户,偏偏就爱这么搜。 最近一篇来自 Lazada 的论文给了一个非常工程化、可落地的答案: 与其训练一个越来越大的“万能模型”,不如让多个各有所长的大模型协同工作。 这篇文章,我想用尽量少的公式、尽量多的直觉,讲清楚他们到底做了什么,以及为什么这套方案值得做搜索/推荐/广告的团队认真看一眼。 一、...
一句话总结:MixLM 让大模型参与搜索排序不再“贵到用不起”,通过把长文本离线压缩成 embedding token,在线只让 Ranker 看 query + 少量向量,就能把吞吐提升 10×~75×,还保持接近全文本排序的效果。 论文原文 1. 背景:为什么“用 LLM 排序”这么难上线? 很多人做过类似尝试: 把 query + 候选 item(比如职位描述、商品详情、文章正文)拼起来 丢给 LLM 问:“这个 item 和 query 相关吗?” ...
你有没有发现: 大模型(LLM)很强,但做 Agent 任务时经常“踩坑反复踩”、今天学会明天忘? 那有没有一种办法,不训练模型参数,只靠“写更好的上下文”,就能让它持续变聪明? \\> 这正是 ACE(Agentic Context Engineering)要解决的问题。 1. 背景:为什么“上下文工程”越来越重要? 现在很多企业/团队用大模型做: 自动化 Age...
最近读了一篇论文:《Monadic Context Engineering》,名字听起来很学术,但核心思想其实非常工程化。 一句话总结: 用一种“标准化流水线”的方式,把 AI Agent 的状态、报错、异步、并发全部统一管理起来,让系统更稳定、更好维护。 这篇文章用最直白的方式,讲清楚它到底在解决什么问题,以及对我们工程师有什么用。 一、现在的 AI Agent 有什么问题? 如果你写过 Agent 系统,大概率踩过这些坑: 1. 状态乱飞 `python state = update(state) state = update_again(st...