← 返回首页
📚 方法论报告

Karpathy's LLM Wiki 方法论深度报告

📅 2026年04月15日 | Andrej Karpathy 原版方法论 | 含 5 个开源实现案例

Karpathy's LLM Wiki 方法论深度报告

作者:Andrej Karpathy(OpenAI 创始成员、Tesla AI 总监、斯坦福 CS231n 课程创始人)
来源:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
生成时间:2026-04-15

一、背景:为什么 RAG 不够用了

当前大多数人使用 LLM + 文档的方式是 RAG(Retrieval-Augmented Generation)

上传一批文件 → 问问题 → LLM 检索相关片段 → 生成答案

RAG 的本质是每次查询都从原始文档重新拼装知识,没有积累。同一个问题问5遍,L LM要重新找5遍相关内容。"好答案"无法沉淀,下次问类似问题又要重来。

LLM Wiki 的核心洞察:让 LLM 在原始文档和用户之间,构建一个持久化、不断增厚的 wiki,新文档进来后直接更新 wiki 里的相关页面,知识编译一次,之后直接用。

二、LLM Wiki 核心理念

"Humans abandon wikis because the maintenance burden grows faster than the value. LLMs don't get bored, don't forget to update a cross-reference, and can touch 15 files in one pass."

>

人类放弃 wiki 是因为维护成本增长快过价值。LLM 不会厌倦,不会忘记更新交叉引用,一次能改15个文件。

与 RAG 的关键对比

维度RAGLLM Wiki
知识存放位置原始文档Wiki(编译后的知识页)
合成时机每次查询时文档摄入时(一次性)
积累性无,每次重头来有,越用越厚
跨文档综合每次重新拼装交叉引用已建立
矛盾检测有(新文档可标注矛盾)
适用规模小规模、一次性问答大规模、长期积累

三、三层架构

Raw Sources(原始文档层)

Wiki(知识层)

Schema(规范层)


四、三个核心操作

Ingest(摄入)

新文档 → LLM 读取 → 与用户讨论要点 → 写摘要页到 wiki → 更新索引 → 更新相关实体/概念页 → 记日志

Query(查询)

提问 → LLM 读索引定位相关页 → 读取页面 → 综合答案 + 引用

Lint(健康检查)

定期让 LLM 检查 wiki 健康度:

- 页面间矛盾说法

- 被新文档 supersede 的旧观点

- 孤立页面(无 inbound links)

- 重要概念未被独立建页

- 缺失交叉引用

- 可通过网络搜索填补的数据空白


五、两个特殊文件

index.md(内容目录)

log.md(时间线日志)


六、推荐工具链

工具用途
ObsidianWiki IDE,可视化 graph view,天然支持 Markdown
Obsidian Web Clipper浏览器插件,一键将网页转 Markdown
qmd本地 Markdown 搜索引擎,BM25/向量混合搜索 + LLM 重排,有 CLI 和 MCP server
MarpMarkdown 幻灯片格式,Obsidian 有插件支持
DataviewObsidian 插件,查 page frontmatter(标签、日期、来源数)生成动态表
GitWiki 就是 Markdown 文件的 git 仓库,版本历史、分支、协作都免费获得
Karpathy 本人的用法:左边 LLM agent,右边 Obsidian。LLM 根据对话做编辑,用户实时浏览结果——跟链接、查看 graph view、读更新后的页面。Obsidian 是 IDE,LLM 是程序员,wiki 是代码库。

七、典型应用场景

1. 深度研究(Research)

连续几周或几个月深入一个主题——读论文、文章、报告,逐步构建一个包含不断演化的论文的综合性 wiki。

2. 读书笔记

每读一章就 filing 一份笔记,构建角色页、主题页、情节线页以及它们之间的联系页。读完全书,你就有了一本丰富的配套 wiki。类似 Tolkien Gateway(托尔金百科),但个人积累。

3. 个人成长

追踪自己的目标、健康、心理、自我提升——filing 日志条目、文章、播客笔记,长期构建一个结构化的自我认知图谱。

4. 商业/团队知识库

内部 wiki 由 LLM 维护,来源包括 Slack 讨论、会议记录、项目文档、客户访谈。LLM 做那些没人想做的维护工作,团队 wiki 始终保持最新。

5. 竞争分析 /尽职调查 /旅行规划 /课程笔记

任何需要长期积累知识、有条理组织的场景。


八、开源实现案例

案例1:Astro-Han/karpathy-llm-wiki ⭐

案例2:atomicmemory/llm-wiki-compiler

案例3:sdyckjq-lab/llm-wiki-skill(中文)

案例4:mduongvandinh/llm-wiki(越南语)

案例5:AgriciDaniel/claude-obsidian


九、为什么现在这个方法论突然重要了

2024-2025 年 Agent 大爆发,LLM 从"回答问题"变成"执行任务、长期维护"。Karpathy 的 LLM Wiki 恰好对应了这个趋势:

1. Agent 需要持久记忆:Agent session 结束后,什么都不记得。Wiki 提供持久层。

2. 长程任务需要知识积累:研究/分析类任务,不能每次都从零开始。

3. 交叉引用是真正的价值:孤立的事实不值钱,事实之间的关系才值钱。

4. 工具已经成熟:Obsidian + Web Clipper + Git + 可选 qmd,整套工具链 2025 年已经非常好用。


十、在我们的场景中如何落地

结合 vad-agents 项目已有的 Skill 生态,可以设计以下工作流:

用户摄入新来源(文章/文档/视频笔记)

Agent 调用 karpathy-llm-wiki skill 的 Ingest 操作

→ 存储到 raw/ 目录

→ 分析来源,提炼要点

→ 更新 wiki/ 中的相关页面(摘要、概念、实体页)

→ 更新 index.md 索引

→ 追加 log.md 日志

用户查询 → Agent Query 操作

→ 读 index.md 定位相关页面

→ 综合答案,附上引用

→ 好答案可写回 wiki 作为新页面

定期 Lint:检查矛盾、孤立页面、缺失链接

已有的 Skill 创作经验(skill-creator)可以快速复用到 llm-wiki skill 开发上。

附:原版 Karpathy 语录

"I have the LLM agent open on one side and Obsidian open on the other. The LLM makes edits based on our conversation, and I browse the results in real time — following links, checking the graph view, reading the updated pages. Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
"This idea is related in spirit to Vannevar Bush's Memex (1945) — a personal, curated knowledge store with associative trails between documents. The part Bush couldn't solve was who does the maintenance. The LLM handles that."