Datawhale干货
编辑: Datawhale团队
构建Karpathy大神同款AI知识库
Karpathy 发了一条推文,分享了他近期重点在用 AI 构建个人知识库,短短两天,全网千万人观看。
“我最近发现一件非常有用的事:用 LLMs 为各种研究主题建立个人知识库。这样一来,我最近的大部分 token 使用量更多地用于处理内容,而不是编写或修改代码。”
然后就在昨天,他公开了整个构建的思路:
思路很简单: 不要把笔记分散在各种应用里,而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。
你也想要打造大神同款AI知识库么?
博主 Nick Spisak 打造了一套保姆级实现教程, 不需要特殊软件,不需要数据库,只要文件夹和文本文件。
第一步:三个文件夹,两分钟搭好
打开终端或文件管理器,在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹:
就这样。这就是 Karpathy 使用的结构:raw/ 文件夹是你的原始素材收纳箱,wiki/ 文件夹是 AI 帮你理出条理的地方,outputs/ 文件夹存放问题的答案。
第二步:不用整理,什么都往里扔
大多数人在这里卡住了。他们创建了文件夹,然后盯着空空如也的 raw/ 目录,不知道该放什么。
答案是:什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件,截图和图表直接保存,从你现在用的任何应用里导出笔记,会议记录、研究论文、项目文档,还有那些囤了几个月的书签,统统扔进去。
别整理、别重命名、别清理,这些活儿都是 AI 的。
我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。
但 Karpathy 没提到真正加速这个过程的部分:自动化收集。
第三步:让AI自动把网页存进来
Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具,让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装:
第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页,提取文本,直接保存到 raw/ 文件夹。
实际操作是这样的:
就这样。AI 打开页面,抓取文章文本,你把它导入到 raw/ 里的文件。不需要手动复制粘贴,不需要浏览器扩展。
agent-browser 能处理那些复制粘贴搞不定的页面:Java 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文,还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。
这个工具比 Playwright MCP 省 82% 的 token,也就是说,同样一轮对话里,你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档,根本不用自己开浏览器。
用在知识库上,流程很简单:看到想要的文章,跟 AI 说一声:「把这个 URL 抓下来存到 raw/」,agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。
第四步:给AI一份说明书,让它知道怎么干
这是大多数人会跳过的部分,别跳过。
在项目根目录创建一个叫 CLAUDE.md 的文件(或 AGENTS.md 或 README.md——名字不重要,内容才重要)。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。
这是一个你现在就可以复制的起始模板:
Karpathy 自己也说了,他的 AGENTS.md 里的 schema “超级简单,完全扁平”:没有数据库,没有插件,只是一个告诉 AI 规则的文本文件。
这个文件相当于我在每个项目中使用 CLAUDE.md 的作用:给 AI 写一份你这个知识库专用的说明书。
第五步:一条指令,AI把笔记编成维基
打开 Claude Code(或 Cursor,或任何能读取文件的 AI 编码工具),打开你的项目文件夹,然后说:
然后走开,让它慢慢跑。
跑完之后你会拿到一个 wiki/ 文件夹,文章都按主题整理好了——帮你串起之前没注意到的关联,补上忘存的内容摘要,再加一份索引文件,想查什么几秒就能找到。
关键是:你不要手动编辑 Wiki,那是 AI 的工作。你只需要阅读它,对它提问,AI 负责更新和维护。
第六步:开始提问,打造活的知识库
一旦你的维基有了 10 篇以上的文章,开始提问:
AI 会读取你的整个维基,根据你自己攒的材料给你答案。
把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好,正循环就转起来了。
第七步:定期检查,不让错误复利
告诉你的 AI:
Karpathy 这条帖子下面,@HFloyd 的回复说到了关键:“当输出被归档回去时,错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它,下一个答案就会跟着错下去。
解决方法很简单:定期运行健康检查。
工具选择:简单胜过复杂
Karpathy 帖子下一半回复都在安利 Obsidian 插件。
但当有人问起他的设置时,Karpathy 实际上说的是:“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”
一个文本文件文件夹和一个 schema 文件就是整个知识库。
我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code,可以用 Obsidian,可以用记事本。
AI 不在乎你用什么应用打开文件,重要的是文件夹结构和 schema。
装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。
扁平文件加一个好的 schema,90% 的场景下比花哨的工具栈管用。
上一篇:跟着AI学车是种什么体验?
下一篇:没有了