全网爆火的大模型AI知识库,保姆级教程来了
创始人
2026-04-07 02:15:32

Datawhale干货

编辑: Datawhale团队

构建Karpathy大神同款AI知识库

Karpathy 发了一条推文,分享了他近期重点在用 AI 构建个人知识库,短短两天,全网千万人观看。

“我最近发现一件非常有用的事:用 LLMs 为各种研究主题建立个人知识库。这样一来,我最近的大部分 token 使用量更多地用于处理内容,而不是编写或修改代码。”

然后就在昨天,他公开了整个构建的思路:

思路很简单: 不要把笔记分散在各种应用里,而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。

你也想要打造大神同款AI知识库么?

博主 Nick Spisak 打造了一套保姆级实现教程不需要特殊软件,不需要数据库,只要文件夹和文本文件。

第一步:三个文件夹,两分钟搭好

打开终端或文件管理器,在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹:

my-knowledge- base/ raw/ (你的源材料 - 文章、笔记、截图) wiki/ (AI 写入整理后内容的地方) outputs/ (AI 生成的答案、报告和研究)

就这样。这就是 Karpathy 使用的结构:raw/ 文件夹是你的原始素材收纳箱,wiki/ 文件夹是 AI 帮你理出条理的地方,outputs/ 文件夹存放问题的答案。

第二步:不用整理,什么都往里扔

大多数人在这里卡住了。他们创建了文件夹,然后盯着空空如也的 raw/ 目录,不知道该放什么。

答案是:什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件,截图和图表直接保存,从你现在用的任何应用里导出笔记,会议记录、研究论文、项目文档,还有那些囤了几个月的书签,统统扔进去。

别整理、别重命名、别清理,这些活儿都是 AI 的。

我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。

但 Karpathy 没提到真正加速这个过程的部分:自动化收集。

第三步:让AI自动把网页存进来

Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具,让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装:

第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页,提取文本,直接保存到 raw/ 文件夹。

实际操作是这样的:

agent -browser openhttps: //some-article -you -want.com agent -browser gettext "article"

就这样。AI 打开页面,抓取文章文本,你把它导入到 raw/ 里的文件。不需要手动复制粘贴,不需要浏览器扩展。

agent-browser 能处理那些复制粘贴搞不定的页面:Java 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文,还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。

这个工具比 Playwright MCP 省 82% 的 token,也就是说,同样一轮对话里,你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档,根本不用自己开浏览器。

用在知识库上,流程很简单:看到想要的文章,跟 AI 说一声:「把这个 URL 抓下来存到 raw/」,agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。

第四步:给AI一份说明书,让它知道怎么干

这是大多数人会跳过的部分,别跳过。

在项目根目录创建一个叫 CLAUDE.md 的文件(或 AGENTS.md 或 README.md——名字不重要,内容才重要)。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。

这是一个你现在就可以复制的起始模板:

# 知识库 Schema ## 这是什么 一个关于 [你的主题] 的个人知识库。 ## 如何组织 -raw/ 包含未处理的源材料。永远不要修改这些文件。 -wiki/ 包含整理后的维基。完全由 AI 维护。 -outputs/ 包含生成的报告、答案和分析。 ## 维基规则 -每个主题在 wiki/ 中有自己的 .md 文件 -每个维基文件以一段摘要开头 -使用 [[topic-name]] 格式链接相关主题 -在 wiki/ 中维护一个 INDEX.md,列出每个主题及一行描述 -当添加新的原始源时,更新相关的维基文章 ## 我的兴趣点 [列出 3-5 个你希望这个知识库关注的方向]

Karpathy 自己也说了,他的 AGENTS.md 里的 schema “超级简单,完全扁平”:没有数据库,没有插件,只是一个告诉 AI 规则的文本文件。

这个文件相当于我在每个项目中使用 CLAUDE.md 的作用:给 AI 写一份你这个知识库专用的说明书。

第五步:一条指令,AI把笔记编成维基

打开 Claude Code(或 Cursor,或任何能读取文件的 AI 编码工具),打开你的项目文件夹,然后说:

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“

然后走开,让它慢慢跑。

跑完之后你会拿到一个 wiki/ 文件夹,文章都按主题整理好了——帮你串起之前没注意到的关联,补上忘存的内容摘要,再加一份索引文件,想查什么几秒就能找到。

关键是:你不要手动编辑 Wiki,那是 AI 的工作。你只需要阅读它,对它提问,AI 负责更新和维护。

第六步:开始提问,打造活的知识库

一旦你的维基有了 10 篇以上的文章,开始提问:

“基于 wiki/ 中的所有内容,我对 【主题】 理解中最大的三个空白是什么?” “比较源 A和源 B对 【概念】 的说法。它们在哪里有分歧?” “仅使用这个知识库中的内容,给我写一份 500字的 【主题】 简报。”

AI 会读取你的整个维基,根据你自己攒的材料给你答案。

把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好,正循环就转起来了。

第七步:定期检查,不让错误复利

告诉你的 AI:

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”

Karpathy 这条帖子下面,@HFloyd 的回复说到了关键:“当输出被归档回去时,错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它,下一个答案就会跟着错下去。

解决方法很简单:定期运行健康检查。

工具选择:简单胜过复杂

Karpathy 帖子下一半回复都在安利 Obsidian 插件。

但当有人问起他的设置时,Karpathy 实际上说的是:“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹和一个 schema 文件就是整个知识库。

我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code,可以用 Obsidian,可以用记事本。

AI 不在乎你用什么应用打开文件,重要的是文件夹结构和 schema。

装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。

扁平文件加一个好的 schema,90% 的场景下比花哨的工具栈管用。

上一篇:跟着AI学车是种什么体验?

下一篇:没有了

相关内容

热门资讯

“成都造”驱鸟机器人 驱鸟不伤... 转自:成都日报锦观有“眼睛” 长“大脑”“成都造”驱鸟机器人 驱鸟不伤鸟 鸟类是人类的朋友,在...
成都东站连续三天登顶旅客发送量... 转自:成都日报锦观成都东站连续三天登顶旅客发送量榜首 本报讯 (成都日报锦观新闻记者 陈煦阳)...
微信与支付宝余额 游戏、自媒体... 转自:成都日报锦观亲人去世后微信与支付宝余额 游戏、自媒体账号能继承吗? 为回馈姐姐的照料,“...
全国重点零售和餐饮企业日均销售... 转自:成都日报锦观清明假期全国重点零售和餐饮企业日均销售额同比增长2.4% 记者从商务部了解到...
天府机场跻身全球最忙TOP30 转自:成都日报锦观连续两个月上榜天府机场跻身全球最忙TOP30 刚刚过去的3月份,全球哪些机场...