深度|百亿美金AI独角兽Surge AI华裔创始人:不融资、小规模,AI创业的另一种可能
创始人
2025-12-19 14:46:30

图片来源:Lenny's Podcast

Z Highlights

  • 公司可以靠专注深耕、做好研究、打造出色产品成功,不必靠炒作宣传或筹集资金,只要产品足够出色,就能突破所有喧嚣。

  • 我担心的是,我们本应打造能推动人类进步的AI——比如治愈癌症、消除贫困、探索宇宙奥秘等重大问题,但现在却在优化“AI垃圾内容我们本质上是在教模型追逐多巴胺,而非追求真相。

  • 你就是你的目标函数AI发展需要丰富、复杂的核心目标,而非迎合惰性的简单替代指标。

  • 创业者应该打造只有自己能打造的公司,凭借独特洞察力和专业知识,做自己真正关心的事情,追求真正的技术创新。

  • 我们的工作更像养育孩子:你不只是给孩子灌输知识,还要教他们价值观、创造力、审美,以及无数让一个人成为好人的细微品质。我们对AI做的也是同样的事。所以,我把我们的工作看作是关乎人类未来的事业——我们正在养育人类的孩子

Edwin Chen是美籍华裔,MIT数学、计算机科学与语言学背景,曾任职谷歌、Facebook等企业及知名对冲基金,2020年创立AI数据标注公司Surge AI并任CEO,公司零外部融资却营收超10亿美元,服务谷歌等巨头,他是美国最年轻的亿万富豪之一。本次对话由Lenny Rachitsky2025127日发起,深入对话这位零融资的AI创业人。

Surge AI零融资4年营收10亿小团队的反主流创业路径

Lenny Rachitsky今天的嘉宾是Surge AI的创始人兼CEO Edwin ChenEdwin是一位杰出的CEOSurge也是一家非凡的公司。他们是领先的AI数据公司,为每一家前沿AI实验室的模型训练提供支持。同时,他们也是成立后增长最快的公司——仅用四年时间,在不到100名员工、完全自筹资金的情况下,营收就突破了10亿美元,从未从风投那里筹集过一分钱。而且公司从成立第一天起就实现了盈利。正如你将在对话中听到的,Edwin对于如何打造一家有影响力的公司、如何开发真正对人类有益且实用的AI,有着截然不同的见解。我真的很喜欢这次对话,也学到了很多,非常兴奋能让大家听到。

Edwin,非常感谢你能来,欢迎来到播客节目。

Edwin Chen非常感谢你的邀请,我超级兴奋。

Lenny Rachitsky先从你所取得的成就有多惊人说起。很多人和公司都在谈论借助AI实现大规模业务扩张且无需大量员工,但你们的做法是前所未有的。你们用不到四年时间,仅6070名员工,就实现了10亿美元营收,完全自筹资金,从未接受过风投。我相信从来没有人做到过这一点,所以你们实际上实现了人们口中AI将要带来的理想愿景。我很好奇,你认为随着AI的发展,这种情况会越来越普遍吗?另外,AI在哪些方面最能帮你们发挥杠杆作用,从而实现这一成就?

Edwin Chen是的,我们去年营收超过10亿美元,当时员工只有100人。未来几年,我们会看到比例更惊人的公司——比如人均营收1亿美元。AI会变得越来越好,提升效率,所以这种比例是必然的。我以前在多家大型科技公司工作过,一直觉得如果裁掉90%的人,公司运转会更快,因为最优秀的人才不会被各种琐事干扰。所以当我们创办Surge时,就希望打造一家完全不同的公司,组建一支超小而精的团队。而且不可思议的是,我们真的成功了。有两个因素在共同作用:一是人们逐渐意识到,不一定非要打造庞大的组织才能成功;二是AI带来的这些效率提升,它们将开启企业创办的黄金时代。

我感到兴奋的是,未来公司的类型也会发生变化——不仅仅是规模更小,我们还会看到本质上完全不同的公司涌现。想想看,员工更少意味着所需资金更少,资金更少意味着无需融资。所以,未来的创业者将不再是那些擅长推销、擅长炒作的人,而是真正精通技术和产品的人。而产品也将不再是为了迎合营收目标和风投期望而优化,而是由这些小型专注团队打造的更具价值的产品——人们会去做自己真正关心的事情,追求真正的技术创新。所以我真心希望硅谷的创业圈能回归本质,再次成为黑客和创新者的乐园。

Lenny Rachitsky你们在很多方面都采取了反主流的做法,其中之一就是不在LinkedIn上发布爆款帖子,不在Twitter上持续推广Surge。大多数人直到最近才听说过Surge,然后你们突然宣布成为增长最快的公司,营收突破10亿美元。你们为什么要这么做?这肯定是有意为之。

Edwin Chen我们从一开始就不想参与硅谷的这套游戏规则,我一直觉得这套规则很荒谬。你小时候的梦想是什么?是靠自己从零开始创办公司,每天沉浸在代码和产品细节中?还是向风投解释自己的每一个决策,陷入无休止的公关和融资循环?这确实让我们的发展变得更艰难,因为我们唯一能成功的方式,就是打造一款好10倍的产品,然后通过口碑传播。但这也让我们的客户群体变得更精准——他们真正理解数据,也真正重视数据。

我一直认为,早期客户与我们的使命高度契合至关重要,他们真正关心数据质量,也明白高质量数据能让他们的AI模型变得更优秀,因为正是他们在为我们提供反馈,帮助我们优化产品。所以,与客户保持这种紧密的使命一致,实际上在早期帮了我们很大的忙。这些客户购买我们的产品,是因为他们知道产品的独特之处,是因为产品能真正帮到他们,而不是因为在社交媒体上看到了相关宣传。这让我们的路走得更艰难,但却是一种良性的艰难。

Lenny Rachitsky这个故事对创业者来说太有启发了——他们不需要整天在Twitter上推广自己的业务,不需要融资,只需埋头苦干、专注产品。所以我非常喜欢Surge的故事。对于那些不了解Surge的人,能否简单介绍一下Surge是做什么的?

Edwin Chen我们本质上是教AI模型分辨好坏。我们利用人类数据对它们进行训练,推出了很多不同的产品,比如RLHF(基于人类反馈的强化学习)、评估标准(rubrics)、验证工具(verifiers)、模拟环境等等。同时,我们还会衡量模型的进步程度。所以本质上,我们是一家数据公司。

AI数据的高质量:不止是数量,更关乎价值与共鸣

Lenny Rachitsky你经常提到,质量是你们取得成功的关键,也就是数据质量。要创造更高质量的数据,需要付出哪些努力?你们的做法有何不同?人们通常会忽略什么?大多数人都不理解这个领域中质量的真正含义。他们认为只要投入大量人力,就能获得优质数据,但这完全是错误的。

Edwin Chen比如,你想训练一个模型写一首关于月亮的八行诗。什么才能让这首诗成为高质量的作品?如果不深入思考质量的定义,人们可能会这样判断:这是一首诗吗?它有八行吗?里面包含月亮这个词吗?只要满足这些条件,就认为是一首好诗,但这与我们真正想要的完全不同。

我们追求的是顶尖水平的诗歌——这首诗是否独特?是否充满精妙的意象?是否能给你带来惊喜?是否能触动心灵?是否能让你对月光的本质有新的认知?是否能引发情感共鸣、引人深思?这才是我们所理解的高质量。它可能是一首关于水月光影的俳句,可能运用了内韵技巧。描写月亮的诗歌有上千种写法,每一种都能让你对语言、意象和人类表达产生全新的感悟。以这种方式定义质量,难度极大——它难以量化,主观性强,且复杂而丰富,这无疑是极高的标准。

因此,我们必须打造全套技术来衡量这种质量。我们会收集工作者的数千个行为信号,以及每个任务的数千个维度数据。比如,我们能精准判断一个人擅长写诗、写散文还是撰写技术文档。我们不仅会收集工作者的背景和专业领域信息,还会追踪他们完成任务时的实时表现。这些信号会帮助我们判断他们是否适合特定项目,以及是否能为模型优化带来实际价值。这过程极具挑战性,但我们认为这正是AI应该实现的目标。我们对质量有着极其深刻的追求,并且一直在为之努力。

Lenny Rachitsky所以我的理解是,你们会针对不同数据应用场景,深入拆解质量的具体定义。那你们是会聘请极具诗歌天赋的专家,再结合评估体系来判断作品优劣吗?具体运作机制是怎样的?

Edwin Chen具体流程是这样的:我们会收集用户在平台上操作产生的所有数据信号——包括键盘敲击节奏、响应速度、同行评审结果、编码标准合规性等。我们还会用自己训练的模型分析用户产出的内容,判断这些内容是否能提升目标模型的性能。这和Google搜索的工作原理有相似之处。Google判断网页质量时,主要做两件事:一是剔除最差劲的内容,比如垃圾邮件、低质信息、无法加载的页面,这本质上是内容审核的逻辑;二是筛选出最优内容——比如找出最优质的网页,或是最适合某项任务的人。这些人不只是能写出高中生水平诗歌的普通创作者,他们的作品不会机械地满足所有表面要求,而是能带来情感共鸣的佳作。

我们的信号体系也遵循这一逻辑——不同于单纯剔除劣质内容,我们更专注于挖掘顶尖人才和优质产出。就像Google将所有信号输入机器学习算法进行预测一样,我们也会把工作者、任务和项目的所有数据信号纳入分析。归根结底,这是一个复杂的机器学习问题,核心就是通过多维度信号实现精准筛选。

Lenny Rachitsky这太有意思了。问问过去几年一直让我很好奇的事:Claude在编码和写作方面长期领先于其他所有模型,这一点非常令人惊讶。考虑到其中蕴含的巨大经济价值——几乎所有AI编码产品都基于Claude构建,因为它的表现实在太出色了。是什么让Claude能保持这么久的优势?仅仅是训练数据的质量,还是有其他原因?

Edwin Chen原因是多方面的,数据确实是关键因素之一。很多人没有意识到,前沿实验室在选择模型训练数据时,实际上面临着无数种选择。比如:是否完全使用人类数据?以何种方式收集人类数据?收集数据时,具体要求创作者产出什么样的内容?

以编码领域为例,你可能更关注前端编码而非后端编码;在前端编码中,你可能极度重视视觉设计,也可能更看重去中心化金融(DeFi)相关功能或纯粹的代码正确性,而非视觉呈现。还有很多类似的选择:比如合成数据的使用比例、对20多种不同基准测试的重视程度等。有些公司会为了公关目的,即使认为学术基准测试实际意义不大,也会刻意优化模型在这些测试中的表现——因为营销团队需要展示阶段性进展,而行业内其他公司都在谈论这些标准。如果自己的测试成绩不佳,可能会影响业务发展,即便这些测试并不能让模型在实际任务中表现更好。而另一些公司则更有原则,他们不关心营销效果,只专注于模型的实际性能,会基于真实世界的任务进行优化。这其中存在诸多权衡,而且我一直认为,模型的后期训练更像是一门艺术。

它并非纯粹的科学。当你决定要打造什么样的模型、让它擅长什么时,品味专业性会起到关键作用。比如,对于模型在视觉设计方面的表现,不同人有不同的审美:你可能更偏爱极简主义或3D动画,而其他人可能喜欢更复古的风格。在设计训练数据组合时,你必须在这些不同的审美和偏好中做出选择,这也会影响模型的最终表现。所以简而言之,影响模型性能的因素有很多,数据固然重要,但更核心的是你为模型设定的优化目标。

Lenny Rachitsky项目负责人的个人品味会影响数据的选择和输入,这也凸显了优质数据的价值。Anthropic正是凭借更好的数据实现了快速增长和成功。

Edwin Chen没错,完全如此。

Lenny Rachitsky我现在明白为什么你们这样的公司能发展得这么快了。这仅仅是编码一个领域,写作领域可能也存在类似的逻辑。AI给人的感觉是冰冷的二进制计算,但实际上,人类的品味和判断仍然是其成功的关键因素,这一点真的很有趣。

Edwin Chen再回到之前的诗歌例子:有些公司判断一首诗是否优秀,只会机械地核对清单上的所有要求,但这并不能造就好诗。而那些更有品味和专业性的前沿实验室,会意识到质量无法简化为固定的checklist,他们会考虑所有这些隐含的、精妙的特质。这正是他们的模型更出色的原因。

AI行业发展的关键思考

Lenny Rachitsky说到基准测试,很多人都有这样的疑问:现在很多模型在几乎所有STEM领域都表现得比人类更好,但对普通人来说,这些模型似乎并没有变得越来越智能。你对基准测试的可信度怎么看?它们与AI的实际进步相关性有多高?

Edwin Chen我完全不相信基准测试,主要有两个原因。

第一,很多人(包括行业内的研究人员)没有意识到,这些基准测试本身往往存在错误——比如答案不准确、数据混乱。对于一些热门测试,人们可能已经发现了部分问题,但绝大多数测试都存在未被察觉的缺陷。

第二,这些基准测试通常有明确的客观答案,这使得模型很容易通过钻空子的方式优化得分,而这与现实世界中问题的复杂性和模糊性完全不同。比如,模型能赢得国际数学奥林匹克竞赛(IMO)金牌,却难以解析PDF文件。这是因为尽管IMO金牌看起来难度极高,但它的评价标准是明确的、客观的,而解析PDF往往缺乏统一标准,充满不确定性。

因此,前沿实验室更容易在这些基准测试中取得高分,却难以解决现实世界中那些复杂模糊的问题。所以基准测试与AI的实际进步之间缺乏直接关联。

Lenny Rachitsky你这么说很有道理。击中这些基准测试目标,某种程度上就像是一种营销手段。比如Gemini3刚发布时,就在所有基准测试中排名第一。他们是不是只是训练模型在这些特定测试中表现出色?

Edwin Chen是的,这可能有两个原因。一方面,有些基准测试存在数据泄露问题,或者前沿实验室会调整评估方式——比如修改系统提示词、调整模型运行次数等,以此操纵测试结果。另一方面,当你专注于优化基准测试表现而非现实世界任务时,模型自然会在这些测试中取得高分。

Lenny Rachitsky这本质上是另一种钻空子的方式。考虑到这一点,你如何判断我们是否在朝着AGI的方向发展?又该如何衡量这种进展?

Edwin Chen我们真正重视的模型进展衡量方式,是通过开展各类人工评估。比如,我们会让人工标注员与对话模型进行交互——标注员可能会以不同身份围绕多个话题展开对话:比如作为诺贝尔物理学奖得主,讨论自己研究领域的前沿问题;作为教师,沟通学生课程计划的设计;或是作为大型科技公司的程序员,解决日常工作中遇到的技术难题。这些标注员都是各自领域的顶尖专家,他们不会轻易接受模型的回复,而是会深入钻研、反复验证——他们会评估模型编写的代码,仔细核对它给出的物理公式,从多个维度深度评估模型的表现,比如准确性、指令遵循度等,这些都是普通用户不会关注的点。普通用户在ChatGPT弹出比较两个回复的提示时,往往不会深入评估,只是凭感觉选看起来最花哨的回复;而我们的标注员会仔细审视每一个细节,全面考量模型的各项性能。所以这种方式比基准测试或随机的在线评估要可靠得多。

Lenny Rachitsky我很认同人类依然是核心——这项工作还远未结束。未来会不会有一天,我们不再需要这些人工标注员?比如AI变得足够智能,能自行完成所有事情?

Edwin Chen除非我们真正实现AGI,否则这种情况不会发生。从定义上来说,在AGI实现之前,模型总有需要学习的东西,所以短期内不会出现这种情况。

Lenny Rachitsky好的,那我们暂时不用为AGI的到来过度焦虑。作为长期深耕该领域的专业人士,你对AGI的时间线有何看法?我们距离它还有多久?是几年还是几十年?

Edwin Chen我个人更倾向于较长的时间线。很多人没有意识到,模型性能从80%提升到90%99%99.9%,每一步的难度都呈指数级增长。在我看来,未来一两年内,模型可能会自动化完成普通L6级软件工程师80%的工作;再用几年时间,这个比例可能提升到98%;之后再用几年达到99%,以此类推。所以我们距离AGI还有几十年的时间。

Lenny Rachitsky你有一个很尖锐的观点——很多前沿实验室在推动AGI的方向上是错误的。这一观点基于你在TwitterGoogleFacebook的工作经历,能具体谈谈吗?

Edwin Chen我担心的是,我们本应打造能推动人类进步的AI——比如治愈癌症、消除贫困、探索宇宙奥秘等重大问题,但现在却在优化“AI垃圾内容。我们本质上是在教模型追逐多巴胺,而非追求真相。这和我们之前讨论的基准测试问题息息相关。我举几个例子。目前行业内有很多糟糕的数据排行榜,比如LM Arena。这是一个热门的在线排行榜,全球用户可以投票选出他们认为更好的模型回复。但问题在于,就像我之前说的,这些用户不会仔细阅读或核查内容,往往只看两秒钟就选看起来最花哨的回复。模型可能完全生成虚假信息,但只要用了夸张的表情符号、花哨的排版和Markdown标题等表面功夫,就能吸引注意力,受到普通用户的喜爱。

这本质上是在让模型迎合那些在杂货店买八卦小报的人。我们自己的数据也显示,在LM Arena排名上升最快的方法,就是增加花哨的排版、加倍使用表情符号、延长回复长度——即便模型开始生成虚假信息、完全答错问题也无所谓。问题在于,所有前沿实验室都不得不关注公关。他们的销售团队在向企业客户推销时,客户可能会说你们的模型在LM Arena上只排第五,我为什么要购买?因此,实验室在某种程度上必须重视这些排行榜。研究人员经常告诉我们,年底想升职,就必须在这些排行榜上提升名次——即便我知道这样做会让模型的准确性下降,理解能力变差所以这些负面激励正在将AI发展推向错误的方向。

我还担心AI优化过度偏向用户参与度。我以前在社交媒体行业工作过,每次我们优化用户参与度,都会出现糟糕的结果——等充斥着用户的信息流。我担心AI领域也会发生同样的事情。比如ChatGPT的一些问题——它总是说你提的问题太棒了,最容易吸引用户的方式就是不断夸赞他们。这些模型会一直告诉你你是天才,迎合你的妄想和阴谋论,把你带入各种信息茧房。因为硅谷热衷于最大化用户使用时长和对话次数,所以公司们都在花时间破解这些排行榜和基准测试,分数不断上升,但实际上,那些得分最高的模型往往存在最严重的根本性缺陷。这一点让我非常担忧,这些负面激励正在把AGI推向错误的方向。

Lenny Rachitsky所以你的意思是,AGI的发展之所以受阻,是因为实验室采用了错误的目标函数,过度关注了不合适的基准测试和评估方式?没错。我知道你可能因为和所有实验室都有合作而不便偏袒,但有没有哪家实验室在这方面做得更好,意识到了当前方向的问题?

Edwin Chen我一直对Anthropic印象深刻。Anthropic在做事的原则性上非常突出——他们明确知道自己该关注什么、不该关注什么,对模型的行为准则有更清晰的坚守,这一点在我看来更具原则性。

Lenny Rachitsky你认为实验室还在犯哪些重大错误,导致AGI发展放缓或方向跑偏?除了我们刚才聊到的追逐基准测试、过度关注用户参与度,还有没有其他你觉得我们应该立刻着手解决,才能加速AGI进程的问题?

Edwin Chen这涉及到他们正在打造的产品本身——这些产品究竟是在帮助人类,还是在伤害人类。我经常思考Sora这个产品,它的出现意味着什么?哪些公司会开发Sora这样的产品?答案可能揭示了这些公司想要打造什么样的AI模型,以及他们想要实现的未来方向。这是我一直在思考的问题。

Lenny Rachitsky支持方的观点是,Sora很有趣,用户需要它,能为公司带来收入,进而用于开发更好的模型,还能收集独特的训练数据——而且它确实很有娱乐性。

Edwin Chen核心问题在于你是否在乎实现目标的过程。我之前用八卦小报做过类比:你会为了资助一份严肃报纸,而去卖八卦小报吗?从某种意义上说,如果你不在乎过程,就会不择手段,但这样做可能会产生负面后果,损害你长期想要实现的目标,甚至让你偏离更重要的事情。所以实现目标的路径同样重要。

创业初心与AI技术新探索——聚焦不可替代的价值创造

Lenny Rachitsky说到这里,我们聊了很多硅谷的问题——比如筹集大量资金的弊端、回音室效应等。你把这称为硅谷机器。你认为用这种方式很难打造有影响力的公司,不走风投路线可能会更成功。结合你的经历,能给创业者一些建议吗?因为他们总是听到要从顶级风投那里融资”“搬到硅谷之类的说法,你的反主流观点是什么?

Edwin Chen我一直非常反感硅谷的各种成功准则。所谓的标准操作手册是:每两周调整一次方向以找到产品市场契合点,用各种灰色手段追逐增长和用户参与度,快速扩张团队、尽可能多地招聘人才。我一直不同意这种做法。我的建议是:不要频繁调整方向,不要盲目扩张团队,不要招聘那些只想在热门公司刷简历的斯坦福毕业生。

专注打造只有你能打造的产品——那种凭借你的独特洞察力和专业知识才能实现、没有你就不会存在的产品。现在有很多跟风型公司:2020年做加密货币,2022年转向NFT,现在又转型AI。他们没有坚定的使命,只是在追逐估值。我一直很反感这种做法,因为硅谷总嘲笑华尔街只关注金钱,但实际上,硅谷的很多公司也在做同样的事情。而我们从成立第一天起就专注于自己的使命——不断突破高质量复杂数据的前沿。

我一直这么认为,因为我对创业公司有着非常浪漫的构想。创业本应是为了你真正相信的事情承担巨大风险——如果你频繁调整方向,就不是在冒险,只是想快速获利。如果因为市场尚未准备好而失败,我反而觉得这更好。至少你为一件深刻、新颖且艰难的事情奋力一搏,而不是转而创办另一家跟风的公司。

要打造真正有意义、能改变世界的东西,唯一的方法就是找到一个你坚信的大想法,然后拒绝所有其他干扰。所以,不要在遇到困难时就轻易转型,不要像其他千篇一律的创业公司那样,雇佣10个产品经理。你只需要专注打造那家没有你就不会存在的公司。现在有很多人和资本都厌倦了那些投机取巧的人,他们想和真正在乎的人一起做有意义的大事。我希望这会成为未来科技创业的主流。

Lenny Rachitsky我最近正在和Terrence Rohan合作一篇文章,他是BBC的,我很喜欢和他共事。我们采访了五位早期加入具有时代意义的成功公司的员工——比如在OpenAI还未被看好时加入,在Stripe还不为人知时加入。我们在寻找他们提前发现这些伟大公司的共性,结果发现这和你描述的完全契合:远大的抱负。他们对自己想要实现的目标有着极致的追求,而不是像你说的那样,为了找到产品市场契合点而随波逐流。所以我非常认同你的观点。

Edwin Chen是的,我绝对认为你必须有远大的抱负,必须坚信自己的想法能改变世界,并且愿意全力以赴、不惜一切代价去实现它。

大语言模型能带领我们实现AGI甚至超越AGI吗?

Lenny Rachitsky你的观点和很多人听到的主流说法完全相反,我很庆幸我们能做这次访谈,也很开心能分享你的故事。

我们稍微换个话题,聊另一个反主流的观点。如果你看过Dwarkesh PatelRichard Sutton的播客,就会知道他们的核心观点——Richard Sutton是著名的AI研究者,他提出了痛苦的教训bitter lesson)这一热门话题,认为大语言模型本质上是一条死胡同,由于其学习方式的限制,我们在大语言模型领域会陷入停滞。你怎么看?你认为大语言模型能带领我们实现AGI甚至超越AGI吗?还是说需要新的重大突破才能实现这一目标?

Edwin Chen我属于需要新突破的阵营。我是这样理解的:谈到AI训练,我倾向于从类似生物学的角度思考——人类的学习方式有上百万种,我们需要打造能模仿所有这些学习方式的模型。它们可能在学习侧重点的分布上与人类不同,但核心是要能模仿人类的学习能力,确保模型的算法和数据能支持它们以类似人类的方式学习。而目前的大语言模型,其学习方式与人类存在差异,所以需要新的突破。

Lenny Rachitsky这和强化学习(reinforcement learning)有关。这是你正在研究的领域,我也越来越多地听到它在模型后期训练中变得越来越重要。你能帮大家解释一下,什么是强化学习和强化学习环境(RL environments)?为什么它们在未来会越来越重要?

Edwin Chen强化学习本质上是通过奖励机制训练模型达成特定目标。我来解释一下强化学习环境(RL environments):它本质上是现实世界的模拟场景。你可以把它想象成一个带有完整虚拟世界的电子游戏——每个角色都有真实的背景故事,每个企业都有可调用的工具和数据,所有不同的实体之间都能相互交互。比如,我们可能会构建一个这样的场景:一家初创公司,拥有Gmail邮件、Slack聊天记录、Jira任务、GitHub代码库和完整的代码基底,然后突然AWSSlack同时宕机。这时我们会对模型说:现在该怎么办?模型需要自己想办法解决问题。

我们在这些环境中给模型布置任务,设计有趣的挑战,观察它们的表现,然后通过奖励或惩罚来指导它们——做得好就给予正向反馈,做得不好就给予负向反馈。有趣的一点是,这些环境能真实暴露模型在现实世界复杂任务中的优缺点。很多模型在孤立的基准测试中表现得非常聪明——比如擅长单步工具调用、单步指令遵循,但一旦把它们扔进这些混乱的场景中——面对杂乱的信息、从未见过的工具,需要执行正确的操作、修改数据库,并且在长期时间跨度内保持行为一致性(第一步的操作会影响第五十步的结果)——它们就会以各种疯狂的方式遭遇灾难性失败。这些环境本质上是模拟现实世界的训练场,能帮助模型更好地应对真实任务,而不是在人为设计的环境中表现出色。

Lenny Rachitsky我试着想象一下这个场景——本质上就像一个虚拟机,里面有浏览器、表格之类的工具,比如……你们的网站是surgehq.ai,大家可以去看看,他们正在招聘AI相关人才。好的,所以这个场景就像:这是surgehq.ai,你的任务是确保网站正常运行,突然网站宕机了,你的目标是找出原因并修复它。这就是一个例子吗?

Edwin Chen是的。任务目标可能是找出宕机原因并修复,而判断成功的标准可能是通过一系列单元测试,或者生成一份包含准确事件经过的复盘文档。我们会设置各种不同的奖励机制,来判断模型是否成功完成任务。本质上,我们就是在教模型如何获取这些奖励。

Lenny Rachitsky所以核心就是:给模型一个目标(比如找出网站宕机原因并修复),让它自由尝试,利用所有已有的智能,允许它犯错,在过程中给予指导,做对了就给予奖励。你描述的这一切,是不是意味着模型的下一个进化阶段——更专注于强化学习环境,聚焦于具有经济价值的特定任务?

Edwin Chen没错。就像过去模型有多种学习方式——最初是有监督微调(Sft)和基于人类反馈的强化学习(RLHF),后来又出现了评估标准和验证工具,强化学习环境是下一个阶段。这并不意味着之前的方法会过时,它只是一种新的学习形式,能补充之前的所有方法。就像小说家会不断学习新的写作技巧一样。

Lenny Rachitsky这么说的话,现在不再是物理学博士坐着和模型对话、纠正它、给出正确答案、制定评估标准,而更多是专家设计这样的环境。另一个例子是金融分析师:给模型一个Excel表格,目标是算出损益表。所以专家现在的工作,不再是单纯编写评估标准,而是设计这些强化学习环境。这两者都很重要,对吧?

Edwin Chen完全正确。比如金融分析师可能会创建一个表格,设计模型需要调用的工具——比如模型需要访问Bloomberg的终端,学会使用计算器,完成特定的计算。模型可以使用所有这些工具,而奖励机制可能是:下载表格后,检查E22单元格是否包含正确的损益数据,或者第二个标签页是否有特定的信息。

Lenny Rachitsky这很有意思,因为这和人类的学习方式非常接近——我们不断尝试,找出有效的方法和无效的方法。你提到轨迹在这其中非常重要,不仅仅是给出目标和结果,更要关注过程中的每一步。你能解释一下什么是轨迹,以及它为什么如此重要吗?

Edwin Chen很多人没有意识到,有时候模型虽然达成了目标,但过程却非常荒谬。比如在中间过程中,它可能尝试了50次都失败了,最后只是随机蒙对了答案;或者它的做法非常低效,甚至是投机取巧才得到正确结果。所以关注模型达成目标的轨迹(即过程),其实是非常关键的一点。轨迹之所以重要,还因为有些轨迹可能非常漫长。如果只关注模型是否达成最终目标,就会遗漏它在中间过程中的所有行为信息。比如,有时你希望模型通过反思自身行为得出正确答案,有时希望它通过快速迭代实现目标。如果忽略这些过程,就像教学中只看结果,却遗漏了很多本可以用来指导模型优化的关键信息。

Lenny Rachitsky我很认同这个观点——模型尝试了很多方法最终才做对,但你不希望它学会这种低效的路径,通常存在更高效的解决方式。你见证了模型优化的整个发展历程,也一直深耕这个领域,分享这些内容对大家会很有帮助。从最初的后期训练到现在的强化学习环境,评估在其中扮演了什么角色?整个发展脉络是怎样的?我们现在为何会朝着强化学习环境的方向发展?

Edwin Chen最初,模型的后期训练完全依赖有监督微调(SFT)SFTsupervised fine tuning的缩写。我习惯用人类学习的类比来解释:有监督微调就像模仿大师——复制他们的做法。后来,基于人类反馈的强化学习(RLHF)成为主流,这就像你写了55篇不同的文章,有人告诉你他们最喜欢哪一篇,你从中学习。过去一年左右,评估标准和验证工具变得非常重要——这就像通过评分获得详细反馈,知道自己哪里出错了。

Lenny Rachitsky这些都属于评估的范畴,对吧?

Edwin Chen是的。评估通常包含两层含义:一是用于训练的评估——判断模型表现是否良好,表现好就给予奖励;二是用于衡量模型进展的评估——比如有5个候选模型版本,通过评估选出最优版本向公众发布。现在,强化学习环境成为了热门的新技术。

Lenny Rachitsky太精彩了。你们的商业发展历程很有意思,总是在不断创新——先是为企业提供高质量数据,现在又为他们搭建虚拟环境以满足各种不同的使用场景。这似乎是你所在行业的核心特质:不断适应前沿实验室的需求。

Edwin Chen没错。我们需要打造一套能覆盖人类所有学习方式的产品。比如,成为一名优秀的作家,不是靠死记硬背语法规则,而是通过阅读好书、反复练习写作、获取老师和读者的反馈、观察哪些写法有效哪些无效,同时通过接触杰作和劣质作品培养审美。这个过程是练习、反思的循环,每种学习方式都截然不同。就像优秀作家的成长需要上千种方法一样,模型的学习也需要上千种不同的路径。

Lenny Rachitsky这太有意思了,模型的优化过程越来越像人类了。这其实很合理,因为神经网络和深度学习本身就是模仿人类的学习方式和大脑运作机制设计的。但要让模型变得更智能,核心竟然是让它们更接近人类的学习模式。

Edwin Chen是的,或许最终目标就是把模型投入到模拟环境中,观察它们的进化过程,而在这个进化过程中,会包含各种不同的子学习机制。

Lenny Rachitsky这正是我们现在正在做的事情,真的很有意思。这可能是实现AGI之前的关键一步。我了解到surge有一个独特之处:你们拥有自己的研究团队,这在同类公司中似乎很罕见。能谈谈你们为何要投入资源组建研究团队,以及这项投入带来了哪些成果吗?

Edwin Chen这源于我的个人背景——我本身是一名研究者,所以我一直重视推动行业和研究社区的发展,而不仅仅是追求营收。我们的研究团队主要负责两方面工作:一方面是落地型研究者,他们与客户紧密合作,帮助客户理解自己的模型——比如分析模型当前的表现、与竞争对手的差距、未来的优化方向,并设计数据集、评估方法和训练技术,助力客户模型升级。这种合作模式非常紧密,我们更像是客户的专属研究伙伴,只是更聚焦于数据层面,全力以赴帮助他们实现最优表现。

另一方面是内部研究者。内部研究者的关注点略有不同,他们主要致力于打造更好的基准测试和排行榜。我之前多次提到,现在的排行榜和基准测试正在将模型推向错误的方向,所以我们的研究团队目前正重点解决这个问题。此外,他们还在研究其他方向,比如哪种类型的数据表现最佳、哪些工作者最适合特定任务,以及开发更高效的训练技术、评估内部数据集,以优化我们的数据运营和内部数据产品——核心是明确高质量的定义和标准。

Lenny Rachitsky这真的很特别。前沿实验室通常有自己的研究者推动AI发展,而像你们这样的公司,竟然也有研究者从事AI基础研究,这确实很少见。

Edwin Chen这只是因为我一直很在意这件事。我常常把我们公司看作研究机构而非创业公司,这是我的目标。有点好笑的是,我一直说,比起巴菲特,我更想成为Terence Tao那样的人。推动研究前沿、创造有价值的研究成果,而非仅仅追求估值,这一直是我的驱动力。

Lenny Rachitsky而且这也取得了很好的效果,这太美好了。你提到你们正在招聘研究者,有什么想对求职者说的吗?

Edwin Chen我们寻找的是那些从根本上对数据感兴趣的人——他们愿意花10个小时钻研一个数据集、摆弄模型,思考模型在这里失败了”“模型应该有怎样的表现。这种动手能力强、关注模型定性表现(而非仅仅定量指标)的人。简单来说,就是真正愿意深入数据,而不只是关注抽象算法的人。

AI领域的未来

Lenny Rachitsky太棒了。问问几个关于AI市场的宏观问题。未来几年,你认为AI领域会出现哪些人们没有充分意识到或预料不到的发展趋势?哪些方向会变得至关重要?

Edwin Chen未来几年,模型会因为不同实验室的特质”“行为准则目标函数而变得越来越差异化。一年前我还没有意识到这一点——当时所有AI模型最终都会变得高度同质化,行为模式趋同。或许某个模型今天在某个方面略胜一筹,但其他模型几个月内就会赶上。

但过去一年我意识到,公司的价值观会塑造模型的表现。我举个例子。前几天我让Claude帮我写一封邮件,它改了30个版本。30分钟后,我终于得到了一封完美的邮件并发送了出去,但后来我意识到,我花了30分钟做了一件完全无关紧要的事。没错,邮件是完美了,但我之前根本不会为这种事花费30分钟,而且这封邮件可能也不会带来任何实际影响。这引出了一个深层问题:如果你能选择模型的完美行为,你想要什么样的模型?是那种告诉你你说得对,这封邮件还有20种优化方式,然后继续迭代50次、耗尽你时间和精力的模型?还是那种以你的时间和效率为优化目标,告诉你够了,你的邮件已经很好了,发送出去继续你的一天的模型?

同样,对于模型面临的所有问题,你希望它呈现的行为模式,都会从根本上影响模型的发展方向——这就像一个岔路口,不同的选择会导致截然不同的模型特质。这就像GoogleFacebookApple打造搜索引擎的方式会截然不同一样——它们都有自己的原则、价值观和想要实现的目标,这些都会塑造它们的产品。同样,未来所有AI模型的行为模式也会变得非常不同。

Lenny Rachitsky这太有意思了。Grok已经呈现出了非常独特的个性和回答风格,所以你的意思是,这种差异化会越来越明显?

Edwin Chen是的。

Lenny Rachitsky再问一个相关的问题:你认为AI领域有哪些被低估但非常有价值、人们谈论不够的方向?又有哪些被过度炒作的领域?

Edwin Chen被低估的方向之一,是所有聊天机器人即将具备的内置产品功能。我一直很喜欢Claude“Artifacts”功能,它的体验非常好。前几天,我不知道这是不是新功能,Claude帮我写邮件时,生成了一个小模块——虽然不能直接发送邮件,但我可以点击这个模块,直接把信息以短信形式发给别人。

这种将Artifacts升级为聊天机器人内置迷你应用、迷你用户界面的概念,人们谈论得不够多,这是一个被低估的领域。而被过度炒作的领域,我肯定会说是“AI生成代码。人们没有意识到,从长远来看,这种现在看似能用就直接把代码扔进数据库的做法,会让系统变得难以维护。我有点担心未来还会继续出现这种情况。

Lenny Rachitsky这些回答太精彩了。关于第一个点,我其实采访过AnthropicOpenAI的首席产品官Kevin WheelMike Greger,我问他们:作为产品团队,你们已经拥有如此强大的AI智能,未来还需要产品团队吗?AI会不会直接根据用户需求创建产品、并在使用过程中持续迭代优化?这就像是“AI生成代码的进阶版——只需告诉AI你的需求,它就能打造产品。这似乎就是你所描述的未来方向。

Edwin Chen是的。这个概念非常强大,它能帮助人们更快地将想法转化为现实。

Lenny Rachitsky我们还没聊到你创立Surge的背景故事,这其实非常有意思。Coinbase的创始人Brian Armstrong曾经做过一场让我印象深刻的演讲,他提到自己独特的背景——经济学背景、密码学经验加上工程师身份,这种完美交集让他能够创立Coinbase。你的经历和他很相似,能谈谈你的背景如何引领你创立Surge吗?可以追溯到更早的时候。

Edwin Chen我小时候就对数学和语言非常着迷。我去MIT读书,不仅因为它是数学和计算机科学领域的顶尖学府,还因为Noam Chomsky在那里任教。我上学时的梦想,是找到一种能连接这些不同领域的底层理论。后来我在GoogleFacebookTwitter担任研究员,反复遇到同一个问题:想要训练模型,却始终无法获得所需的数据。所以我一直坚信,高质量数据是AI发展的核心需求。

2020GPT-3发布后,我意识到,如果我们想让AI更上一层楼——打造能编码、使用工具、讲笑话、写诗、解决数学问题甚至治愈癌症的模型,就需要一套全新的解决方案。在这些大公司工作时,最让我抓狂的是:我们明明拥有人类的智慧潜力,却把大量精力放在图像标注这类简单任务上。打造的产品,是专注于这些高级复杂的使用场景,真正助力下一代AI模型的发展。所以,我在数学、计算机科学和语言学交叉领域的背景,一直指引着我的方向。一个月后,我创立了Surge,使命就是打造那些能推动AI前沿发展的核心功能。

Lenny Rachitsky你说一个月后,是指在什么之后?

Edwin Chen2020GPT-3发布一个月后。

Lenny Rachitsky,真是个伟大的决定。除了已经取得的巨大成功,现在是什么在驱动你继续打造Surge、深耕这个领域?

Edwin Chen我本质上是个科学家。我以前一直以为自己会成为一名数学或计算机科学教授,致力于探索宇宙、语言和沟通的本质。有点好笑的是,我一直有个不切实际的梦想:如果外星人来访地球,我们需要与他们沟通,我希望自己能被政府召集,运用复杂的数学、计算机科学和语言学知识破译他们的语言。

直到今天,我最喜欢做的事情仍然是:每当有新模型发布,我们都会对它进行深度分析——我会亲自试用模型、运行评估、对比它的进步和不足,然后撰写详细的分析报告发送给客户。有意思的是,很多时候我们会说这是数据科学团队的工作,但实际上这更多是为了满足我自己的好奇心。我可以一整天都做这件事,却很难忍受整天开会。我不擅长销售,也不擅长做那些人们期望CEO做的典型工作,但我喜欢写分析报告、和研究团队一起钻研,常常会和研究团队打电话到凌晨3点,讨论模型训练的细节。我很庆幸自己还能整天亲手处理数据、做数据科学相关的工作。驱动我的核心目标是,让SurgeAI的未来(这也是人类的未来)中扮演关键角色。我们在数据、语言、质量定义以及如何衡量和引导AI发展方向上,拥有独特的视角。

而且我们没有受到那些可能将公司引向负面方向的因素约束——就像我之前说的,Surge更像一个研究实验室,而非典型的创业公司。我们重视好奇心、长期激励和学术严谨性,而不太在意季度指标或董事会报告上的表面成绩。我的目标是利用公司这些独特的特质,确保我们正在以对人类有益的方式塑造AI的发展。

Lenny Rachitsky通过这次对话,我意识到你和你们这样的公司,对AI的发展方向有着巨大的影响力。你们帮助前沿实验室发现自身不足、明确改进方向,而不仅仅是OpenAIAnthropic这些公司的负责人在引领AI发展。你其实在很大程度上影响着AI的未来走向。

Edwin Chen是的。这是一个非常强大的生态系统——说实话,人们还不确定AI模型会走向何方,也不确定人类在其中应该扮演什么角色。所以,我们有很多机会继续塑造这场关于AI未来的讨论。

Lenny Rachitsky顺着这个话题,我知道你对这项工作为何对人类至关重要有非常深刻的见解,能谈谈吗?

Edwin Chen我可能会有点哲学化,但这个问题本身就带有哲学意味,所以请耐心听我说完。从最直接的角度来说,我们的工作是训练和评估AI。但我经常思考一个更深层次的使命:帮助客户明确他们的理想目标函数”——他们希望自己的模型成为什么样的存在?一旦帮助他们明确了这一点,我们就会协助他们训练模型、衡量进展。

但这非常困难,因为目标函数是丰富而复杂的,就像养育孩子:你是简单地要求他们通过考试(比如高中考试、SAT、写出优秀的大学申请文书),还是希望他们成长为什么样的人?无论他们做什么,只要开心就好?还是希望他们考上好学校、经济上取得成功?更进一步说,你如何定义幸福?如何衡量他们是否幸福、是否经济成功?这比单纯衡量SAT高分要难得多。我们所做的,就是帮助客户找到他们的理想北极星,并想办法衡量它。就像我之前举的例子:当你让模型修改50次邮件时,你是希望它继续迭代50次,还是希望它告诉你够了,邮件已经足够好,继续你的一天

更宏观的问题是:我们正在打造的这些系统,是否真的在推动人类进步?我们如何构建数据集来训练AI朝着这个方向发展,并衡量它的进展?我们是否在优化错误的目标——比如打造那些占用我们更多时间、让我们变得越来越懒惰的系统?这与我们的工作息息相关,因为衡量和定义什么是真正推动人类进步非常困难,而衡量点击量、点赞数这些替代指标却很容易。

但这正是我们工作的意义所在——我们希望专注于那些艰难而重要的指标,这些指标需要最高质量、最复杂的数据,而不是简单易得的数据。我常说:你就是你的目标函数。我们需要的是丰富、复杂的目标函数,而非简单化的指标。我们的工作,就是找到与这些目标函数相匹配的数据。所以,我们追求的是真正有价值的数据。

我们需要的指标,是能衡量AI是否让生活更丰富的指标。我们要这样训练系统,打造能激发好奇心和创造力的工具,而不只是让人变懒的工具。但这很难,因为人类本质上有点惰性。AI产品最容易通过迎合惰性获得用户参与度,让各项指标好看。所以,选择正确的目标函数、确保优化方向对准这些核心目标而非简单的替代指标,对我们的未来至关重要。

Lenny Rachitsky你分享的这些内容,让我更深刻地理解了AI研发、训练背后的复杂性,也更认可你所做的工作。外界可能会觉得Surge这类公司只是在生成数据、投喂AI,但显然其中有太多不为人知的深度思考。很高兴能有你这样的人引领这个领域,想得如此透彻。最后再问一个问题:创立Surge之前,有什么是你希望自己早知道的?很多人创业时都不清楚自己要面对什么,你有什么想对过去的自己说的?

Edwin Chen我真希望当时知道,公司可以靠专注深耕、做好研究、打造出色产品来成功,而不必靠频繁发推特、炒作宣传或筹集资金。有点好笑的是,我以前从没想过要创业。我热爱研究,一直很欣赏DeepMind——他们是一家超棒的研究型公司,被收购后依然能持续产出顶尖科研成果。但我总觉得他们是特例,以为自己创业后就得变成整天看财务报表、开不完会的商人,做那些特别无聊且讨厌的事。但没想到根本不是这样,我现在依然每天深入数据细节,乐在其中。我喜欢做分析、和研究团队交流,这本质上就是应用研究——我们搭建这些强大的数据系统,正是为了推动AI的前沿发展。

是的,我希望当时能知道:不必把所有时间都花在融资上,不必持续炒作,不必强迫自己变成另一个人。只要产品足够出色,就能突破所有喧嚣,这样的公司是能成功的。如果当时知道这一点,我会更早创业。希望这些能给其他人一些启发。

Lenny Rachitsky这真是个完美的收尾,太精彩了。这段对话会激励很多创业者,尤其是那些想不走寻常路的创业者。进入激动人心的快问快答环节前,你还有什么想分享给听众的吗?我们已经聊了很多,没其他想说的也没关系。

Edwin Chen最后说,很多人觉得数据标注是很简单的工作,比如给猫的图片打标签、给汽车画边界框。我一直不喜欢这种对数据标注的刻板印象,因为我们做的事情完全不同。我们的工作更像养育孩子:你不只是给孩子灌输知识,还要教他们价值观、创造力、审美,以及无数让一个人成为好人的细微品质。我们对AI做的也是同样的事。所以,我把我们的工作看作是关乎人类未来的事业——我们正在养育人类的孩子

快问快答

Lenny Rachitsky没想到这段对话里有这么多深刻的哲学思考,太惊喜了。好了Edwin,快问快答环节到了,我有五个问题,准备好了吗?

Edwin Chen好,开始吧。

Lenny Rachitsky第一个问题:你最常向别人推荐的两三本书是什么?

Edwin Chen我常推荐的三本书:第一本是Ted Chiang的《Story of Your Life》,这是我最喜欢的短篇故事,讲的是一位语言学家学习外星语言的故事,我每隔几年就会重读一次。

Lenny Rachitsky这和星际穿越的主题相关吗?

Edwin Chen不是,不过有一部叫《Arrival》的电影是根据这个故事改编的,我也很喜欢。

第二本是Camus的《The Myth of Sisyphus》,我说不清为什么喜欢,但总觉得最后一章特别鼓舞人心。第三本是Douglas Hofstader的《Le Ton beau de Marot》,他的《I Am a Strange Loop》更有名,但我其实更喜欢这本。书里把一首法语诗歌翻译成了89种不同版本,还探讨了每种翻译背后的动机。我很喜欢它传递的理念:翻译不是机械的操作,高质量的翻译有无数种可能——这和我们看待大型语言模型中的数据与质量问题,有很多共通之处。

Lenny Rachitsky这些书和我们聊的内容太契合了,尤其是第一本,既然你上学时的目标就是帮助翻译外星语言,喜欢这个短篇故事一点也不意外。下一个问题:你最近有没有特别喜欢的电影或电视剧?

Edwin Chen我最近发现一部超爱的电视剧,叫《Travelers》,讲的是一群来自未来的人穿越回过去,阻止世界末日的科幻故事。另外我刚重温了《Contact》,这一直是我最爱的电影之一。你应该能发现,我对所有涉及科学家尝试与外星文明沟通的书籍或电影都毫无抵抗力,这正是我小时候的梦想。

Lenny Rachitsky太有意思了。下一个问题:你最近发现了什么特别喜欢的产品?

Edwin Chen说起来挺有趣,这周我在旧金山第一次坐了Waymo的自动驾驶出租车,真的太神奇了,感觉像生活在未来。

Lenny Rachitsky是啊,这东西被炒得很火,但实际体验永远超出预期。

Edwin Chen确实值得这么多关注。

Lenny Rachitsky没错,简直不可思议。如果你不在旧金山,根本不知道这东西有多普遍——到处都是自动驾驶汽车,活动结束后,路边全是亮着灯的Waymo在接人。太厉害了。下一个问题:你有没有常挂在嘴边的人生格言,不管是工作还是生活中都能给你启发的?

Edwin Chen我之前提到过一个理念:创业者应该打造一家只有自己能打造的公司,就好像一生的经历、兴趣都在朝着这个目标铺垫,这是一种宿命感。这个原则其实适用范围很广,不只是创业者,任何创作者都一样。

Lenny Rachitsky顺着这个话题再深入问一下:你有什么建议能帮助人们积累这些独特的经历,最终实现这样的目标吗?说追随热爱很容易,但真正获得那些能让你创造出重要事物的独特经历,其实很难。

Edwin Chen我的建议一直是,真正追随自己的兴趣,做自己热爱的事。我在Surge做很多决策时都是这样。几年前有人说过一句话,我之前没太在意,但现在觉得很有道理:公司在某种意义上是CEO的化身。以前我根本不知道CEO该做什么,以为CEO都是千篇一律的——听从副总裁和董事会的安排,批准各种决策就行。但现在做重大艰难的决策时,我不会想公司会怎么做,也不会想我们要优化什么指标我只会问自己:我个人在乎什么?我的价值观是什么?我希望看到这个世界发生怎样的改变?所以,核心原则就是:问问自己在乎的价值观是什么,想要塑造什么,而不是只关注仪表盘上的数据好不好看。这个原则非常重要。

Lenny Rachitsky你的回答总是那么深刻、精彩,而且源源不断。最后一个问题:创立Surge之前,你在Twitter做的一个东西让你挺出名的——一张地图,展示了人们对某种饮品的不同称呼,有人叫soda,有人叫pop,对吧?

Edwin Chen对,就是“soda vs pop”数据集,或者说“soda vs pop”地图。

Lenny Rachitsky这张美国地图会显示不同地区的人更习惯说soda还是pop。那你自己说soda还是pop

Edwin Chen我是说soda的人,属于“soda

Lenny Rachitsky好的,那这两种说法有对错之分吗?还是说怎么说都可以?

Edwin Chen我可能会觉得说pop有点有意思,会好奇你来自哪里,但不会太苛责你。

Lenny Rachitsky我也是这种感觉。Edwin,这场对话太精彩了,我学到了很多,相信会帮助很多人创业,让他们的公司更契合自身价值观,打造出更好的产品。最后问一下:大家如果想联系你,可以在哪里找到你?你们现在在招什么岗位?听众能为你做些什么?

Edwin Chen我以前写博客,但过去几年没时间更新,现在准备重新开始。大家可以关注Surge的博客,地址是surgehq.ai.blog,希望之后能多更新一些内容。我们一直都在招人,如果你热爱数据,喜欢数学、语言和计算神经科学的交叉领域,欢迎随时联系我们。

Lenny Rachitsky太棒了。那听众能为你做些什么呢?有什么可以帮忙的吗?

Edwin Chen可以告诉我你们想让我写什么主题的博客。另外,我对现实世界中发生的各种AI失败案例很感兴趣——那些能引发深层思考的案例,比如模型的回应方式有多种可能,而且没有唯一正确答案的情况。

Lenny Rachitsky我也很想看到这些案例,你一定要在博客上分享。Edwin,非常感谢你。

Edwin Chen谢谢你的邀请。

Lenny Rachitsky各位听众,再见。非常感谢大家的收听。

原文:How this 100-person company became essential to Anthropic, Google, and frontier AI labs | Edwin Chen

https://youtu.be/dduQeaqmpnI?si=elQJ-y_UlYc5M5QN

编译:Zonghang Jiang

请注意,本文编译自文未载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

相关内容

热门资讯

最新或2023(历届)广州财政...  广州印发实施《广州市全面深化财政体制改革总体方案》  从广州市财政局了解到,继最新或2023(历届...
最新或2023(历届)广州工资...  广州市人民政府关于印发广州市全面深化财政体制改革总体方案的通知各区、县级市人民政府,市政府各部门、...
退休年龄最新规定最新或2023...  最新或2023(历届)3月起处级女干部退休年龄延至60周岁  为充分发挥女领导干部和女性专业技术人...
处级女干部退休年龄最新规定最新...   我国处级女干部延至60周岁退休 可多领6万工资  为充分发挥女领导干部和女性专业技术人员的作用,...
时间不是让人忘了痛,而是让人习... 1、总有一天我会从你身边默默地走开,不带任何声响,我错过了很多,我总是一个人难过。 2、在这个...