价值十亿美元的三个词:向确定性漂移(DriDe)
价值十亿美元的三个词:向确定性漂移(DriDe)
我怀疑我不是第一个想到这个概念的人,但我可能是第一个给它命名的人。
向确定性漂移(DriDe - 读作"DRY'd",即"Don't Repeat Yourself"不要重复自己)是每个人在两年内都会做的事情,我告诉你现在就开始。
如果要用一句话解释:我建议,当大多数人都在尝试添加更多AI然后加以保护时,我们应该以一种方式构建系统,随着时间推移,尽可能完全地将AI从系统中写出去。
#ok聪明的家伙什么是向确定性漂移
好吧,聪明的家伙 - 什么是向确定性漂移?
这可不是《速度与激情3》期待已久的第二部(可惜啊 - 但这会是个超棒的片名对吧?)。
不,这是一种关于如何思考AI的哲学。
现在大家都在使用AI代理系统,像明天就没法用似的疯狂消耗token。
看到有人花20美元来设置一个买牛奶的提醒就让我心痛(是的,真的发生了...每30分钟的心跳检查时间就在消耗token!)。
我相信我们很快就会从这个"所有问题都用AI解决"的狂热梦境中醒来,意识到有一个简单的流程可以让我们以极小的成本和环境影响做几乎任何事情。
简单步骤:
- 给AI代理系统一个它以前没见过的"新奇"任务,让它消耗大量token来解决它。
- 在末尾放置第二个代理系统,观察哪些部分本可以通过确定性方式(即代码)解决。
- 为可重复的部分构建工具。
- 下次遇到类似任务时 - 在第一步就提供这些工具。
- 如果我们总是使用tool1然后传给tool6 - 就把它们直接连接起来。
- 重复这个过程,直到你尽可能地将AI从流程中完全移除。
- 还有很多细节,比如如果工具没有给出正确输出就回退到AI、运行工作流的影子版本来检查我们是否真的在改进、提供最终输出反馈来进行微调、生成LLM能够理解的系统、全程跟踪流程...但你能搞定这些对吧 :-)
随着时间推移,你那些耗资50美元运行、只有50%成功率、还需要你不断提示才能保持正轨的AI驱动的非确定性工作流,会变成华丽的自动化流程,只需0.02美元的AI成本进行分类,然后完全通过代码运行。
它更快、更一致、更值得信赖。
这就是我们要去的方向。
#是的人们在构建技能和工具这里有什么新意
这正是关键所在 - 我们已经有了让这工作所需的大部分东西,但在如何对待它们方面从根本上错过了要点。
没有人,我是说真的没有人,有明确的目标要将AI从当前用AI完成的流程中写出去。
你给我举一个在过去一年中使用AI更少的工具/产品。
来吧,我在等。
而这正是我所提议的。
你用AI来勾勒出一个流程的大致轮廓。它很昂贵、很慢(相比代码),但它解决了重复性的业务流程问题。
然后,你分析这个流程。我真的需要把公司12000行客户列表全部传给AI来知道下一个该打给谁吗?不需要,一个简单的工具就能获取一个月内未联系的前5个人。
我甚至需要把这个工具给代理吗?不,我应该把它作为上下文的一部分,这样它就有这些信息,我们还能节省大量的往返通信。
等等,我们要给AI一个工具去查看他们的网站?如果我们需要这些信息,我们应该自动获取并将其输入到上下文中。
等等,我们之前扫描过他们的网站?我们有这些信息?我们甚至根本不需要启动AI?
你明白我的意思了。
#结晶化是关键
每次你调用AI,你都在掷骰子 - 字面意义上的。
它已经变得好多了,但它过去是、将来也永远是一个非确定性系统。无论你如何精心设计提示,它总会给出不同的输出。
有时你确实需要AI的力量 - 比如处理自然语言(或者真的需要吗?)
或者编写代码(或者真的需要吗?)
每次你调用AI时,都要质疑有多少部分真的需要完全自主地使用LLM,有多少部分是确定性的步骤。
编写代码 - 我们拥有世界上所有的代码片段,每个挑战都可以分解成已经存在并经过实战检验的代码。我们只需要以不同的方式将它们连接起来。
那么我们应该让AI编写代码,还是给它我们已知有效的代码,让它连接起来解决新问题?
处理自然语言?我们已经有基于代码的工具可以完成LLM70%的工作 - 为什么不先让它们进行初步处理,然后找到需要集中LLM力量的区域,从而减少上下文大小、成本和遗漏关键信息的几率?
结晶化你的流程。让它尽可能地确定性和可重复。
#听起来工作量很大
好吧,是的,某种程度上是这样。
目前确实存在能力差距,LLM在识别流程优化点方面还不错,但在创造性地找出哪些部分最适合优化方面还不够。
它仍然需要人类的判断和指导(万岁 - 我们现在还是安全的!)。
但它肯定可以观察自己做了什么,然后给你指出需要关注的领域。
它肯定可以接受你的判断并提供可能的解决方案。
它只需要你的大脑来决定做什么、用什么方法、以及函数/步骤要做得多专门化或多通用化。
一旦你构建了足够多的这些工具(技能、MCP、工作流,随便你怎么叫),你就可以教它构建自己的工作流。
那时你将成为工作流的评判者,而不是各个部分的评判者。
#我的预测
在2-5年内,你会坐在终端前面对一个业务上的新问题。我们需要自动对账银行账户用于会计。
你解释期望的结果,提供好坏结果的示例、数据等。
AI会查看它所有的工具,并为你构建一个实现此目标的工作流。它还没有所有需要的工具,所以仍然会使用视觉模型、擅长分类的LLM等。
你会在测试模式下运行它,与AI合作调整边缘情况,然后运行它。它完成了工作,你将它推送到"影子模式",与当前流程并行运行。
现在它开始将自己从流程中优化出去。
它使用OCR和模式匹配为每个供应商的发票格式构建单独的解析器,在毫秒级别处理每张发票。它拉取银行回单并将金额与发票进行对比,全部通过代码完成,LLM甚至不会启动,除了触发"对账流程"。
它的效果与当前流程一样好,准确率达到99%以上,因为我们使用确定性步骤处理了99%的工作流。
三个月后,我们输入的某个文档格式发生了变化 - tensorflow OCR工具无法找到发票号码。它回退到视觉模型来定位发票号码的新位置。它提示你"嘿,看起来供应商X的发票格式改变了 - 这个号码对吗?",同时显示发票截图和相关项目的高亮。
你告诉它可以继续,它自我修复并完成本月的银行对账。
对比一下我们目前设想的做法:为每张发票调用视觉模型,给LLM提供相应的工具。然后我们给它一个读取银行交易的工具 - 将私有数据发送到云端。然后它把发票号码和账号搞混了,请求帮助,我们提示它,它更新了指令集,却在下一张发票上再次失败。
这种方式成本高昂、速度慢、容易出错,虽然比我们以前完全人工的流程要好,但远非理想状态。
#我对LLM的看法
LLM输出的每一个token都是一个故障点。
即使我们将LLM的准确率提高到99.999%(这会很棒对吧?),如果你的工作流有10000次传递,你的输出准确率会是多少?
不是99%,而是90%。(0.99999^10000 = 90%)
90%的准确率会毁掉业务:你会被起诉或破产。
但如果你构建LLM系统时给LLM一个单一目标:"让自己变得多余" - 那么你就能蓬勃发展。
你可以从企业中消除所有的繁琐事务,消除所有投入到忙碌工作的人力。
LLM给了你将自动化构建成本降低到以前1%的能力。
小企业可以以前所未有的敏捷性与大玩家竞争。
但前提是他们的系统必须稳健。
#所以你在构建幻觉工厂还是确定性发电机
那么,你是在构建一个幻觉工厂还是确定性发电机?
你是在构建一个消耗token、掷骰子的怪物?
还是在构建一个精简、防弹的低效替代品?
可能介于两者之间,但如果你在做每件事时的指导原则都是DriDe - 那么当你向确定性漂移并避免重复自己时,你将获得优势。
你将拥有一把锋利的手术刀来自动化关键工作流,而你的竞争对手还在用钝器猛击他们的流程,走向灾难。
成本的降低、确定性的增加、诉讼的避免 - 所有这些都来自三个词,其价值绝对值十亿美元。
让DriDe指引你走向成功,今天就开始漂移吧。

