作者:斯特凡・福塞勒斯(Easyfairs 首席技术官、全球展览业协会(UFI)数字创新工作组主席)
说实话,人工智能已不再像从前那样让我们惊叹。当我们习惯了与 ChatGPT 或 Claude 聊天、用 Midjourney 生成图像、借助 Runway 制作视频,或是通过 HeyGen 制作深度伪造内容后,总会不禁思考:“接下来会是什么?”
别误会,这些工具确实非常有用。但在一两年前人工智能热潮达到顶峰后,我们尚未看到真正能改变生活的突破。我们陷入了一个循环:提出问题、得到结果、重新表述、获得更好的结果、再调整提示词、得到略有改进的内容…… 接着过度操作,最终得到无法使用的东西,然后重新开始。
对于我们这些日常使用大型语言模型(LLMs)的人来说 —— 总结文档、对比合同、从会议记录中提取待办事项,或是在想发怒斥邮件时礼貌回复 —— 这一切都已变得平淡无奇。就像开车去买冰淇淋,有用,但并不令人兴奋。大型语言模型能生成不错的内容,却不能为我们采取行动。
AI Agent (人工智能体)登场
人工智能体也称为AI智能代理,是自主、适应性强、以目标为导向的人工智能系统,能代表我们独立工作。它们超越了大型语言模型的 “对话” 模式,实际上能做实事。
以客户服务为例。多年来,网站上一直有聊天机器人,但现代代理 —— 可以理解为 “升级版” 聊天机器人 —— 拥有远超以往的推理能力、语境理解能力,甚至创造力。它们能采取有意义的行动,比如预订酒店、重置密码或进行在线购物。
我最近使用了一款名为 DoBrowser 的人工智能代理(一款 Chrome 浏览器扩展程序)注册活动。我要求它:“帮我注册 XXX 活动,除了这个邮箱地址,其他信息都编造……” 它填写了看似合理的虚假信息,点击了 “我不是机器人” 框,完成了注册。这很巧妙,也很有效,但也带来了数据质量的噩梦。
DoBrowser 作为个人助理接管浏览器工作,它 “查看” 网页并与之互动,就像人类一样(但从技术上讲,它直接读取 HTML 以提高效率)。其他工具如 Adept.ai、Rewind.ai 和 PixieBrix 也有类似功能 —— 在浏览器中或整个系统中自动执行重复性任务(有些能控制屏幕、键盘和鼠标)。
更简单的代理:ChatGPT 任务和自定义 GPT
OpenAI 最近推出了 ChatGPT Tasks,允许用户安排人工智能驱动的任务。例如,你可以让它每天搜索特定主题的新闻并发送摘要,无需再翻阅新闻通讯或 RSS 订阅。这对于了解信息或寻找博客灵感非常有用(当然,它也能写博客,不过那是另一回事了)。
代理仍然可以是对话式的,只是需要专业化且以目标为导向。这正是自定义 GPT 的意义所在。你给 ChatGPT 设定一个角色和一系列指令(例如,“你是 XXX 软件的服务台代理,根据这份文档指导用户……”),它就会扮演专家角色,并能根据互动不断改进。
其他平台也提供类似的自定义代理功能,如 Anthropic 的 Claude、谷歌的 Gemini Agents、微软的 Copilot Studio 和亚马逊的 Bedrock Agents。每一个都能让你创建针对特定任务或知识领域的代理。
无代码代理:Zapier、Make、n8n
通过 Zapier、Make 或 n8n 等无代码平台构建简单代理是一种简便方法。这些工具允许你基于时间计划、事件(如表单提交或电子表格更新)或外部调用(即 “网络钩子”)触发人工智能工作流。
例如,当新的参展商被添加到我的谷歌表格中,ChatGPT 可以:
还可以轻松添加步骤,通过电子邮件、WhatsApp 或其他渠道发送视频。全程无需编写一行代码。
这只是一个例子,更高级的自动化是可能的。而且,每月只需不到 100 欧元的工具费用就能做到这一切。
为何代理至关重要
这就是我对人工智能代理如此兴奋的原因 —— 也是我不断测试和部署新代理的原因。有时我会忘记自己设置过代理,当它完成我不记得分配的任务时,我会感到惊喜!
你可能已经想到了几十种应用场景 —— 无论是专业还是个人方面 —— 代理都能节省时间、提高生产力,或者只是减少日常中的重复性麻烦。
人工智能和大型语言模型不会消失。事实上,它们才刚刚开始。每周花一点时间学习和试验代理是非常值得的。