autorenew
颠覆 LLM 比较:Qendresa Hoti 的带区块链验证的开源测试方案

颠覆 LLM 比较:Qendresa Hoti 的带区块链验证的开源测试方案

在快速演进的人工智能领域,比较大型语言模型(LLMs)常常像是在穿越充斥着炒作和未经证实主张的雷区。Qendresa Hoti(前 YC 校友、以太坊 Dev Scholar)带来了她的创新开源方案,旨在切除噪音。

Hoti 在最近的一条 X 推文串 中分享了她的过程,解释了她追求无戏剧化的 LLM 比较如何将她带入一个有趣的研究深坑。结果是什么?一个与模型无关的测试装置,它在测量关键性能指标的同时提供不可篡改的真实性证明。

这个方案有什么突出之处?

该工具的核心在于评估 LLMs 的若干关键方面:

  • 首个 token 响应时间 (Time to First Token, TTFT):衡量模型生成首个响应的速度——类似 AI 查询的“启动时间”。
  • 每秒处理 token 数 (Tokens Per Second, TPS):衡量模型持续运行的速度,展示其处理和输出信息的效率。
  • Pass@1/k:该指标评估模型在代码生成任务中的准确性,检查是否在第一次尝试就成功,或需要多次尝试。
  • 可验证收据:通过哈希链式收据,系统创建了评估过程的防篡改记录。这就像是 AI 基准测试的区块链账本,确保事后无法篡改结果。

这种方法的优点在于其灵活性。它可无缝支持 OpenAI-style APIs 或本地模型,使各地开发者都能使用。Hoti 强调,该方案利用流日志(stream logger)、迷你代码评估(mini code eval)和验证器来执行 16 项任务的代码检查,无需任何猜测。

在 AI 与区块链之间架桥

作为一名以太坊 Dev Scholar,Hoti 为 AI 工具链带来了独特视角。哈希链 —— 区块链技术的基本概念 —— 为该工具增加了一层在加密领域中尤为重要的信任保证。想象把它用于评估去中心化应用(dApps)中的 AI 模型,或者用于那些融合 AI 功能的 meme token 项目,比如自动内容生成或针对社区驱动币种的情绪分析。

这种可验证特性可能会成为区块链从业者在整合 AI 时避免被夸大宣传所欺骗的颠覆性工具。它是开源的,鼓励社区贡献和进一步改进。

深入了解

想深入了解技术细节的人可以阅读 Hoti 发布的详细研究,请在这里查看——她的 Substack "small brain crypto" 对于 AI 与区块链交叉领域的读者而言是宝库。

如果你正在 meme token 领域或更广泛的 crypto 生态中构建项目,像这样的工具可以帮助你在融入 AI 时做出明智决策。你怎么看——可验证的 LLM 基准测试会成为加密项目的标准吗?在评论里分享你的想法!

你可能感兴趣