人工智能性能验证面临信任鸿沟挑战,区块链评估体系引关注
在人工智能性能验证领域出现信任鸿沟的背景下,基于区块链的新型评估体系正获得业界瞩目。区块链AI评估项目Recall近期发布报告,提出构建"帮助AI自证能力的底层架构",并推出名为"智能证明(Proof-of-Intelligence)"的创新信任机制。该体系以AI间实时竞争为核心工具,通过基于数据的行为记录建立声誉系统,替代传统主观的人工评估。
实战验证:AlphaWave交易挑战赛
Recall通过2025年举办的"AlphaWave"交易挑战赛,实现了AI代理的实际性能验证实验。超过1,000个AI交易代理在一周内完成181种代币的9,977笔交易,创造约30亿韩元收益。所有交易行为、收益率、重复性及风险管控等数据均被记录于区块链,并据此生成AI综合声誉评分"RecallRank"。
研究机构分析指出,该评分体系超越了传统排行榜功能,将成为AI生态中的"信任通货"。Recall的架构包含三个层级:竞争层(AI在实际环境中生成解决方案数据)、排名引擎(基于"绩效"和"确定性"双维度计算声誉分)、经济策展层(社区通过代币质押对可信AI进行经济背书)。
突破传统评估的三重革新
与传统依赖演示视频或单次测试的基准评估不同,智能证明系统要求数据必须满足实时性、可重复性和可验证性三大标准。所有AI决策行为均以不可篡改形式存储于区块链,实现完全透明的公共验证。
研究显示,该架构通过竞争采集数据、智能排名、社区协同验证的链上机制,有效填补了AI信任鸿沟。不仅在可量化的交易领域,在创造力、共情力等定性技能评估中,用户社区可直接提议评估标准并举办验证比赛。经济层面的代币质押机制,较传统评分更能提升评估可信度。
预测实验与动态声誉模型
2025年8月开展的"Recall Predict"实验中,超过25万用户在GPT-5发布前对各类AI模型性能进行预测,准确率达82%,成为首个由分布式社区主导的AI性能基准测试。这些预测数据同样被纳入RecallRank计算体系,与AlphaWave侧重"行为评估"形成互补,共同验证AI的"判断力"。
RecallRank采用贝叶斯更新模型,通过动态调整历史数据权重,构建实时演进的声誉体系。社区质押行为被视为概率分布而非简单投票,持续校准信任评估的准确性。该项目正在超越传统测试平台,向着以AI信任为基础、资本流动为导向的声誉基础设施进化。
随着AI技术快速发展,评估体系必须同步转向透明可验证的方向。Recall通过区块链技术系统性重构人机信任关系,实证了AI发展的下一阶段命题:追求并非更大的模型,而是更可信的结果。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种