自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Tether发布QVAC Genesis II全新版本

2025-12-22 22:09:48
收藏

QVAC发布Genesis II:全球最大开源教育数据集再升级

Tether Data旗下人工智能研究部门QVAC宣布推出QVAC Genesis II,这是目前全球最大开源教育合成数据集的重要扩展。新增1070亿标记后,整个QVAC Genesis数据集现已涵盖19个教育领域共计1480亿标记,显著提升了开源AI训练数据的规模、深度与推理质量。

构建最全面的教育数据集

Genesis II直接建立在第一代基础上,将覆盖范围扩展至化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程等10个新领域,同时采用改进方法重新生成了大学物理内容。两代数据集共同构成了迄今为止最全面的公共教育合成数据集。

创新推理生成方法

本次发布的核心是名为“选项级推理”的新数据生成方法。该方法不仅从模型错误中提取结构化推理,还系统分析选择题中每个选项,在强化正确推理的同时明确解决常见误解。由此产生的训练数据特别强调清晰度、因果性和决策过程,而非表面正确性。

新方法与第一代采用的失败分析方法形成互补,构建起双方法流水线,确保每个生成问题都具有教育价值。独立评估显示,基于Genesis II训练的模型展现出显著提升的推理准确度,其答案的清晰度和一致性远超基于早期合成数据集训练的模型。

从规模到质量的范式转变

此次发布标志着教育AI数据构建方式的重大转变。当业界普遍聚焦于采集海量文本时,QVAC的方法旨在教会模型如何思考、推理和解释,将智能建立在理解而非模仿的基础上。

Tether首席执行官表示:“当前多数AI训练追求流畅度而非真实理解。我们正推动行业从数据规模转向结构、推理与清晰度。智能应建立在理解真相的基础上,而不仅是预测表面答案。通过开放数据集,我们为开发者提供了构建更可靠、可解释且对社会更有价值AI的工具。”

推动开放式AI研究

与第一代相同,扩展后的数据集继续向公众开放,支持在封闭系统外开展研究的各类机构。该数据集采用知识共享署名-非商业性使用许可,体现了对开放社区驱动AI研究的承诺。

本次发布延续了QVAC推动本地化分布式智能的使命,使AI模型无需依赖中心化云平台即可完成训练优化。通过强化AI训练数据的开放基础,旨在降低创新壁垒,确保全球研究社区持续获得高质量智能资源。

完整技术文档《QVAC Genesis II:扩展最大规模多领域教育合成数据集》已同步发布,数据集与模型文件可通过主流开源平台获取。详细常见问题解答可通过官方渠道查阅。

展开阅读全文
更多新闻