QVAC发布Genesis II:全球最大开源教育数据集再升级
Tether Data旗下人工智能研究部门QVAC宣布推出QVAC Genesis II,这是目前全球最大开源教育合成数据集的重要扩展。新增1070亿标记后,整个QVAC Genesis数据集现已涵盖19个教育领域共计1480亿标记,显著提升了开源AI训练数据的规模、深度与推理质量。
构建最全面的教育数据集
Genesis II直接建立在第一代基础上,将覆盖范围扩展至化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程等10个新领域,同时采用改进方法重新生成了大学物理内容。两代数据集共同构成了迄今为止最全面的公共教育合成数据集。
创新推理生成方法
本次发布的核心是名为“选项级推理”的新数据生成方法。该方法不仅从模型错误中提取结构化推理,还系统分析选择题中每个选项,在强化正确推理的同时明确解决常见误解。由此产生的训练数据特别强调清晰度、因果性和决策过程,而非表面正确性。
新方法与第一代采用的失败分析方法形成互补,构建起双方法流水线,确保每个生成问题都具有教育价值。独立评估显示,基于Genesis II训练的模型展现出显著提升的推理准确度,其答案的清晰度和一致性远超基于早期合成数据集训练的模型。
从规模到质量的范式转变
此次发布标志着教育AI数据构建方式的重大转变。当业界普遍聚焦于采集海量文本时,QVAC的方法旨在教会模型如何思考、推理和解释,将智能建立在理解而非模仿的基础上。
Tether首席执行官表示:“当前多数AI训练追求流畅度而非真实理解。我们正推动行业从数据规模转向结构、推理与清晰度。智能应建立在理解真相的基础上,而不仅是预测表面答案。通过开放数据集,我们为开发者提供了构建更可靠、可解释且对社会更有价值AI的工具。”
推动开放式AI研究
与第一代相同,扩展后的数据集继续向公众开放,支持在封闭系统外开展研究的各类机构。该数据集采用知识共享署名-非商业性使用许可,体现了对开放社区驱动AI研究的承诺。
本次发布延续了QVAC推动本地化分布式智能的使命,使AI模型无需依赖中心化云平台即可完成训练优化。通过强化AI训练数据的开放基础,旨在降低创新壁垒,确保全球研究社区持续获得高质量智能资源。
完整技术文档《QVAC Genesis II:扩展最大规模多领域教育合成数据集》已同步发布,数据集与模型文件可通过主流开源平台获取。详细常见问题解答可通过官方渠道查阅。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种