豆包大模型团队开源基准测试集SuperGPQA

田宁
2025-03-04 11:53

3月4日消息,豆包大模型团队近日开源SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。该数据集构建了覆盖285个研究生级学科、包含26529道专业问题的评估体系,不仅涵盖主流学科,更将轻工业、农业、服务科学等长尾学科纳入其中,展现出全面学科的覆盖广度,填补了长尾知识评估领域的空白。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
2月10日消息,豆包模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。不同于Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。
9月11日消息,据报道,字节正在探索将模型与硬件结合,既自己开发AI硬件,也会与外部硬件公司合作。报道称,字节AI硬件相关团队正在开发一款与豆包模型豆包App联动的智能耳机,同时在推动豆包模型与其它手机厂商的智能助手合作,此外字节同时在探索AI眼镜方向,可能会投资一家新公司或组建内部团队。对于以上消息,截至发稿,字节跳动方面暂无回应。
11月27日消息,据36氪报道,字节跳动近期成立了一个新AI部门Flow,技术负责人为字节跳动技术副总裁洪定坤,业务带头人为字节模型团队的负责人朱文佳。Flow主要聚焦在AI应用层。在帖中,其表示是字节跳动旗下AI创新业务团队,“目前已经在国内和海外分别上线豆包和Cici两款产品,有多个AI相关创新产品孵化中”。在此次调整中,字节也从飞书、抖音等各个BU抽调人选,到这一部门做一款新的C端产品。
据报道,字节豆包团队有一些基于模型软硬件结合的探索,目前还在初期。除字节外,美团也在探索AI和硬件结合的可能性,正在研发一款名为“俏鱼”的AI业务,并和儿童穿戴设备厂商“小天才”达成合作,其自研的“俏鱼乐伴”的AI语音互动式APP将搭载在小天才Z10手表上。
1月22日消息,字节跳动发布豆包模型1.5Pro版本。目前,Doubao-1.5-pro已在豆包APP灰度上线,开发者也可在火山引擎直接调用API。据介绍,该模型具有低训练/推理成本,高效模型结构,全面提升了多模态能力、推理能力。在知识、代码、推理、中文等多项公开测评基准上成绩全球领先。同时,在模型训练过程中,Doubao-1.5-pro未使用任何其他模型生成的数据。
12月18日消息,截至目前,豆包模型日均tokens使用量超过4万亿,发布7个月以来增长超过33倍。
5月15日消息,火山引擎主办的FORCE原动力大会在京举行。会上发布的数据显示,截至目前,字节跳动旗下模型豆包App目前总下载量已经突破1亿,双端月活跃用户突破2600万,智能体创建总数800万。会上,字节豆包模型正式开启对外服务,据悉,豆包模型包含豆包通用模型Pro、豆包通用模型liti、豆包·角色扮演模型豆包·语音合成模型豆包·声音复刻模型豆包·语音识别模型豆包·文生图模型豆包·Function Call模型
4月17日消息,在火山引擎FORCE LINK AI创新巡展上,火山引擎总裁谭待公布豆包1.5深度思考模型,该模型将正式面向企业提供服务。谭待表示,豆包1.5深度思考模型能够结合视觉理解提供更多功能,例如根据照片分析地貌,或在旅行时辅助点餐、完成企业项目管理流程图。同时,新模型还具备了更强视频搜索能力,模型能够根据用户搜索问题在视频中寻找相应答案。谭待透露,豆包模型自发布以来日均tokens增长超过106倍,日均tokens使用量超过12.7万亿。