Skip to content

BAAI-WuDao/WuDaoMM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 

Repository files navigation

WuDaoMM 数据集

WuDaoMM属于北京智源人工智能研究院WuDaoCorpora开源数据集的一部分。去年我们开源了全球最大的中文文本数据集,包含5TB的预训练文本数据。今年开源的WuDaoMM是图文多模态预训练数据,全量数据集包含6.5亿图文对,为Wenlan、Cogview等大规模中文多模态预训练模型提供了数据支撑,数据集包含强相关数据5千万对和弱相关数据6亿对。为了便于研究者下载使用,开放基础版WuDaoMM-base,该数据集是由强相关数据按照类别均衡抽取组成的。如果研究者有全量数据需求,可以邮件与我们联系data@baai.ac.cn。WuDaoMM-base包含19个大类,分别为:能源、表情、工业、医疗、风景、动物、新闻、花卉、教育、艺术、人物、科学、大海、树木、汽车、社交、科技、运动等,单类别数据约7万~40万左右。

0001

数据格式

Keys EXPLAIN
name 图像保存名称
tag 图像类别
captions 图像描述

json文件包含了所有图像描述相关信息:

{
"name": "3db6c9414b0c2e3d9978c6b1c285e3ab.jpg"
"tag": "工业",
"captions": "天际线,大阪城,日本"
},

申请地址:https://data.wudaoai.cn/

版权问题

WuDaoMM数据集仅用于学术研究,WuDaoProject不拥有这些数据的版权,任何使用者都应该遵循以下要求:图片的使用必须遵守Flickr使用条款;使用者对数据集的任何操作需承担全部责任;不得私自传播、恶意使用。若数据的版权受到侵犯,请随时联系我们,将立即删除。

About

WuDaoMM this is a data project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages