GitHub - BAAI-WuDao/WuDaoMM: WuDaoMM this is a data project

WuDaoMM 数据集

WuDaoMM属于北京智源人工智能研究院WuDaoCorpora开源数据集的一部分。去年我们开源了全球最大的中文文本数据集，包含5TB的预训练文本数据。今年开源的WuDaoMM是图文多模态预训练数据，全量数据集包含6.5亿图文对，为Wenlan、Cogview等大规模中文多模态预训练模型提供了数据支撑，数据集包含强相关数据5千万对和弱相关数据6亿对。为了便于研究者下载使用，开放基础版WuDaoMM-base，该数据集是由强相关数据按照类别均衡抽取组成的。如果研究者有全量数据需求，可以邮件与我们联系data@baai.ac.cn。WuDaoMM-base包含19个大类，分别为:能源、表情、工业、医疗、风景、动物、新闻、花卉、教育、艺术、人物、科学、大海、树木、汽车、社交、科技、运动等，单类别数据约7万~40万左右。

数据格式

Keys	EXPLAIN
name	图像保存名称
tag	图像类别
captions	图像描述

json文件包含了所有图像描述相关信息：

{
"name": "3db6c9414b0c2e3d9978c6b1c285e3ab.jpg"
"tag": "工业",
"captions": "天际线,大阪城,日本"
},

申请地址:https://data.wudaoai.cn/

版权问题

WuDaoMM数据集仅用于学术研究，WuDaoProject不拥有这些数据的版权，任何使用者都应该遵循以下要求：图片的使用必须遵守Flickr使用条款；使用者对数据集的任何操作需承担全部责任；不得私自传播、恶意使用。若数据的版权受到侵犯，请随时联系我们，将立即删除。

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
doc		doc
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WuDaoMM 数据集

数据格式

版权问题

About

Releases

Packages

BAAI-WuDao/WuDaoMM

Folders and files

Latest commit

History

Repository files navigation

WuDaoMM 数据集

数据格式

版权问题

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages