深度学习中常用的开源数据集

络腮胡菲菲 · 2024-12-31 04:42:47

图像分类

1.MNIST

http://yann.lecun.com/exdb/mnist/
MNIST 数据集是机器学习和计算机视觉范畴中最闻名的数据集之一，常用于练习各种图像处理系统。
MNIST 数据集包含了 70,000 张小型的好坏图像，每张图像的大小是 28x28 像素。每个图像都是手写数字（0到9）的一个实例。
它非常适合初学者练习图像分类技术和卷积神经网络（CNN）等算法。

图片
2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉研究范畴广泛使用的标准数据集。
https://www.cs.toronto.edu/~kriz/cifar.html
它由加拿大高级研究院（Canadian Institute For Advanced Research, CIFAR）发布，因此得名 CIFAR。CIFAR-10 特殊适用于开发和测试图像识别算法。
CIFAR-10 包含 60,000 张 32x32 像素的彩色图像，这些图像被分为 10 个种别，每个种别各 6,000 张图像。这些种别包罗：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

图片
3.ImageNet

https://www.image-net.org/
ImageNet 数据集是一个大规模的图像数据集，广泛用于计算机视觉研究和各种图像处理算法的练习和测试。
这个数据集由斯坦福大学的研究人员启动和维护，包含超过 1400 万张图片和超过 20,000 个种别。
它用于大规模视觉识别挑战和练习深度学习模型。

图片
4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando（一家德国的时尚科技公司）发布的一个图像数据集，旨在作为机器学习研究中经典的 MNIST 手写数字数据集的直接替换品。
Fashion-MNIST 包含 70,000 张 28x28 像素的灰度图像，这些图像分为 10 个种别，每个种别有 7,000 张图像，这些种别包罗：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、活动鞋、包和踝靴。

图片
5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA 数据集是一个大型的人脸属性数据集，广泛用于计算机视觉研究中，特殊是在面部识别、面部属性识别和面部编辑等范畴。
这个数据集由香港中文大学的研究者开发和维护，CelebA 包含超过 200,000 张名人面部的图像，覆盖了大约 10,000 名差别的名人，每张图像都标有 40 种差别的属性（如发型、帽子、眼镜、笑容等），以及 5 个关键点位置（眼睛、鼻子、嘴巴）的标记。

图片
自然语言处理

6.IMDB 评论

https://ai.stanford.edu/~amaas/data/sentiment/
IMDB 评论数据集（Internet Movie Database Review Dataset）是一个广泛用于自然语言处理（NLP）和情感分析研究的数据集。
它包含来自 IMDB 网站的 50,000条电影评论，分为练习集和测试集各 25,000 条，每个评论都是一个文本片段，而且带有一个标签，体现该评论是正面的（positive）照旧负面的（negative）。

图片
7.20个新闻组

https://www.kaggle.com/datasets/crawford/20-newsgroups
20 个新闻组数据集由 Ken Lang 编制，包含约 18000 个新闻组文档，分布在 20 个差别的新闻组。
它常用于文本分类和聚类任务。

图片
8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/
斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集，由众包工作者针对一系列维基百科文章提出的题目组成，其中每个题目的答案都是来自相应段落的一段文本。斯坦福问答数据集包含 100,000 多个用于机器理解的题目。

图片
9.GLUE

https://gluebenchmark.com/
GLUE (General Language Understanding Evaluation) 是一个用于评估自然语言处理（NLP）模型在广泛语言理解任务上的性能的基准数据集。
GLUE 旨在提供一个综合性的评估框架，通过多个差别的NLP任务来测试模型的广泛性和鲁棒性。
10.COCO

https://cocodataset.org/#home
COCO 数据集是一个用于对象检测、分割和图像字幕生成的广泛使用的基准数据集。
它由微软研究院发布，旨在提供丰富的标注数据，用于练习和评估计算机视觉模型。

图片
11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140
Sentiment140 数据集包含来自Twitter的160万条标注推文。这些推文被标注为正面或负面情感，主要用于练习和评估情感分类模型。
12.Yelp 开放数据集

https://www.yelp.com/dataset
Yelp数据集包含了用户对差别业务的评论、评分、用户信息、业务信息等。它常用于研究和开发推荐系统、情感分析、文本分类和其他NLP任务。
语音识别

13.LibriSpeech

https://www.openslr.org/12/
LibriSpeech 数据集包含约1000小时的英语语音数据，主要用于练习和评估语音识别系统。
该数据会合的音频文件经过高质量的预处理，而且都带有准确的文字转录。

图片
14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
VoxCeleb 数据集包含大量名人的音频片段，这些片段从 YouTube 视频中提取，并经过细致的过滤和标注，以确保数据的质量和多样性。

图片
卫生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Breast Cancer Wisconsin 数据集是一个广泛用于机器学习和数据挖掘范畴的医学数据集，主要用于练习和评估分类模型，以区分良性和恶性乳腺肿瘤。
该数据集包含569个样本，每个样本有30个特征，这些特征从细胞核的图像中提取。

图片
推荐系统

16.MovieLens

https://grouplens.org/datasets/movielens/
MovieLens 数据集是一个广泛用于推荐系统研究和开发的电影评分数据集。该数据集由明尼苏达大学的 GroupLens 研究小组创建，包含用户对电影的评分信息。
17.Amazon Product Reviews

https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews
Amazon Product Reviews 数据集是一个广泛用于情感分析、推荐系统和其他自然语言处理（NLP）任务的大规模数据集。该数据集包含了来自 Amazon 网站的用户对各种产物的评论和评分信息。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

深度学习中常用的开源数据集

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块