泉源类型
| 推荐
|
公开的数据平台
| 魔搭社区内开放了近3000个数据集,涉及文本、图像、音频、视频和多模态等多种场景,左侧有标签栏帮助快速导览,大家可以看看有没有本身必要的数据集。
其他数据平台推荐:
- ImageNet:包含数百万张图片,广泛用于分类任务,也可以用于生成任务。
- Open Images:由Google维护,包含数千万张带有标签的图片。
- Flickr:特别是Flickr30kK和Flickr8K数据集,常用于图像描述任务。
- CelebA:专注于人脸图像的数据集。
- LSUN (Large-scale Scene Understanding):包含各种场景种别的大规模数据集。
|
利用API或爬虫获取
|
- 假如必要特定类型的内容,可以利用API从图库网站抓取图片,如Unsplash、Pexels等。
- 利用网络爬虫技能从互联网上抓取图片,但必要注意版权问题。
|
数据合成
| 利用现有的图形引擎(如Unity、Unreal Engine)或特定软件生成合成数据,这在训练某些类型的模型时非常有用。
近来Datawhale联合阿里云天池,做了一整套多模态大模型数据合成的学习,欢迎大家一起交换。从零入门多模态大模型数据合成
|
数据加强
| 对于较小的数据集,可以通过旋转、翻转、缩放、颜色变动等方式进行数据加强。
|
购买或定制
| 假如你的应用是特定范畴的,比如医学影像、卫星图像等,发起从靠谱的渠道购买一些数据集。
|
实践记录暂且到这里啦!Datawhale里还有很多自学网站和资源,可以点击教程多多探索!