跳到主要内容

如何制作一个好的数据集

在开始面对一个深度学习问题或者一个需要解决的场景的时候,我们最常遇到的问题就是“没有数据”。没有数据、数据杂乱、数据没有标注、标注质量不高,都在解决这个问题之前,先挡在了我们的面前。针对这样的问题,本节内容,我们来为大家介绍一下如何制作一个好的数据集,希望能为各位同学提供帮助。

开始之前

我制作一个数据集之前,我们要做什么呢? 在开始制作一个数据集之前,我们首先要回答这样几个问题:

  • 我们的场景解决中需要解决什么样的问题?
  • 解决这样的问题需要什么样的数据?
  • 有没有公开的数据集和我们的场景相似?
  • 我们在一个单位之间内,能收集到多少数据?
  • 标注一个单位的数据,需要花费多大的代价?

制作步骤