跳到主要内容

OpenBayes 自动建模数据格式规范介绍

介绍

OpenBayes 数据格式是 OpenBayes 定义的一套数据集格式整理标准,用于 OpenBayes 自动建模等相关产品。按照本规范数据集格式之后,自动建模可以使用该数据集自动构建深度学习模型。

OpenBayes 数据格式以 meta.csv 为数据集的主要格式文件,文件以 csv 格式为主体:

  • 第一行为字段类型和字段名称,格式为:[类型]_[名称]
  • 第二行以及以后每一行为数据样本。

字段名称

  1. 字段名称使用大小写英文字母命名。
  2. 以“*”号为首的字段会忽略,自动建模训练过程会忽略该字段。
  3. Label 作为专属字段,专指训练数据中的标签,字段名称中只能有一个字段名是 Label

字段类型

字段类型表示该列字段的数据类型,其中包括简单字段:int、float、category、txt,简单字段的值就是 meta.csv 中每一行对应列的值。另一类是复杂字段:text、image、video、json,复杂字段因为无法在 meta.csv 中表示,所以复杂字段对应的值是一个相对路径,表示该字段的值在数据集中对应的文件。

  • int - 整数值
  • float - 浮点数
  • category - 分类值
  • txt - 短文本值
  • text - 文本文件,文件中的全部内容
  • image - 图片文件,格式包括:jpg、png、tif
  • video - 视频文件,格式包括:mp4
  • json - 复杂标注数据,根据不同的问题,会有对应的定义方式

各类问题的数据格式

目标检测

目标检测由于 Label 字段内容多,所以使用单独的 Json 文件作为标注,001.jpg 是一张原图,001.json 则是改图中若干个物体标注和对应类型。

json_Label,image_Source
labels/001.json,images/001.jpg

详细描述见目标检测

语义分割

001_mask.jpg 和 001.jpg 是相同大小的两张图片,001_mask.jpg 中每个像素是 001.jpg 对应位置的标注。

image_Label,image_Source
images/001_mask.jpg,images/001.jpg

实例分割

实例分割

FAQ

  1. 标注的文件名和文件内容中,最好只使用英文、数字、下划线等字符。避免出现中文,以防止非预期的编码问题。
  2. 标注规范中的坐标全部是相对位置坐标,如下图,坐标点是(X/800, Y/600)