OpenBayes 自动建模数据格式规范介绍
介绍
OpenBayes 数据格式是 OpenBayes 定义的一套数据集格式整理标准,用于 OpenBayes 自动建模等相关产品。按照本规范数据集格式之后,自动建模可以使用该数据集自动构建深度学习模型。
OpenBayes 数据格式以 meta.csv 为数据集的主要格式文件,文件以 csv 格式为主体:
- 第一行为字段类型和字段名称,格式为:[类型]_[名称]
- 第二行以及以后每一行为数据样本。
字段名称
- 字段名称使用大小写英文字母命名。
- 以“*”号为首的字段会忽略,自动建模训练过程会忽略该字段。
- Label 作为专属字段,专指训练数据中的标签,字段名称中只能有一个字段名是 Label。
字段类型
字段类型表示该列字段的数据类型,其中包括简单字段:int、float、category、txt,简单字段的值就是 meta.csv 中每一行对应列的值。另一类是复杂字段:text、image、video、json,复杂字段因为无法在 meta.csv 中表示,所以复杂字段对应的值是一个相对路径,表示该字段的值在数据集中对应的文件。
- int - 整数值
- float - 浮点数
- category - 分类值
- txt - 短文本值
- text - 文本文件,文件中的全部内容
- image - 图片文件,格式包括:jpg、png、tif
- video - 视频文件,格式包括:mp4
- json - 复杂标注数据,根据不同的问题,会有对应的定义方式
各类问题的数据格式
目标检测
目标检测由于 Label 字段内容多,所以使用单独的 Json 文件作为标注,001.jpg 是一张原图,001.json 则是改图中若干个物体标注和对应类型。
json_Label,image_Source
labels/001.json,images/001.jpg
详细描述见目标检测
语义分割
001_mask.jpg 和 001.jpg 是相同大小的两张图片,001_mask.jpg 中每个像素是 001.jpg 对应位置的标注。
image_Label,image_Source
images/001_mask.jpg,images/001.jpg
实例分割
实例分割
FAQ
- 标注的文件名和文件内容中,最好只使用英文、数字、下划线等字符。避免出现中文,以防止非预期的编码问题。
- 标注规范中的坐标全部是相对位置坐标,如下图,坐标点是(X/800, Y/600)