数据集的版本
创建新的版本
数据集每次创建成功后将会以递增的方式添加一个版本,可以在页面上「版本」的 Tab 中查看所有上传数据的版本。
如果在上传后发现数据集版本一直处于「处理中」的状态则可能是因为数据集的解压出现了问题,这个时候可以尝试重新上传数据,数据集会为新的上传递增一个版本。上传失败的数据集可以直接删除。
更新数据集版本的数据
目前「数据集」尚不支持对特定版本中的文件进行删除(删除某个文件),只能通过上传新的版本来删除不需要的文件。
目前数据集版本支持增量的更新数据,如下图所示点击「上传至当前目录」可以对当前数据集的当前目录进行更新,同样支持多种压缩包的自动解压。
如果当前目录下存在相同文件名的文件,新上传的文件将覆盖旧文件的内容。
数据的上传以及数据的同步依据所上传的数据大小需要一定的处理时间,在处理过程中当前数据集被标记为「处理中」该状态的数据集无法被绑定到容器中。
切换数据集版本
打开数据集页面后默认展示最新版本的数据内容。在「版本」选项卡点击版本号即可将数据集版本切换至所选择版本,点击「概览」即可看到数据集的文件列表更新为当前版本内容。
在右上角的版本选项卡也可以选择版本并切换。
预览数据集版本下的文件
数据集基本信息下展示了当前选择版本的文件列表。默认展示根目录的文件内容。
列表中的目录可以展开浏览子目录中的文件,部分格式(如 .txt .csv .py .md .yaml .yml .png .jpeg .jpg .ipynb)文件支持预览。
目录预览最多展示 200 个文件(或文件夹),更多的数据请在「绑定数据集」到容器中后查看。
数据的下载
「预览文件」时可以对单个文件进行下载,点击右侧的下载图标即可。也可以将整个数据集版本以 zip 压缩包的形式下载,点击「下载当前目录」即可。
对于规模非常庞大的数据集下载时间可能长达数个小时甚至数天,任何网络的波动都会导致数据集下载的失败,不建议进行下载。如果有必要下载,建议也只选择必要的文件下载。