数据集的版本

Updated , 去 GitHub 贡献本页面

创建新的版本

数据集每次创建成功后将会以递增的方式添加一个版本,可以在页面上「版本」的 Tab 中查看所有上传数据的版本。

注意 目前「数据集」尚不支持对特定版本进行修改,只能通过上传新的版本修改数据集的内容。

如果在上传后发现数据集版本一直处于「处理中」的状态则可能是因为数据集的解压出现了问题,这个时候可以尝试重新上传数据,数据集会为新的上传递增一个版本。上传失败的数据集可以直接删除。

切换数据集版本

打开数据集页面后默认展示最新版本的数据内容。在「版本」选项卡点击版本号即可将数据集版本切换至所选择版本,点击「概览」即可看到数据集的文件列表更新为当前版本内容。

switch-dataset-versions

在右上角的版本选项卡也可以选择版本并切换。

预览数据集版本下的文件

数据集基本信息下展示了当前选择版本的文件列表。默认展示根目录的文件内容。

列表中的目录可以展开浏览子目录中的文件,部分格式(如 .txt .csv .py .md .yaml .yml .png .jpeg .jpg .ipynb)文件支持预览。

注意 目录预览最多展示 200 个文件(或文件夹),更多的数据请在「绑定数据集」到容器中后查看。

数据的下载

「预览文件」时可以对单个文件进行下载,点击右侧的下载图标即可。也可以将整个数据集版本以 zip 压缩包的形式下载,点击「下载所有文件」即可。

注意 对于规模非常庞大的数据集下载时间可能长达数个小时甚至数天,任何网络的波动都会导致数据集下载的失败,不建议进行下载。如果有必要下载,建议也只选择必要的文件下载。