Data Engineering

用LitData Viewer查看LitData数据内容

November 21, 2025

最近从WebDataset切换到LitData，LitData是PyTorch Lightning同公司开发的，刚发布的时候我就尝试过，当时bug比较多就放弃了。经过一年多的迭代，已经非常强大。而且它和PyTorch Lightning框架解耦，可以单独在任意训练/推理pipeline中使用。支持读取多种shards：LitData格式、HF Parquet格式、MosaicML格式，还可以通过StreamingRawDataset直接在原始数据上实现流式。

从huggingface增量下载大量数据

March 1, 2025

最近Emilia数据集又发布了11.4万小时语音数据YODAS，之前我已经下载了10万小时数据，由于之前处理数据后没有保存原始仓库，导致无法直接git pull更新。

语音合成数据准备流程

October 17, 2024

在开发高质量的文本转语音(TTS)系统时，数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。

尝试LitData和WebDataset对比

July 28, 2024

[2025年11月更新：一年多时间LitData更新非常大，最近会再测一下]

在relay单向访问环境下通过HTTP服务器实现文件中继传输

July 16, 2024

假设服务器可以直接访问本地电脑的IP地址，但本地电脑通过relay访问服务器。我们可以通过本地HTTP服务器将Windows本地电脑的大量文件上传到服务器。