LLaMA-Factory 数据集成从入门到精通

用户国营 · 2025-4-11 07:04:17

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

一、框架概述

LLaMA-Factory 框架通过Alpaca/Sharegpt双格式体系实现多使命适配，其中Alpaca专注结构化指令微调（含SFT/DPO/预训练），Sharegpt支持多脚色对话及多模态数据集成。核心设置依托 dataset_info.json 实现数据源映射、格式界说（formatting）、列名绑定（columns）及脚色标签（tags）设置，需特别留意多模态路径与文本标志的严格匹配。优先级规则遵循：云端堆栈 > 当地脚本 > 文件直读，设置时须规避脚色标签冲突和路径验证疏漏等常见误区。

二、数据集设置规范

dataset_info.json 包罗了所有可用的数据集。假如您盼望使用自界说数据集，请务必在 dataset_info.json 文件中添加数据集形貌，并通过修改 dataset: 数据集名称设置来使用数据集。
目前我们支持 alpaca 格式和 sharegpt 格式的数据集。

"数据集名称": {
"hf_hub_url": "Hugging Face 的数据集仓库地址（若指定，则忽略 script_url 和 file_name）",
"ms_hub_url": "ModelScope 的数据集仓库地址（若指定，则忽略 script_url 和 file_name）",
"script_url": "包含数据加载脚本的本地文件夹名称（若指定，则忽略 file_name）",
"file_name": "该目录下数据集文件夹或文件的名称（若上述参数未指定，则此项必需）",
"formatting": "数据集格式（可选，默认：alpaca，可以为 alpaca 或 sharegpt）",
"ranking": "是否为偏好数据集（可选，默认：False）",
"subset": "数据集子集的名称（可选，默认：None）",
"split": "所使用的数据集切分（可选，默认：train）",
"folder": "Hugging Face 仓库的文件夹名称（可选，默认：None）",
"num_samples": "该数据集所使用的样本数量。（可选，默认：None）",
"columns（可选）": {
"prompt": "数据集代表提示词的表头名称（默认：instruction）",
"query": "数据集代表请求的表头名称（默认：input）",
"response": "数据集代表回答的表头名称（默认：output）",
"history": "数据集代表历史对话的表头名称（默认：None）",
"messages": "数据集代表消息列表的表头名称（默认：conversations）",
"system": "数据集代表系统提示的表头名称（默认：None）",
"tools": "数据集代表工具描述的表头名称（默认：None）",
"images": "数据集代表图像输入的表头名称（默认：None）",
"videos": "数据集代表视频输入的表头名称（默认：None）",
"audios": "数据集代表音频输入的表头名称（默认：None）",
"chosen": "数据集代表更优回答的表头名称（默认：None）",
"rejected": "数据集代表更差回答的表头名称（默认：None）",
"kto_tag": "数据集代表 KTO 标签的表头名称（默认：None）"
},
"tags（可选，用于 sharegpt 格式）": {
"role_tag": "消息中代表发送者身份的键名（默认：from）",
"content_tag": "消息中代表文本内容的键名（默认：value）",
"user_tag": "消息中代表用户的 role_tag（默认：human）",
"assistant_tag": "消息中代表助手的 role_tag（默认：gpt）",
"observation_tag": "消息中代表工具返回结果的 role_tag（默认：observation）",
"function_tag": "消息中代表工具调用的 role_tag（默认：function_call）",
"system_tag": "消息中代表系统提示的 role_tag（默认：system，会覆盖 system column）"
}
}

复制代码

Alpaca 格式

指令监督微调数据集

样例数据集

在指令监督微调时，instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令，即人类指令为 instruction\ninput。而 output 列对应的内容为模型回答。
假如指定，system 列对应的内容将被作为系统提示词。
history 列是由多个字符串二元组构成的列表，分别代表历史消息中每轮对话的指令和回答。留意在指令监督微调时，历史消息中的回答内容也会被用于模型学习。

[
{
"instruction": "人类指令（必填）",
"input": "人类输入（选填）",
"output": "模型回答（必填）",
"system": "系统提示词（选填）",
"history": [
["第一轮指令（选填）", "第一轮回答（选填）"],
["第二轮指令（选填）", "第二轮回答（选填）"]
]
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"columns": {
"prompt": "instruction",
"query": "input",
"response": "output",
"system": "system",
"history": "history"
}
}

复制代码

预训练数据集

样例数据集

在预训练时，只有 text 列中的内容会用于模型学习。

[
{"text": "document"},
{"text": "document"}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"columns": {
"prompt": "text"
}
}

复制代码

偏好数据集

偏好数据集用于奖励模型训练、DPO 训练、ORPO 训练和 SimPO 训练。
它必要在 chosen 列中提供更优的回答，并在 rejected 列中提供更差的回答。

[
{
"instruction": "人类指令（必填）",
"input": "人类输入（选填）",
"chosen": "优质回答（必填）",
"rejected": "劣质回答（必填）"
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"ranking": true,
"columns": {
"prompt": "instruction",
"query": "input",
"chosen": "chosen",
"rejected": "rejected"
}
}

复制代码

KTO 数据集

KTO 数据集必要提供额外的 kto_tag 列。详情请参阅 sharegpt。
多模态图像数据集

多模态图像数据集必要提供额外的 images 列。详情请参阅 sharegpt。
多模态视频数据集

多模态视频数据集必要提供额外的 videos 列。详情请参阅 sharegpt。
多模态音频数据集

多模态音频数据集必要提供额外的 audios 列。详情请参阅 sharegpt。
Sharegpt 格式

指令监督微调数据集

样例数据集

相比 alpaca 格式的数据集，sharegpt 格式支持更多的脚色种类，例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 conversations 列中。
留意其中 human 和 observation 必须出现在奇数位置，gpt 和 function 必须出现在偶数位置。

[
{
"conversations": [
{
"from": "human",
"value": "人类指令"
},
{
"from": "function_call",
"value": "工具参数"
},
{
"from": "observation",
"value": "工具结果"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"system": "系统提示词（选填）",
"tools": "工具描述（选填）"
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"system": "system",
"tools": "tools"
}
}

复制代码

预训练数据集

尚不支持，请使用 alpaca 格式。
偏好数据集

样例数据集

Sharegpt 格式的偏好数据集同样必要在 chosen 列中提供更优的消息，并在 rejected 列中提供更差的消息。

[
{
"conversations": [
{
"from": "human",
"value": "人类指令"
},
{
"from": "gpt",
"value": "模型回答"
},
{
"from": "human",
"value": "人类指令"
}
],
"chosen": {
"from": "gpt",
"value": "优质回答"
},
"rejected": {
"from": "gpt",
"value": "劣质回答"
}
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"ranking": true,
"columns": {
"messages": "conversations",
"chosen": "chosen",
"rejected": "rejected"
}
}

复制代码

KTO 数据集

样例数据集

KTO 数据集必要额外添加一个 kto_tag 列，包罗 bool 类型的人类反馈。

[
{
"conversations": [
{
"from": "human",
"value": "人类指令"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"kto_tag": "人类反馈 [true/false]（必填）"
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"kto_tag": "kto_tag"
}
}

复制代码

多模态图像数据集

样例数据集

多模态图像数据集必要额外添加一个 images 列，包罗输入图像的路径。
留意图片的数量必须与文本中所有 <image> 标志的数量严格一致。

[
{
"conversations": [
{
"from": "human",
"value": "<image>人类指令"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"images": [
"图像路径（必填）"
]
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"images": "images"
}
}

复制代码

多模态视频数据集

样例数据集

多模态视频数据集必要额外添加一个 videos 列，包罗输入视频的路径。
留意视频的数量必须与文本中所有 <video> 标志的数量严格一致。

[
{
"conversations": [
{
"from": "human",
"value": "<video>人类指令"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"videos": [
"视频路径（必填）"
]
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"videos": "videos"
}
}

复制代码

多模态音频数据集

样例数据集

多模态音频数据集必要额外添加一个 audios 列，包罗输入音频的路径。
留意音频的数量必须与文本中所有 <audio> 标志的数量严格一致。

[
{
"conversations": [
{
"from": "human",
"value": "<audio>人类指令"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"audios": [
"音频路径（必填）"
]
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"audios": "audios"
}
}

复制代码

OpenAI 格式

OpenAI 格式仅仅是 sharegpt 格式的一种特别情况，其中第一条消息大概是系统提示词。

[
{
"messages": [
{
"role": "system",
"content": "系统提示词（选填）"
},
{
"role": "user",
"content": "人类指令"
},
{
"role": "assistant",
"content": "模型回答"
}
]
}
]

复制代码

对于上述格式的数据，dataset_info.json 中的数据集形貌应为：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "messages"
},
"tags": {
"role_tag": "role",
"content_tag": "content",
"user_tag": "user",
"assistant_tag": "assistant",
"system_tag": "system"
}
}

复制代码

三、常见标题排查

标题：dataset_info.json 中 hf_hub_url、ms_hub_url、script_url、file_name 的优先级关系是什么？
答案：
优先级为 hf_hub_url/ms_hub_url > script_url > file_name。若指定了 hf_hub_url 或 ms_hub_url，系统会直接从 Hugging Face 或 ModelScope 加载数据集，忽略 script_url 和 file_name；若未指定，则依次检查 script_url 和 file_name。
误区举例：用户大概同时填写多个字段（如同时指定 hf_hub_url 和 file_name），导致实际加载数据集时忽略当地文件，引发数据路径错误。

标题：偏好数据集（DPO/ORPO）的设置中，Alpaca 格式和 Sharegpt 格式的 columns 字段有何差异？
答案：

Alpaca 格式需指定 chosen 和 rejected 列，对应优质和劣质回答，并设置 "ranking": true。
Sharegpt 格式需将 chosen 和 rejected 设置为消息对象（如 {"from": "gpt", "value": "回答"}），并同样设置 "ranking": true。

误区举例：用户大概误将 Sharegpt 格式的 chosen/rejected 设置为纯文本（而非消息对象），导致分析失败；或在 Alpaca 格式中遗漏 "ranking": true，导致数据集未被辨认为偏好类型。

标题：多模态数据集（如图像）的设置中，images 列与文本中的 <image> 标志为何需严格数量一致？
答案：
images 列中的文件路径数量必须与文本中 <image> 标志的数量完全一致，以确保模型能正确关联图像输入与文本指令。例如，若文本中有 2 个 <image> 标志，则 images 列必须包罗 2 个路径。
误区举例：用户大概在数据预处理时未检查标志数量与文件路径的匹配性，导致训练时因数据格式错误而停止。

标题：Sharegpt 格式的 tags 字段（如 role_tag、user_tag）有何作用？如何适配 OpenAI 格式数据？
答案：

tags 字段用于自界说消息中脚色和内容的键名。例如，OpenAI 格式的 role 和 content 需通过 tags 映射为 role_tag: "role" 和 content_tag: "content"。
适配 OpenAI 格式需额外设置 user_tag: "user"、assistant_tag: "assistant"、system_tag: "system"。

误区举例：用户大概未正确设置 tags，导致无法分析第三方格式（如 OpenAI）的消息结构，或因脚色标签冲突（如 system 覆盖系统列）引发错误。

标题：KTO 数据集的 kto_tag 列在设置时必要留意什么？
答案：
kto_tag 列需包罗布尔类型（True/False）的标签，表现人类对回答的反馈。在 dataset_info.json 中需显式声明 "kto_tag": "列名"，且数据集格式必须为 Sharegpt。
误区举例：用户大概误将 kto_tag 设置为字符串（如 "true" 而非布尔值 true），或忘记设置 "formatting": "sharegpt"，导致数据加载失败。

标题：在 Alpaca 格式中，history 列的作用是什么？如何正确设置它？
答案：

作用: history 列存储历史对话的指令和回答（二元组列表），用于多轮对话场景。模型会学习历史对话内容，而不但是当前指令和回答。
设置: 需在 dataset_info.json 中明确指定 "history": "列名"，且数据格式应为 [["指令1", "回答1"], ["指令2", "回答2"]]。

误区举例: 用户大概忽略 history 列的存在，导致多轮对话数据未被利用；或错误设置为单字符串（如 "instruction,answer"），引发分析错误。

标题：预训练数据集的 Alpaca 格式为何只需 text 列？如何与指令微调数据集区分？
答案：

原因: 预训练目标是学习通用文本表现，因此仅需原始文本（text 列），无需指令或回答结构。
区分: 指令微调需 instruction/output 等列，而预训练只需 "columns": {"prompt": "text"}。若误用指令数据设置预训练，会导致模型忽略关键字段。

误区举例: 用户大概混淆预训练和微调的数据格式，错误地将指令数据用于预训练，浪费计算资源。

标题：Sharegpt 格式中，tools 列的作用是什么？是否必须与 function_call 脚色配合使用？
答案：

作用: tools 列界说工具的形貌（如 API 文档），供模型天生工具调用参数（function_call 脚色）。
配合要求: 是。若数据包罗 function_call 消息，则需提供 tools 列；若无工具调用，可省略。

误区举例: 用户大概遗漏 tools 列但保留 function_call 消息，导致模型无法理解工具界说；或反向误配，引发训练错误。

标题：如何正确处理多模态数据（如图像、视频）中的路径标题？
答案：

要求: 文件路径需为绝对路径或相对于数据集根目录的相对路径，且确保文件实际存在。
验证: 在加载数据集前，应检查 images/videos/audios 列中的路径是否有效，制止因路径错误导致训练停止。

误区举例: 用户大概使用错误路径格式（如未处理系统路径分隔符差异），或未验证文件是否存在，导致多模态数据加载失败。

标题：subset 和 split 字段在 dataset_info.json 中有何区别？
答案：

subset: 指定 Hugging Face/ModelScope 数据集的子集名称（如 "zh" 表现中文子集）。
split: 界说数据切分（如 train、test），默认为 train。两者可同时使用（如 "subset": "zh", "split": "test"）。

误区举例: 用户大概误将 subset 当作数据切分，或混淆两者优先级，导致加载错误的数据子集。

标题：如作甚自界说数据集选择正确的 formatting 值（alpaca 或 sharegpt）？
答案：

关键判定点:
- 脚色多样性: 若需多脚色（如 human/gpt/function），选 sharegpt。
- 工具/多模态支持: 涉及工具调用或媒体输入时，必须用 sharegpt。
- 结构简化性: 若仅需 instruction-output 结构，用 alpaca。

误区举例: 用户大概因未全面评估数据复杂度而选错格式，导致后续设置无法适配。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

LLaMA-Factory 数据集成从入门到精通

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块