LLM训练数据格式 | Blog de Simon🫣

type

status

date

slug

summary

query 是查询， pos 是正面文本列表， neg 是反面文本列表。

pos_scores 是与 query 和 pos 相对应的分数列表， neg_scores 是与 query 和 neg 相对应的分数列表，如果不使用知识提炼，可以忽略它。

prompt 是用于查询的提示，它将涵盖 query_instruction_for_retrieval 。

type 用于 bge-en-icl ，它包括 normal 、 symmetric_class 、 symmetric_clustering ...等。如果某个查询没有负面文本，可以从整个语料库中随机抽取一些文本作为负面文本。

query 是查询， pos 是正面文本列表， neg 是反面文本列表。

pos_scores 是与 query 和 pos 相对应的分数列表， neg_scores 是与 query 和 neg 相对应的分数列表，如果不使用知识提炼，可以忽略它。

prompt 是用于输入的提示符，输入格式如下： query [sep] passage [sep] prompt 。如果查询没有负面文本，可以从整个语料库中随机抽取一些文本作为负面文本。

在预训练中，只有 text 列将用于模型学习。

与 alpaca 格式相比，sharegpt 格式允许数据集有更多角色，如人类、gpt、观察和功能。它们以 conversations 列中的对象列表形式显示。

human 和 observation 应出现在奇数位置，而 gpt 和 function 应出现在偶数位置。

Sharegpt 格式的偏好数据集也要求在 chosen 列中提供较好的信息，而在 rejected 列中提供较差的信息。

全是 query的数据集，可以是 SFT 数据集中 query （instruction）部分

KTO 数据集需要一个额外的 kto_tag 列，其中包含布尔类型的人类反馈。

多模态图像数据集需要一个 images 列，其中包含输入图像的路径。

图片数量应与对话中的 <image> 标记相同。

多模态视频数据集需要一个 videos 列，其中包含输入视频的路径。

视频数量应与对话中的 <video> 标记相同。