type
status
date
slug
summary
tags
category
icon
password
embedding
query 是查询, pos 是正面文本列表, neg 是反面文本列表。 pos_scores 是与 query 和 pos 相对应的分数列表, neg_scores 是与 query 和 neg 相对应的分数列表,如果不使用知识提炼,可以忽略它。 prompt 是用于查询的提示,它将涵盖 query_instruction_for_retrieval 。 type 用于 bge-en-icl ,它包括 normal 、 symmetric_class 、 symmetric_clustering ...等。如果某个查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。
rerank
query 是查询, pos 是正面文本列表, neg 是反面文本列表。 pos_scores 是与 query 和 pos 相对应的分数列表, neg_scores 是与 query 和 neg 相对应的分数列表,如果不使用知识提炼,可以忽略它。 prompt 是用于输入的提示符,输入格式如下: query [sep] passage [sep] prompt 。如果查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。pretraining
在预训练中,只有
text 列将用于模型学习。SFT
与 alpaca 格式相比,sharegpt 格式允许数据集有更多角色,如人类、gpt、观察和功能。它们以
conversations 列中的对象列表形式显示。human 和 observation 应出现在奇数位置,而 gpt 和 function 应出现在偶数位置。偏好数据集用于 reward modeling、DPO 训练、ORPO 和 SimPO 训练。
Sharegpt 格式的偏好数据集也要求在
chosen 列中提供较好的信息,而在 rejected 列中提供较差的信息。PPO
全是
query的数据集,可以是 SFT 数据集中 query (instruction)部分KTO
KTO 数据集需要一个额外的
kto_tag 列,其中包含布尔类型的人类反馈。Multimodal Image Dataset 多模态图像数据集
多模态图像数据集需要一个
images 列,其中包含输入图像的路径。图片数量应与对话中的
<image> 标记相同。Multimodal Video Dataset 多模态视频数据集
多模态视频数据集需要一个
videos 列,其中包含输入视频的路径。视频数量应与对话中的
<video> 标记相同。
- 作者:SimonSun
- 链接:https://simonsun.xyz//article/llm-7
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章









