type
status
date
slug
summary
tags
category
icon
password
embedding
query
是查询, pos
是正面文本列表, neg
是反面文本列表。 pos_scores
是与 query
和 pos
相对应的分数列表, neg_scores
是与 query
和 neg
相对应的分数列表,如果不使用知识提炼,可以忽略它。 prompt
是用于查询的提示,它将涵盖 query_instruction_for_retrieval
。 type
用于 bge-en-icl
,它包括 normal
、 symmetric_class
、 symmetric_clustering
...等。如果某个查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。
rerank
query
是查询, pos
是正面文本列表, neg
是反面文本列表。 pos_scores
是与 query
和 pos
相对应的分数列表, neg_scores
是与 query
和 neg
相对应的分数列表,如果不使用知识提炼,可以忽略它。 prompt
是用于输入的提示符,输入格式如下: query [sep] passage [sep] prompt
。如果查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。pretraining
在预训练中,只有
text
列将用于模型学习。SFT
与 alpaca 格式相比,sharegpt 格式允许数据集有更多角色,如人类、gpt、观察和功能。它们以
conversations
列中的对象列表形式显示。human
和 observation
应出现在奇数位置,而 gpt
和 function
应出现在偶数位置。偏好数据集用于 reward modeling、DPO 训练、ORPO 和 SimPO 训练。
Sharegpt 格式的偏好数据集也要求在
chosen
列中提供较好的信息,而在 rejected
列中提供较差的信息。PPO
全是
query
的数据集,可以是 SFT 数据集中 query (instruction)部分KTO
KTO 数据集需要一个额外的
kto_tag
列,其中包含布尔类型的人类反馈。Multimodal Image Dataset 多模态图像数据集
多模态图像数据集需要一个
images
列,其中包含输入图像的路径。图片数量应与对话中的
<image>
标记相同。Multimodal Video Dataset 多模态视频数据集
多模态视频数据集需要一个
videos
列,其中包含输入视频的路径。视频数量应与对话中的
<video>
标记相同。
- 作者:SimonSun
- 链接:https://simons-blog-eight.vercel.app//article/llm-7
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。