type
status
date
slug
summary
tags
category
icon
password

embedding

query 是查询, pos 是正面文本列表, neg 是反面文本列表。 
pos_scores 是与 query 和 pos 相对应的分数列表, neg_scores 是与 query 和 neg 相对应的分数列表,如果不使用知识提炼,可以忽略它。 
prompt 是用于查询的提示,它将涵盖 query_instruction_for_retrieval 。 
type 用于 bge-en-icl ,它包括 normal 、 symmetric_class 、 symmetric_clustering ...等。如果某个查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。

rerank

query 是查询, pos 是正面文本列表, neg 是反面文本列表。 
pos_scores 是与 query 和 pos 相对应的分数列表, neg_scores 是与 query 和 neg 相对应的分数列表,如果不使用知识提炼,可以忽略它。 
prompt 是用于输入的提示符,输入格式如下: query [sep] passage [sep] prompt 。如果查询没有负面文本,可以从整个语料库中随机抽取一些文本作为负面文本。

pretraining

在预训练中,只有 text 列将用于模型学习。

SFT

与 alpaca 格式相比,sharegpt 格式允许数据集有更多角色,如人类、gpt、观察和功能。它们以 conversations 列中的对象列表形式显示。
humanobservation 应出现在奇数位置,而 gptfunction 应出现在偶数位置。
 

偏好数据集用于 reward modeling、DPO 训练、ORPO 和 SimPO 训练

Sharegpt 格式的偏好数据集也要求在 chosen 列中提供较好的信息,而在 rejected 列中提供较差的信息。

 PPO

全是 query的数据集,可以是 SFT 数据集中 query (instruction)部分

 KTO

KTO 数据集需要一个额外的 kto_tag 列,其中包含布尔类型的人类反馈。

Multimodal Image Dataset 多模态图像数据集

多模态图像数据集需要一个 images 列,其中包含输入图像的路径。
图片数量应与对话中的 <image> 标记相同。

Multimodal Video Dataset  多模态视频数据集

多模态视频数据集需要一个 videos 列,其中包含输入视频的路径。
视频数量应与对话中的 <video> 标记相同。
 
conda poetry 全面迁移到 uv郁闷记
Loading...
SimonSun
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
最新发布
服务器从零到 personal workspace
2025-3-21
VLLM 部署常用参数解释
2025-3-18
PPO(1)算法详解
2025-3-18
相机入门记录(1)购物篇
2025-3-18
Last Day of 2024
2025-3-18
郁闷记
2025-3-18
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐