type
status
date
slug
summary
tags
category
icon
password
编辑词表,增加特殊token,并且使用相关的token进行初始化
1. preparation
- 加载模型
- 设置 special tokens
- 保存 model 和 tokenizer
2. 更新并初始化模型的embeddings
- 更新embedding
新token和旧token在模型内部的表示(即embedding)是非常相似的,主要是因为我们通过计算旧token的embedding均值来生成新token的embedding。这使得新token能够在模型中具有与旧token相似的表示,从而保证模型能够理解并正确处理这些新token。
- 保存模型
3. 全部串起来
- 作者:SimonSun
- 链接:https://simons-blog-eight.vercel.app//article/llm-5
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。