【前端】html不渲染换行\n\t\r等的问题-CFANZ编程社区

LORA概述: 大语言模型的低阶适应

LORA: 大语言模型的低阶适应

LORA: 大语言模型的低阶适应

前言

在这里插入图片描述

摘要

论文十问

论文试图解决什么问题？

这是否是一个新的问题？

这篇文章要验证一个什么科学假设？

有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

论文中提到的解决方案之关键是什么？

论文中的实验是如何设计的？

用于定量评估的数据集是什么？代码有没有开源？

论文中的实验及结果有没有很好地支持需要验证的科学假设？

这篇论文到底有什么贡献？

下一步呢？有什么工作可以继续深入？

实验

RoBERTa

DeBERTa

GPT-2

GPT-3

结论

实际好处：

内存和存储使用减少： 在使用Adam训练的大型Transformer中，通过使用LoRA，显著减少了VRAM（显存）和存储的使用量。例如，在GPT-3 175B上，将训练期间的VRAM消耗从1.2TB减少到350GB。
检查点大小减小： 在一定条件下，检查点大小减少了大约10,000倍，从350GB减少到35MB。这降低了GPU训练的硬件需求，并避免了I/O瓶颈。
任务切换成本降低： LoRA允许在任务之间进行切换，通过仅交换LoRA权重而不是所有参数，降低了部署的成本。这使得可以在机器上动态换入和换出预训练权重，创建自定义模型。
加速训练： 在GPT-3 175B的训练中，相较于完全微调，观察到25%的加速，因为不需要计算绝大多数参数的梯度。

局限性：

前向传递复杂性： 吸收不同任务的A和B到W中，以消除额外推理延迟，在单个前向传递中批量输入并不简单。需要考虑不同任务的权重合并和动态选择LoRA模块的复杂性。
推理延迟问题： 尽管可以动态选择LoRA模块以处理不同任务的推理延迟，但在一些场景中，合并权重可能引入不可避免的问题。

代码调用

from transformers import AutoModelForSeq2SeqLM
from peft import PeftModel, PeftConfig

peft_model_id = "smangrul/twitter_complaints_bigscience_T0_3B_LORA_SEQ_2_SEQ_LM"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path)
model = PeftModel.from_pretrained(model, peft_model_id)
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

model = model.to(device)
model.eval()
inputs = tokenizer("Tweet text : @HondaCustSvc Your customer service has been horrible during the recall process. I will never purchase a Honda again. Label :", return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=10)
    print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])