Loading...
为什么LLM模型普遍选择6/7/8/9B、13B和130B这些规模?近年来,随着自然语言处理(NLP)技术的飞速发展,语言模型(LLM)的规模不断扩大。我...
R-Drop:两次前向+KL loss约束Post Training: 在领域语料上用mlm进一步预训练EFL: 少样本下,把分类问题转为匹配问题,把输入...
我从研一开始学习NLP自然语言处理,经常使用PyTorch框架。一开始用的时候对于PyTorch的显存机制也是一知半解,连蒙带猜的,经常来知乎上来找答案。...
本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。1 基于分布的方法1. 3sigma基于正态分布,3sigma...