通用大语言模型测试问题

通用大语言模型测试问题
最新回答
铅笔画不出的界限

2020-12-11 21:05:10

通用大语言模型(LLM)的核心测试问题及要点解析如下

1. 分词(Tokenization)分词是将文本拆解为子词(Subword)、字符或词单元的过程,是LLM处理输入的基础步骤。其重要性体现在两方面:一是影响模型对语义的理解,例如“unhappiness”拆分为“un”+“happiness”可保留词根与词缀的语义关联;二是决定计算效率,过长的词表会增加模型参数量,过短的拆分则可能破坏语法结构。现代LLM多采用字节对编码(BPE)或WordPiece算法,平衡词表大小与拆分合理性。

2. 注意力机制(Attention Mechanism)注意力机制通过动态计算输入序列中各位置的关联权重,使模型能聚焦关键信息。在Transformer中,自注意力(Self-Attention)通过查询(Query)、键(Key)、值(Value)的矩阵运算,生成权重分布,例如在翻译任务中,模型可同时关注源句和目标句的对应词汇。多头注意力(Multi-Head Attention)进一步扩展了模型捕捉不同语义特征的能力。

3. 上下文窗口(Context Window)上下文窗口指模型单次处理的最大输入序列长度(如2048个Token)。其重要性在于限制模型对长距离依赖的捕捉能力:窗口过小会导致信息丢失(如无法关联段落首尾的逻辑),窗口过大则增加计算复杂度。近期研究通过稀疏注意力(如Longformer)或滑动窗口(如Recurrent Memory Transformer)优化长文本处理。

4. 微调技术对比LoRA(Low-Rank Adaptation)通过低秩分解减少微调参数量(如将全连接层分解为两个小矩阵),降低存储需求;QLoRA(Quantized LoRA)进一步引入量化策略(如4-bit量化),在保持性能的同时将显存占用减少至1/6,适用于资源受限场景。两者均通过冻结预训练参数、仅更新低秩模块实现高效适配。

5. 解码策略贪心解码(Greedy Decoding)每步选择概率最高的Token,易陷入局部最优(如重复生成“the”);束搜索(Beam Search)保留多个候选序列(如束宽=5),通过全局评分(概率乘积或长度归一化)平衡多样性与准确性,但可能降低生成速度。温度参数(Temperature)可调节输出随机性:温度→0时趋近贪心解码,温度→∞时趋近均匀采样。

6. 模型评估方法评估分为内在与外在两类:内在评估如困惑度(Perplexity),衡量模型对测试数据的预测不确定性(值越低越好);外在评估基于下游任务指标(如准确率、BLEU分数)。医学领域专用平台MedBench提出结构化评估(如医学知识问答准确率)与自由文本评估(如Macro-Recall结合LLM-as-a-Judge加权)的混合指标,更贴合专业场景需求。

7. 生成式与判别式模型区别生成式模型(如GPT)学习联合概率分布 $P(X,Y)$,可生成新数据(如文本续写);判别式模型(如BERT)学习条件概率分布 $P(Y|X)$,专注于分类或回归任务(如情感分析)。前者需自回归生成,后者可通过并行计算提升效率。