通用大语言模型测试问题

通用大语言模型（LLM）的核心测试问题及要点解析如下：

1. 分词（Tokenization）分词是将文本拆解为子词（Subword）、字符或词单元的过程，是LLM处理输入的基础步骤。其重要性体现在两方面：一是影响模型对语义的理解，例如“unhappiness”拆分为“un”+“happiness”可保留词根与词缀的语义关联；二是决定计算效率，过长的词表会增加模型参数量，过短的拆分则可能破坏语法结构。现代LLM多采用字节对编码（BPE）或WordPiece算法，平衡词表大小与拆分合理性。

2. 注意力机制（Attention Mechanism）注意力机制通过动态计算输入序列中各位置的关联权重，使模型能聚焦关键信息。在Transformer中，自注意力（Self-Attention）通过查询（Query）、键（Key）、值（Value）的矩阵运算，生成权重分布，例如在翻译任务中，模型可同时关注源句和目标句的对应词汇。多头注意力（Multi-Head Attention）进一步扩展了模型捕捉不同语义特征的能力。

3. 上下文窗口（Context Window）上下文窗口指模型单次处理的最大输入序列长度（如2048个Token）。其重要性在于限制模型对长距离依赖的捕捉能力：窗口过小会导致信息丢失（如无法关联段落首尾的逻辑），窗口过大则增加计算复杂度。近期研究通过稀疏注意力（如Longformer）或滑动窗口（如Recurrent Memory Transformer）优化长文本处理。

4. 微调技术对比LoRA（Low-Rank Adaptation）通过低秩分解减少微调参数量（如将全连接层分解为两个小矩阵），降低存储需求；QLoRA（Quantized LoRA）进一步引入量化策略（如4-bit量化），在保持性能的同时将显存占用减少至1/6，适用于资源受限场景。两者均通过冻结预训练参数、仅更新低秩模块实现高效适配。

5. 解码策略贪心解码（Greedy Decoding）每步选择概率最高的Token，易陷入局部最优（如重复生成“the”）；束搜索（Beam Search）保留多个候选序列（如束宽=5），通过全局评分（概率乘积或长度归一化）平衡多样性与准确性，但可能降低生成速度。温度参数（Temperature）可调节输出随机性：温度→0时趋近贪心解码，温度→∞时趋近均匀采样。

6. 模型评估方法评估分为内在与外在两类：内在评估如困惑度（Perplexity），衡量模型对测试数据的预测不确定性（值越低越好）；外在评估基于下游任务指标（如准确率、BLEU分数）。医学领域专用平台MedBench提出结构化评估（如医学知识问答准确率）与自由文本评估（如Macro-Recall结合LLM-as-a-Judge加权）的混合指标，更贴合专业场景需求。

7. 生成式与判别式模型区别生成式模型（如GPT）学习联合概率分布 $P(X,Y)$，可生成新数据（如文本续写）；判别式模型（如BERT）学习条件概率分布 $P(Y|X)$，专注于分类或回归任务（如情感分析）。前者需自回归生成，后者可通过并行计算提升效率。

您可能感兴趣问答

Collapsible

热门标签

热点问答