本文LLaMA-Berry框架通过将Self-Refine应用于Monte Carlo Tree Search (SR-MCTS),显著进步了大型语言模子的解生成效率,然后以有向图的形式构建一个全局输赢矩阵来盘算最终的分位数分数,结合PPRM将绝对评分转换为偏好猜测任务,构建了解决方案之间的偏好,而且使用加强EBC方法盘算得到最终的全局分位得分。
本文方法
ϕ \phi ϕ表现奖励模子的参数。a1和a2是两个不同的解决方案。 a 1 > a 2 a_1>a_2 a1>a2使用LLM生成的token表现。
成对偏好模子训练
文中将PPRM的训练过程构建为问答任务,以利用大型语言模子的指令遵循本领。模子的任务是复兴问题:
For Question Q, is solution a1 better than solution a2?
为了形成一个鲁棒的训练目标,使用指标函数I,使用真实值标签y对猜测的标志y(“是”或“否”)举行评估:
基于Borda计数的全局排名
在传递闭包矩阵C的基础上,采用加强的Borda计数方法举行全局排序。加强Borda计数通过盘算每个节点的出度来确定每个节点的排名,出度对应于它失败的节点数目。对于每个节点vi,界说Borda(vi)为 ∑ j = 1 n = C i , j \sum_{j=1}^n=C_{i,j} ∑j=1n=Ci,j,如上图所示的排序节点。出度越小,排名越高。反之,排名越小。
在实践中,循环偏好可能会导致淳厚Borda计数方法产生的效率问题。为了进一步优化排名,作者设计了一个重新排名阶段,此中PPRM生成的逻辑用于『具有类似Borda计数的节点之间的软比较』。具体来说,对于具有相等Borda计数的两个节点vi和vj,软比较规则可以表现为
解的全局分位数得分
末了,将排名转换为全局分位数分数Qg,每个解决方案v为 Q g ( v ) = 1 − r a n k ( v ) − 1 ∣ V ∣ − 1 Q_g(v)=1-\frac{rank(v)-1}{|V|-1} Qg(v)=1−∣V∣−1rank(v)−1。
此中rank(v)为基于Borda计数的v在排名中的位置,| v |为节点总数。为了反映搜索树结构中的局部上风,在C中盘算节点v及其子节点Children_v的局部胜率Ql(v)如下所示: