Key points are not available for this paper at this time.
Desenhar metodologias de elicitação de preferências (PE) que possam rapidamente determinar as principais preferências de itens de um usuário em um cenário de arranque a frio é um desafio fundamental para a construção de sistemas de recomendação conversacional (ConvRec) eficazes e personalizados. Embora grandes modelos de linguagem (LLMs) permitam diálogos de PE totalmente em linguagem natural (NL), hipotetizamos que abordagens monolíticas LLM NL-PE carecem do raciocínio multi-turno e teórico da decisão necessário para equilibrar efetivamente a exploração e a exploração das preferências do usuário em relação a um conjunto arbitrário de itens. Em contraste, métodos tradicionais de otimização bayesiana para PE definem estratégias de PE teoricamente ótimas, mas não conseguem gerar consultas NL arbitrárias ou raciocinar sobre o conteúdo nas descrições de itens NL — exigindo que os usuários expressem preferências por meio de classificações ou comparações de itens desconhecidos. Para superar as limitações de ambas as abordagens, formulamos NL-PE em uma estrutura de Otimização Bayesiana (BO) que busca elicitar ativamente feedback NL para identificar a melhor recomendação. Desafios-chave na generalização de BO para lidar com feedback em linguagem natural incluem determinar: (a) como aproveitar LLMs para modelar a probabilidade de feedback de preferência NL como uma função das utilidades dos itens, e (b) como projetar uma função de aquisição para BO NL que possa elicitar preferências no espaço infinito da linguagem. Nós demonstramos nossa estrutura em um novo algoritmo NL-PE, PEBOL, que utiliza: 1) Inferência em Linguagem Natural (NLI) entre enunciados de preferência do usuário e descrições de itens NL para manter crenças de preferência bayesianas, e 2) estratégias BO como Amostragem de Thompson (TS) e Limite Superior de Confiança (UCB) para direcionar a geração de consultas LLM. Avaliamos numericamente nossos métodos em simulações controladas, encontrando que após 10 turnos de diálogo, PEBOL pode alcançar um MRR@10 de até 0.27 em comparação ao MRR@10 de 0.17 da melhor linha de base LLM monolítica, apesar de depender de LLMs anteriores e menores.
Austin et al. (qua,) estudaram esta questão.