Este artigo apresenta o comando "oplₘafb" distribuído pela comunidade Stata (e o comando acompanhante "oplₘaᵥf"), para implementar o algoritmo de Aprendizado Ótimo de Políticas (OPL) de primeira linha para estimar a melhor atribuição de tratamento dada a observação de um resultado, um tratamento de múltiplas ações (ou multi-braços) e um conjunto de covariáveis observadas (características). Permite diferentes preferências de risco na tomada de decisão (ou seja, neutro em relação ao risco, avesso ao risco linear e avesso ao risco quadrático) e fornece uma representação gráfica da política ótima, juntamente com uma estimativa do bem-estar máximo (ou seja, a função de valor estimada na política ótima) usando ajuste de regressão (RA), ponderação por probabilidade inversa (IPW) e fórmulas duplamente robustas (DR).
Giovanni Cerulli (Mon,) estudou essa questão.