Key points are not available for this paper at this time.
LLM을 교육에 도입하는 것부터 새로운 약물을 식별하고 배터리 충전 방법을 개선하는 것까지, 혁신가들은 학생, 환자 및 소비자를 위한 더 나은 장기 결과를 찾기 위해 끊임없이 새로운 전략을 시도합니다. 이 혁신 주기의 주요 병목현상 중 하나는 새로운 개입을 포함하는 결정 정책의 하향 효과를 관찰하는 데 걸리는 시간입니다. 핵심 질문은 장기 관찰 없이 새로운 결정 정책의 장기 결과를 신속하게 평가할 수 있는지 여부입니다. 조직은 종종 과거 결정 정책과 그 결과에 대한 이전 데이터에 접근할 수 있으며, 이는 관심의 전체 수평에서 평가됩니다. 이를 바탕으로 우리는 순차적 의사 결정 작업을 위한 단기-장기 정책 평가에 대한 새로운 설정을 제안합니다. 우리의 제안된 방법은 HIV 치료, 신장 투석 및 배터리 충전의 시뮬레이터에서 이전 결과를 유의미하게 초월합니다. 우리는 또한 우리의 방법이 새로운 결정 정책이 과거 정책보다 성능이 상당히 낮을 가능성이 있을 때를 신속하게 식별함으로써 AI 안전 응용 프로그램에 유용할 수 있음을 입증합니다.
Nam et al. (Thu,)는 이 질문을 연구했습니다.