Key points are not available for this paper at this time.
대규모 언어 모델(LLM)은 응답을 개선하기 위해 지시를 받을 때, 이를 자기 수정이라고 합니다. 이러한 지시에 응답의 문제에 대한 구체적인 세부 정보가 부족할 경우, 이는 내재적 자기 수정 능력을 활용하는 것으로 언급됩니다. 자기 수정의 경험적 성공은 텍스트 해독 및 사회적 편견 완화와 같은 다양한 응용 프로그램에서 발견됩니다. 그러나 이 자기 수정 능력을 활용하는 것이 항상 효과적이지 않을 수 있으며, 이는 처음에 올바른 응답을 잘못된 응답으로 수정할 가능성이 있기 때문입니다. 본 논문에서는 자기 수정 능력 활용이 어떻게 그리고 왜 효과적인지를 이해하고자 합니다. 우리는 적절한 지시가 LLM을 수렴 상태로 안내할 수 있다는 것을 확인하였고, 그 상태에서는 추가적인 자기 수정 단계가 더 이상의 성능 향상을 이루지 못합니다. 우리는 경험적으로 모델 불확실성과 활성화된 잠재 개념이 자기 수정의 효과성을 공동으로 특징짓는다는 것을 보여줍니다. 또한, 우리는 활성화된 잠재 개념이 모델 불확실성 및 자기 수정 성능의 수렴을 유도함을 나타내는 수학적 공식화를 제공합니다. 우리의 분석은 비전-언어 모델(VLM)에서 관찰된 자기 수정 행동에 일반화될 수 있습니다. 더불어, 우리는 작업에 구애받지 않는 편향 제거가 효과적인 미세 조정 샘플을 선택하는 측면에서 우리 원칙의 이점을 누릴 수 있음을 강조합니다. 이러한 초기 성공은 더 나은 지시 조정 및 안전 정렬을 위한 잠재적 확장 가능성을 보여줍니다.
Liu et al. (Tue,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: