March 3, 2026Open Access

BeaverTails-IT：迈向评估意大利大型语言模型的安全基准

Key Points

该基准为意大利LLMs提供了初步评估，重点关注关键安全方面，如毒性和偏见.
使用自动化指标和人工判断评估英语到意大利语翻译的质量.
利用五种先进的翻译模型创建BeaverTails-IT数据集，实现本地化评估.
强调了针对意大利特定安全基准的必要性，解决使用翻译内容时面临的挑战.

Abstract

大型语言模型（LLMs）在生成类似人类的文本方面取得了显著成功，并日益融入现实世界应用。然而，它们的部署引发了重大安全隐患，包括生成有害、偏见或文化不当内容的风险。虽然存在多个针对英语的安全基准，但非英语环境——例如意大利——仍然严重受到忽视，尽管对本地化和文化敏感的人工智能技术的需求不断增长。在本文中，我们介绍了BeaverTails-IT，这是第一个针对LLMs的意大利安全基准，通过对原始英语BeaverTails数据集进行机器翻译创建而成。我们采用五种先进的翻译模型，使用自动化指标和人工判断评估翻译质量，并提供选择高质量安全提示的指南。我们的基准使得对意大利LLMs在关键安全维度（如毒性、偏见和伦理合规性）上的初步评估成为可能。除了呈现翻译的数据集外，我们还提供了对其局限性的详细分析，突出了使用翻译内容作为本地基准代理所面临的挑战。我们的研究结果表明，需要一个专门的、文化上扎根的意大利安全基准，以确保有效且符合上下文的评估.

BeaverTails-IT：迈向评估意大利大型语言模型的安全基准

Key Points

Abstract

Cite This Study