January 1, 2014Open Access

इंटर-एनोटेटर सहमति हानि के साथ भाग-गुणवत्ता टैगर्स को सीखना

Key Points

Key points are not available for this paper at this time.

Abstract

प्राकृतिक भाषा प्रसंस्करण (NLP) एनोटेशन प्रोजेक्ट्स में, हम स्थिर एनोटेशन सुनिश्चित करने के लिए अंतर-एनोटेटर सहमति माप और एनोटेशन दिशानिर्देशों का उपयोग करते हैं। हालाँकि, एनोटेशन दिशानिर्देश अक्सर भाषाई रूप से विवादास्पद और यहां तक कि कुछ हद तक मनमाने निर्णय लेते हैं, और इंटर-एनोटेटर सहमति अक्सर पूर्णता से कम होती है। जबकि एनोटेशन प्रोजेक्ट आमतौर पर यह निर्दिष्ट करते हैं कि भाषाई विवादास्पद घटनाओं से कैसे निपटना है, एनोटेटर असहमतियां आमतौर पर इन "कठिन" मामलों से उत्पन्न होती हैं। यह इंगित करता है कि कुछ त्रुटियां अन्य त्रुटियों की तुलना में अधिक विवादास्पद हैं। इस पत्र में, हम ट्विटर के लिए डबल-एनोटेटेड भाग-गुणवत्ता (POS) डेटा के छोटे नमूने का उपयोग करते हैं ताकि एनोटेशन विश्वसनीयता का अनुमान लगाया जा सके और दिखाते हैं कि संभावित अंतर-एनोटेटर सहमति के उन सं metric को POS टैगर्स के हानि कार्यों में कैसे लागू किया जा सकता है। हमें यह मिलता है कि ये लागत-संवेदनशील एल्गोरिदम एनोटेशन प्रोजेक्ट्स में बेहतर प्रदर्शन करते हैं और, अधिक आश्चर्यजनक रूप से, एक ही दिशानिर्देशों के अनुसार एनोटेटेड डेटा पर भी। अंत में, हम दिखाते हैं कि अंतर-एनोटेटर सहमति के प्रति संवेदनशील POS टैगिंग मॉडल चंकिंग के डाउनस्ट्रीम कार्य पर बेहतर प्रदर्शन करते हैं। 1

AI से पूछें

Bookmark

View Full Paper