Key points are not available for this paper at this time.
Les langues des signes sont des langues visuelles qui transmettent des informations par la forme des mains des signataires, l'expression faciale, le mouvement du corps, etc. En raison de la restriction inhérente des combinaisons de ces ingrédients visuels, il existe un nombre significatif de signes visuellement indistinguables (VISigns) dans les langues des signes, ce qui limite la capacité de reconnaissance des réseaux neuronaux visuels. Pour atténuer ce problème, nous proposons le cadre de Reconnaissance de la Langue des Signes Assistée par le Langage Naturel (NLA-SLR), qui exploite les informations sémantiques contenues dans les glosses (étiquettes de signes). Tout d'abord, pour les VISigns avec des significations sémantiques similaires, nous proposons un lissage des étiquettes sensible à la langue en générant des étiquettes douces pour chaque signe d'entraînement dont les poids de lissage sont calculés à partir des similarités sémantiques normalisées entre les glosses pour faciliter l'entraînement. Deuxièmement, pour les VISigns avec des significations sémantiques distinctes, nous présentons une technique de mélange inter-modal qui mélange les caractéristiques visuelles et de gloss pour maximiser davantage la séparabilité des différents signes sous la supervision des étiquettes mélangées. De plus, nous introduisons également un nouveau réseau de base, le réseau de points clés vidéo, qui modélise non seulement les vidéos RGB et les points clés du corps humain, mais qui dérive également des connaissances à partir de vidéos de signes de différents champs réceptifs temporels. Empiriquement, notre méthode atteint des performances de pointe sur trois benchmarks largement adoptés : MSASL, WLASL, et NMFs-CSL. Les codes sont disponibles sur https://github.com/FangyunWeilSLRT.
Zuo et al. (Thu,) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: