Key points are not available for this paper at this time.
Dans certaines tâches de reconnaissance vocale, telles que les systèmes de dialogue homme-machine, les phrases prononcées incluent plusieurs phrases récurrentes. Un modèle linguistique bigramme ne représente pas adéquatement ces phrases car il sous-estime leur probabilité. Une meilleure approche consiste à modéliser les phrases comme si elles étaient des éléments individuels du dictionnaire. Elles sont ensuite insérées comme entrées supplémentaires dans le lexique des mots, sur lequel les bigrams sont finalement calculés. Cet article discute de deux procédures pour déterminer automatiquement les phrases fréquentes (dans le cadre d'un modèle linguistique probabiliste) dans un ensemble d'entraînement de phrases écrites non étiquetées. Une procédure est optimale car elle minimise la perplexité de l'ensemble. L'autre, basée sur des critères d'information théorique, garantit que le modèle résultant possède une robustesse statistique élevée. Les deux procédures sont testées sur une tâche de reconnaissance de la parole spontanée de 762 mots. Elles donnent des résultats similaires et offrent une amélioration modérée par rapport aux bigrams standards.
E. Giachin (mar,) a étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: