Key points are not available for this paper at this time.
Aprender com alguns exemplos e generalizar para situações marcadamente diferentes são capacidades da inteligência visual humana que ainda não foram igualadas pelos principais modelos de aprendizado de máquina. Ao se inspirar na neurociência dos sistemas, introduzimos um modelo generativo probabilístico para a visão no qual a inferência baseada em passagem de mensagem lida com reconhecimento, segmentação e raciocínio de maneira unificada. O modelo demonstra excelentes capacidades de generalização e raciocínio sobre oclusão e supera redes neurais profundas em um desafiador benchmark de reconhecimento de texto em cena, enquanto é 300 vezes mais eficiente em dados. Além disso, o modelo quebra fundamentalmente a defesa dos modernos CAPTCHAs baseados em texto (Teste de Turing Público Completamente Automatizado para distinguir Computadores e Humanos) ao segmentar generativamente caracteres sem heurísticas específicas para CAPTCHA. Nosso modelo enfatiza aspectos como eficiência de dados e composição que podem ser importantes no caminho em direção à inteligência artificial geral.
George et al. (Qui,) estudaram essa questão.