Key points are not available for this paper at this time.
Apache Spark é uma plataforma popular de código aberto para processamento de dados em larga escala que é bem adequada para tarefas iterativas de aprendizado de máquina. Neste artigo, apresentamos o MLlib, a biblioteca de aprendizado de máquina distribuído de código aberto do Spark. O MLlib fornece funcionalidade eficiente para uma ampla gama de configurações de aprendizado e inclui vários primitivos estatísticos, de otimização e de álgebra linear subjacentes. Incluído com o Spark, o MLlib suporta várias linguagens e oferece uma API de alto nível que aproveita o rico ecossistema do Spark para simplificar o desenvolvimento de pipelines de aprendizado de máquina de ponta a ponta. O MLlib experimentou um crescimento rápido devido à sua vibrante comunidade de código aberto com mais de 140 colaboradores e inclui documentação extensa para apoiar o crescimento adicional e permitir que os usuários se atualizem rapidamente.
Meng et al. (Terça,) estudaram esta questão.