Spark 分布式计算 (一)-XGBoost 计算

算法框架对比

  • sklearn 单机
  • spark mllib 分布式

xgboost

xgboost框架文档

spark mllib

https://spark.apache.org/docs/latest/ml-guide.html

人工智能之海量数据挖掘-spark mllib

批处理和流式处理的形象比喻:
file

流式计算:storm、Flink
批处理:MapReduce、Spark

如:1T 的数据切割为 10 个 block,处理的思路方式不同;

spark 微批处理,可以做到秒级的处理

spark诞生之初,主要是用作机器学习,机器学习更多的需要迭代,mp不合适迭代,spark更适合迭代。

  • spark基于内存实现
  • state-of-the-art DAG迭代优化

k8s部署spark

Running Spark on Kubernetes - Spark 3.3.2 Documentation


相关文章:
spark分布式计算

为者常成,行者常至