Spark 分布式计算 (一)-XGBoost 计算
算法框架对比
- sklearn 单机
- spark mllib 分布式
xgboost
spark mllib
https://spark.apache.org/docs/latest/ml-guide.html
批处理和流式处理的形象比喻:
流式计算:storm、Flink
批处理:MapReduce、Spark
如:1T 的数据切割为 10 个 block,处理的思路方式不同;
spark 微批处理,可以做到秒级的处理
spark诞生之初,主要是用作机器学习,机器学习更多的需要迭代,mp不合适迭代,spark更适合迭代。
- spark基于内存实现
- state-of-the-art DAG迭代优化
k8s部署spark
Running Spark on Kubernetes - Spark 3.3.2 Documentation
相关文章:
spark分布式计算
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)