大数据开发之数据擦除—Pandas vs Spark

时间：2025-02-23 12:23:00

载入各大众化数据源库的拥护，由于其无论如何也是一个类，所以反之亦然的常量设置都要依托option作法来开展传递，仍要通过分派load付诸数据源的载入。但不得不真是，spark外置的一些默认常量远比于Pandas而言合理性要差很多，例如fetchSize默认为10，这对于大数据源载入而言可笑是致命的挫败，谁用谁告诉他…… spark.read.csv：spark对于csv邮件也给予了很好的拥护，但常量系统设计远比于Pandas而言则要逊色很多 spark.read.textFile：典型的txt邮件载入作法，或许很多人的一个Spark新项目word count大部分大概载入txt邮件开始的吧，不过对于应有而言好像也仅仅是在读到word count时则用到了read.textFile。其他也有read.json和read.orc等，但适用阈值不高。

如果真是Pandas载入数据源库是颇为中用的作法，那么Spark实际上颇为中用的当属Parquet，却是Parquet邮件与Spark等同为Apache顶级新项目，而且颇具大数据源别具特色，算得是大数据源邮件存储设备的业界标准规范！

03 小结

连续性来看，Pandas和Spark在数据源载入层面都都有了丰富的连接器，拥护的数据源源多种类型也大体相当。但对常量拥护和易用性层面，Pandas对数据源库和csv邮件相对于并不融洽，而Spark与Parquet邮件编解码器则较为搭配。虽然同为数据源量化软件系统，但Pandas是三台量化作法在，而Spark则是分布式量化，所以各不相同的数据源中量级也自然决定了数据源源的侧全面性各不相同，本无高下之分，根本无法真是各有千秋。

原创作团队：luanhz