Original snapshot files: [qihuang.zheng@spark047219 226_1105]$ ll 2/forseti/velocity/ -h | grep Data -rw-r--r--. 1 qihuang.zheng users 158M 10月 28 15:03 forseti-velocity-jb-102486-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 16:28 forseti-velocity-jb-103911-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 14:23 forseti-velocity-jb-103920-Data.db -rw-r--r--. 1 qihuang.zheng users 370M 10月 28 14:10 forseti-velocity-jb-105829-Data.db ⬅️ A Big File ① -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 14:07 forseti-velocity-jb-107113-Data.db -rw-r--r--. 1 qihuang.zheng users 160M 10月 28 15:53 forseti-velocity-jb-73122-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 14:46 forseti-velocity-jb-85829-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 15:29 forseti-velocity-jb-87661-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 15:05 forseti-velocity-jb-93091-Data.db sstable to new cluster [qihuang.zheng@cass047202 ~]$ ./psshA.sh ip_spark.txt 'ls /home/admin/cassandra/data/forseti/velocity -hl |grep Data' Warning: do not enter your password if anyone else has superuser privileges or access to your account. Password: [1] 22:29:43 [SUCCESS] 192.168.47.208 -rw-r--r--. 1 admin admin 365K 11月 12 22:10 forseti-velocity-jb-20-Data.db -rw-r--r--. 1 admin admin 370M 11月 12 22:10 forseti-velocity-jb-21-Data.db ⬅️ File Still Large! and same size as ① -rw-r--r--. 1 admin admin 11M 11月 12 22:10 forseti-velocity-jb-22-Data.db [2] 22:29:43 [SUCCESS] 192.168.47.212 -rw-r--r--. 1 admin admin 146M 11月 12 22:09 forseti-velocity-jb-22-Data.db -rw-r--r--. 1 admin admin 3.7M 11月 12 22:09 forseti-velocity-jb-23-Data.db [3] 22:29:43 [SUCCESS] 192.168.47.215 -rw-r--r--. 1 admin admin 916K 11月 12 22:09 forseti-velocity-jb-14-Data.db [4] 22:29:43 [SUCCESS] 192.168.47.242 ⬅️ Almost Go To This Node! -rw-r--r--. 1 admin admin 106M 11月 12 22:10 forseti-velocity-jb-24-Data.db -rw-r--r--. 1 admin admin 160M 11月 12 22:10 forseti-velocity-jb-25-Data.db -rw-r--r--. 1 admin admin 158M 11月 12 22:10 forseti-velocity-jb-26-Data.db -rw-r--r--. 1 admin admin 160M 11月 12 22:10 forseti-velocity-jb-27-Data.db [5] 22:29:43 [FAILURE] 192.168.47.223 Exited with error code 1 ⬅️ This Node has None Files! [6] 22:29:43 [SUCCESS] 192.168.47.244 -rw-r--r--. 1 admin admin 111M 11月 12 22:09 forseti-velocity-jb-18-Data.db [7] 22:29:43 [SUCCESS] 192.168.47.245 -rw-r--r--. 1 admin admin 50M 11月 12 22:09 forseti-velocity-jb-22-Data.db -rw-r--r--. 1 admin admin 170K 11月 12 22:09 forseti-velocity-jb-23-Data.db [8] 22:29:43 [SUCCESS] 192.168.47.241 -rw-r--r--. 1 admin admin 7.5M 11月 12 22:09 forseti-velocity-jb-30-Data.db [9] 22:29:43 [FAILURE] 192.168.47.218 Exited with error code 1 ⬅️ No Files [10] 22:29:43 [SUCCESS] 192.168.47.243 -rw-r--r--. 1 admin admin 15M 11月 12 22:09 forseti-velocity-jb-29-Data.db [11] 22:29:43 [SUCCESS] 192.168.47.219 -rw-r--r--. 1 admin admin 160M 11月 12 22:09 forseti-velocity-jb-23-Data.db [12] 22:29:43 [SUCCESS] 192.168.47.217 -rw-r--r--. 1 admin admin 30M 11月 12 22:09 forseti-velocity-jb-22-Data.db [13] 22:29:44 [SUCCESS] 192.168.47.216 -rw-r--r--. 1 admin admin 3.5M 11月 12 22:09 forseti-velocity-jb-20-Data.db -rw-r--r--. 1 admin admin 161M 11月 12 22:09 forseti-velocity-jb-21-Data.db We use spark-case-connecot to read table and repartition. Spark repartition job below indicate: If nodes has none data.db like first two nodes, InputSize is 0.0B,and nodes with large files like the last one running too long! My question is : why sstableloader can’t balance data file size?
Tks,qihuang.zheng 原始邮件 发件人:qihuang.zhengqihuang.zh...@fraudmetrix.cn 收件人:useru...@cassandra.apache.org 发送时间:2015年11月12日(周四) 21:20 主题:Data.db too large and after sstableloader still large We do snapshot, and found some Data.db too large: [qihuang.zheng@spark047219 5]$ find . -type f -size +800M -print0 | xargs -0 ls -lh -rw-r--r--. 2 qihuang.zheng users 1.5G 10月 28 14:49 ./forseti/velocity/forseti-velocity-jb-103631-Data.db And sstableloader to new cluster, one node has this large file: [qihuang.zheng@spark047243 velocity]$ ll -rth | grep Data -rw-r--r--. 1 admin admin 46M 11月 12 18:22 forseti-velocity-jb-21-Data.db -rw-r--r--. 1 admin admin 156M 11月 12 18:22 forseti-velocity-jb-22-Data.db -rw-r--r--. 1 admin admin 2.6M 11月 12 18:22 forseti-velocity-jb-23-Data.db -rw-r--r--. 1 admin admin 162M 11月 12 18:22 forseti-velocity-jb-24-Data.db -rw-r--r--. 1 admin admin 1.5G 11月 12 18:22 forseti-velocity-jb-25-Data.db -BigFile Still here Seems sstableloader don’t split file very well. Why sstableloader can’t split to small filter to new cluster? I tried usesstablesplit at snapshot before sstableloader, but this progress is too slow. Tks,qihuang.zheng