Original snapshot files:
[qihuang.zheng@spark047219 226_1105]$ ll 2/forseti/velocity/ -h | grep Data 
-rw-r--r--. 1 qihuang.zheng users 158M 10月 28 15:03 
forseti-velocity-jb-102486-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 
28 16:28 forseti-velocity-jb-103911-Data.db -rw-r--r--. 1 qihuang.zheng users 
161M 10月 28 14:23 forseti-velocity-jb-103920-Data.db -rw-r--r--. 1 
qihuang.zheng users 370M 10月 28 14:10 forseti-velocity-jb-105829-Data.db ⬅️ A 
Big File ① -rw-r--r--. 1 qihuang.zheng users 161M 10月 28 14:07 
forseti-velocity-jb-107113-Data.db -rw-r--r--. 1 qihuang.zheng users 160M 10月 
28 15:53 forseti-velocity-jb-73122-Data.db -rw-r--r--. 1 qihuang.zheng users 
161M 10月 28 14:46 forseti-velocity-jb-85829-Data.db -rw-r--r--. 1 qihuang.zheng 
users 161M 10月 28 15:29 forseti-velocity-jb-87661-Data.db -rw-r--r--. 1 
qihuang.zheng users 161M 10月 28 15:05 forseti-velocity-jb-93091-Data.db
sstable to new cluster
[qihuang.zheng@cass047202 ~]$ ./psshA.sh ip_spark.txt 'ls 
/home/admin/cassandra/data/forseti/velocity -hl |grep Data' Warning: do not 
enter your password if anyone else has superuser privileges or access to your 
account. Password: [1] 22:29:43 [SUCCESS] 192.168.47.208 -rw-r--r--. 1 admin 
admin 365K 11月 12 22:10 forseti-velocity-jb-20-Data.db -rw-r--r--. 1 admin 
admin 370M 11月 12 22:10 forseti-velocity-jb-21-Data.db ⬅️ File Still Large! and 
same size as ① -rw-r--r--. 1 admin admin 11M 11月 12 22:10 
forseti-velocity-jb-22-Data.db [2] 22:29:43 [SUCCESS] 192.168.47.212 
-rw-r--r--. 1 admin admin 146M 11月 12 22:09 forseti-velocity-jb-22-Data.db 
-rw-r--r--. 1 admin admin 3.7M 11月 12 22:09 forseti-velocity-jb-23-Data.db [3] 
22:29:43 [SUCCESS] 192.168.47.215 -rw-r--r--. 1 admin admin 916K 11月 12 22:09 
forseti-velocity-jb-14-Data.db [4] 22:29:43 [SUCCESS] 192.168.47.242 ⬅️ Almost 
Go To This Node! -rw-r--r--. 1 admin admin 106M 11月 12 22:10 
forseti-velocity-jb-24-Data.db -rw-r--r--. 1 admin admin 160M 11月 12 22:10 
forseti-velocity-jb-25-Data.db -rw-r--r--. 1 admin admin 158M 11月 12 22:10 
forseti-velocity-jb-26-Data.db -rw-r--r--. 1 admin admin 160M 11月 12 22:10 
forseti-velocity-jb-27-Data.db [5] 22:29:43 [FAILURE] 192.168.47.223 Exited 
with error code 1 ⬅️ This Node has None Files! [6] 22:29:43 [SUCCESS] 
192.168.47.244 -rw-r--r--. 1 admin admin 111M 11月 12 22:09 
forseti-velocity-jb-18-Data.db [7] 22:29:43 [SUCCESS] 192.168.47.245 
-rw-r--r--. 1 admin admin 50M 11月 12 22:09 forseti-velocity-jb-22-Data.db 
-rw-r--r--. 1 admin admin 170K 11月 12 22:09 forseti-velocity-jb-23-Data.db [8] 
22:29:43 [SUCCESS] 192.168.47.241 -rw-r--r--. 1 admin admin 7.5M 11月 12 22:09 
forseti-velocity-jb-30-Data.db [9] 22:29:43 [FAILURE] 192.168.47.218 Exited 
with error code 1 ⬅️ No Files [10] 22:29:43 [SUCCESS] 192.168.47.243 
-rw-r--r--. 1 admin admin 15M 11月 12 22:09 forseti-velocity-jb-29-Data.db [11] 
22:29:43 [SUCCESS] 192.168.47.219 -rw-r--r--. 1 admin admin 160M 11月 12 22:09 
forseti-velocity-jb-23-Data.db [12] 22:29:43 [SUCCESS] 192.168.47.217 
-rw-r--r--. 1 admin admin 30M 11月 12 22:09 forseti-velocity-jb-22-Data.db [13] 
22:29:44 [SUCCESS] 192.168.47.216 -rw-r--r--. 1 admin admin 3.5M 11月 12 22:09 
forseti-velocity-jb-20-Data.db -rw-r--r--. 1 admin admin 161M 11月 12 22:09 
forseti-velocity-jb-21-Data.db
We use spark-case-connecot to read table and repartition. Spark repartition job 
below indicate:
If nodes has none data.db like first two nodes, InputSize is 0.0B,and nodes 
with large files like the last one running too long!
My question is : why sstableloader can’t balance data file size?




Tks,qihuang.zheng


原始邮件
发件人:qihuang.zhengqihuang.zh...@fraudmetrix.cn
收件人:useru...@cassandra.apache.org
发送时间:2015年11月12日(周四) 21:20
主题:Data.db too large and after sstableloader still large


We do snapshot, and found some Data.db too large:
[qihuang.zheng@spark047219 5]$ find . -type f -size +800M -print0 | xargs -0 ls 
-lh
-rw-r--r--. 2 qihuang.zheng users 1.5G 10月 28 14:49 
./forseti/velocity/forseti-velocity-jb-103631-Data.db


And sstableloader to new cluster, one node has this large file:
[qihuang.zheng@spark047243 velocity]$ ll -rth | grep Data
-rw-r--r--. 1 admin admin 46M 11月 12 18:22 forseti-velocity-jb-21-Data.db
-rw-r--r--. 1 admin admin 156M 11月 12 18:22 forseti-velocity-jb-22-Data.db
-rw-r--r--. 1 admin admin 2.6M 11月 12 18:22 forseti-velocity-jb-23-Data.db
-rw-r--r--. 1 admin admin 162M 11月 12 18:22 forseti-velocity-jb-24-Data.db
-rw-r--r--. 1 admin admin 1.5G 11月 12 18:22 forseti-velocity-jb-25-Data.db  
-BigFile Still here


Seems sstableloader don’t split file very well. Why sstableloader can’t split 
to small filter to new cluster?
I tried usesstablesplit at snapshot before sstableloader, but this progress is 
too slow.



Tks,qihuang.zheng

Reply via email to