티스토리 뷰

환경 : HDP 2.3 ( hive 1.2 , Tez 0.7 )



대용량 hive on tez shuffle join시에 간혹 socket timeout이 발생한다.


이 부분을 피하기 위해 config를 변경하였지만.. 별로 신통치 않다


dfs.socket.timeout

dfs.datanode.socket.write.timeout



대용량 데이터에 대한 shuffle join이라.. explain을 해보니.. 정말 무지막지한 shuffle이 일어난다

( map join이나 다른 join은 데이터 검증에서 실패;; )


찾아보니 socket timeout에 대한 OS 설정이 있어서 해당 내용을 반영해야 할 것 같다.


/proc/sys/net/core/somaxconn : 일반적으로 128 ~ 1024로 설정되어 있으니.. 해당을 2000~4000으로 늘려봐야 겠다. 



Reference

: http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함