comcast2

오늘은 이상하게 글을 쓰게 되는 날이네요. 별로 글 쓰는 것도 좋아하지 않고, 또 잡담 하는 것도 좋아하지는 않지만, 글을 쓰게 됩니다.

올해 일어난 일중에 또하나 재미있는 에피소드가 있었읍니다. 팀간 데이터를 주고 받는 과정에 한팀이 하나의 파일만 받기를 요구하는 팀이 있었읍니다. 이것을 Databricks 에서 하면 coalesce 라는 것을 이용해서 할 수가 있기는 한데요, 그렇게 하면 다른 파일들도 만들어지고, (_ 파일들 말입니다.) 또 Spark 의 구조상 하나의 Executor 에 부담이 많이가서 별로 추천하는 방법이 아닙니다.

온라인 써치를 해보니, IOUtils 를 이용해서 여러개의 파일을 하나로 Merge 하는 쉬운 방법이 있더군요. 그래서 간단히 프로그램을 짜니, Running 시간을 절반이하로 줄이고, 컴퓨팅 리소스도 절반이하로 줄일 수 있었읍니다.

내부에 돌아가는 메카니즘을 아는 것이 매우 중요한 이유입니다. 세상에 모든일이 그렇듯이 내부의 돌아가는 사정을 모르고서는 밖에서 왈가왈부 해봤자 다 소용없는 일이죠.