2008/06/11 16:01

hadoop을 이용한 ftp server

하둡 위에 올릴 파일관리 레이어를 고민중에 자체 제작한 프로토콜보다는 좀 귀찮더라도 표준프로토콜을 쓰기로 했다.

여기에 쓸수 있는 표준프로토콜은 HTTP와 FTP정도인데 http는 유연성은 있어도 웹외엔 실제 파일관리용으로 범용화된 프로그램들이 없다. 자체제작해야 하던가 웹을 이용해야 한다.
FTP는 단순한 파일관리용으로 만든것이라서 메타정보 같은 기타정보를 관리할수가 없다. 대신 많은 클라이언트 프로그램과 api들이 존재한다.

그래서 ftp서버를 이용해 보기로 했다.

2000년도 쯤에 직접 ftp와 mail서버를 만든기억은 있어도 지금은 언어가 다르고 머리도 굳고... 직접 다시 짜는것은 impossible....

그래서 우리의 오픈소스 구세주 apache에서 찾아봤다.
역시나 있었다.
mina의 sub프로젝트인 ftpserver라는 것을 이용했다.

사실 hadoop을 붙인다는 것은 그리 어려운일이 아니다.
단순히 hadoop stream을 이용할 수 있는 input, output stream connector하나만을 만들어주면 된다.(사실 이렇게 얘기하면 욕 많이들 한다.^^)

외국에선 해당 프로젝트를 시작하고 테스트도 하는 모양이다.
Doug도 코멘트 하는것을 봐서는 더그커팅도 관심은 있어하나 보다.
https://issues.apache.org/jira/browse/HADOOP-3199?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12587077#action_12587077

그렇다고 얘들이 다 만들고 오픈하고 commit하기까지 기다릴 순 없고.
잠시 짬을 내서 직접 만들어봤다.

모든 오픈소스가 그러하듯이 apache mina도 그리 쉬운것은 아닌가 보다.
사용법 익히는데 대부분의 시간을 보냈다..

옵션사항때문에 속도도 나오지 않아 hadoop의 문제인줄 알고 잠시 좌절모드도 겪고는 했지만, 결국은 일반 ftp서버와 비슷한 속도를 가져오게 만들었다.

근데 기본으로 한글이 지원되질 않군...
또다시 디버깅모드로 들어가야함...

그래도 최초로 운영되는 hadoop용 ftp서버를 테스트 해보고 싶으심, 상단의 google talk로 연락주삼^^

hadoop이 randomwrite만 빨랑 지원해주면 더이상의 로컬파일시스템을 쓸일은 거의 없을것인디...
그날이 오기만을 기다린다...
Trackback 0 Comment 6