2009/04/07 11:38

봄의 탈출본능과 넵튠

출근하던 차를 돌려 동해쪽으로 달려버릴까 싶었다.
속초 쪽에 봄 도다리가 나오기 시작했다는 소식을 듣곤 바다를 보고 싶어 근질거렸다.

황사인지 뭔지는 모른것이 좀 뿌옇긴 해도
봄의 전령은 이미 눈앞에 와서 알짱거린다.

더이상 겨울은 없을것이라는.

클라우드검색시스템의 스토리지로 HBase대신 Neptune을 써보고 있다.
실시간 insert는 temp 메모리 방식의 HBase가 Neptune보다는 많이 빠르지만 커밋로그를 보장하지 않는다는 부분에서 데이터의 무결성 부분에서는 안정적이지 못하다.

Neptune의 메인개발자인 jaso님과의 우연한 인연이 깊었던고로, 2-3년전에 jaso님을 통해서 hadoop을 소개받고 나름 모르모트마냥 시험대상이 되어 데이터도 많이 날려먹고 이리저리 버그도 많이 발견하고 한지도 꽤 오랜 시간이 지났다.

hadoop을 검색에 적용하겠다는 그 무리함도 최초로 해보지 않았나 싶다.

네이버가 넵튠을 오픈소스로 내놓을거라고는 기대하지도 않았다. 그것도 아파치 라이센스로...

그래서 나름 HBase의 안정된 출현만 기다리고, 허접하게 hadoop에 나름의 관리방법을 이용하여 허덕대다보니 사실 이제는 숨이 찬다.

그래서 HBase 0.19버전의 릴리즈를 시점으로 HBase와 Neptune을 동시에 사용하기로 하였다.
당분간은 HBase는 리얼타임 계산쪽에, Neptune은 스토리지로...

HBase에 많은 양의 데이터를 올려보질 않아 그 성능은 잘 모르겠다(0.18버전은 쓰면 안된다. 꽝이다.)

지난주부터 넵튠에 데이터를 넣기 시작하였다.
물론 얘기치 못한 에러는 발생하였고, 즉각적인 수정은 jaso님으로 부터 해결한다.
왜냐? 안해주면 HBase로 돌려버릴거니까 ㅋㅋㅋ

나는 수치적인 데이터로 코딩을 하거나 성능을 판단하는 경우가 거의 없다.
그동안의 데이터 처리 경험에 대한 체감속도를 가장 중요시 한다.

그래서 남들의 수치데이터는 그냥 참고자료로만 쓴다.
실제로 남들의 테스트 데이터는 나와는 다른 데이터로 하기 때문에 별 의미를 두지 않는다.

아직까진 무진장 좋고, 무진장 빠르다고는 생각지 않는다.
물론 커밋 로그문제 때문에 jaso님도 인정하는 부분이고...

그렇지만,
쓸만하다가 결론이다.

아직까지 큰 텍스트 데이터를 수억건을 넣어본것은 아니기때문에 장담할순 없지만
작은 메타데이터는 수억건이 무리없이 들어가고 처리되는 걸로 봐선 감당될수 있을것 같다.

클라우드 컴퓨팅의 가장 장점이
"기능이 작동하면 Scalable은 보장된다"는 원칙이 있기 때문이다.

아마도 네이버를 제외하곤
최초로 릴리즈 할수 있는 넵튠 powered by가 되지 않을까 싶다.(nforge 게시판에 가보면 유저들의 질문이 없는걸로 봐서)

이 봄의 전령사가 Neptune이나 HBase가 우리에게 Database라는 무거운 짐을 조금은 덜어주길 기대해본다.
(참고로 Database모델과 bigTable모델은 완전히 틀리므로 데이터베이스 고유의 기능을 이러한 것들이 보장하진 못하니 헛꿈은 꾸지 마시길...)

아 참고로, Neptune이나 HBase는 안정적 시스템이라고 누구도 보장해줄순 없으니 사용하다 문제발생시 너때문이야라고 하진 말것.

저작자 표시 비영리 변경 금지
Trackback 0 Comment 9