'hadoop'에 해당되는 글 22건

  1. 2009/07/15 Great bigTable schema design compare to rdbms
  2. 2009/04/28 꿈꾸는 Cloud Islands (3)
  3. 2009/04/09 Apache Mahout release (3)
  4. 2008/12/30 HBase 차라리 포기하는게 어떨까. (2)
  5. 2008/11/21 Hadoop Tutorial Workshop을 개최합니다.
2009/07/15 11:16

Great bigTable schema design compare to rdbms


대용량 데이터에서는 분석 뿐 아니라 이제는 저장과 쿼리분야에서도 NOSQL이 대세로 자리잡는가 싶습니다.
http://blog.oskarsson.nu/2009/06/nosql-debrief.html

bigTable 컨셉으로 rdbms의 데이터모델을 어떻게 바꾸는게 좋을까 하는 괜찮은 CASE STUDY가 있어 소개합니다.
http://www.slideshare.net/hmisty/20090713-hbase-schema-design-case-studies

아직까지 국내에서 이러한 모델을 써야할 개별회사는 없겠지만....^^

저작자 표시 비영리 변경 금지
Trackback 0 Comment 0
2009/04/28 00:40

꿈꾸는 Cloud Islands

클라우드를 혹자는 분산이라고 하고 혹자는 다른 의미의 집중이라고 합니다.
개념이라는 것은 대부분 코에걸면 코걸이, 귀에걸면 귀걸이가 되는 화자의 유리한 방향으로 해석되고 주장하는 법이니 그런 컨셉만을 주장함은 그렇게 중요하지 않으리라 봅니다.

문제는 그것이 우리의 현재와 미래에 도움이 되고 발전적인 방향으로 진보할수 있느냐가 중요하겠지요.

몇년전 한 업체에 가니
자신들에 소속된 부서단위 시스템이 몇개나 되는지 조차 파악하기 힘들다고 합니다.
부서들이 필요할때마다 예산을 들여 장비와 데이터베이스 그리고 웹서버에 검색엔진까지 별도로 도입하고 개발하는 상황이니 쉽게 알턱이 없었겠지요.
리스팅 되는 것만 500개 정도인데 파워유저권한으로 그것들을 통합하기 위해
그 험난한 인증모듈을 가지고 통합크롤을 할수 있는 방법을 찾고 있었습니다.

코더의 힘으로 언제적 만들어진지도, 데이터 스펙도 모르는 그 많은 시스템을 통합코딩한다는것은 인간이 할짓이 아니었겠지요.

시스템을 잘 모르는 나로서는
처음부터 통합시스템에서 그것을 배분했더라면 좀 더 낫지 않았을까 생각되었습니다.
(다품종 대용량을 맞다 보니 그럴수 밖에 없는 구조가 이해가 갑니다.)

작금의 클라우드는 그 파워가 더 현실적으로 다가옴을 느낍니다.
반대진영은 여러가지 이유와 논리를 대며 클라우드의 문제점을 들고 나오지만
대세는 어쩔수 없을듯 합니다.
물론 우리나라는 여전히 알맹이 없는 꼴지 IT 강국이 될것이라 믿어 의심지 않습니다.

오늘 삼성 SDS주관으로 hadoop community 회원들을 대상으로 Cloudera의 Aaron Ca & Christophe Bisciglia 두분이 hadoop 플래폼에 관한 소개와 클라우데라의 미래에 대한 설명이 있었습니다.
혹자는 짜슥들 저런 컨셉가지고 500만불이나 투자유치를 받다니 하고 아쉬움반 부러움반을 느낍니다.

최근의 많은 세미나에서 클라우드는 시스템 가상화라고 합니다.
자신들 시스템은 그러한 가상화를 가장 잘 지원하는 시스템이라고 합니다.
이런 얘기를 하는 곳은 물론 서버 벤더들이겠지요^^
맞습니다. 서버 가상화도 클라우드의 중요한 영역이라고 합니다.

그런데
이런 서버 가상화를 통해 서비스하는 모 업체의 가격은 그냥 단일 서버임대하는것과 별반 없습니다.
과금단위도 월별로 책정하고, 설치비도 받으면서...
이럴바에야 뭣하러 가상화하고 클라우드를 얘기 해야할까 싶기도 합니다.

때로는 그리드 시스템을 통한 혹은 P2P시스템을 통한 스토리지 가상화를 클라우드라고 합니다.
그냥 컴퓨터를 연결해 놓고 디스크 디텍팅만 되면 클라우드가 되나 봅니다.

클라우드를 생각할때 가장 먼저 떠올리는 모범적이고 이슈가 되는 두 업체가 있습니다.
바로 아마존과 구글입니다.
이 두 업체의 공통점이 있다면
이들은 서버에 대해서, 시스템에 대해서 강점을 얘기하지 않습니다.
그건 너무 기본이라...
그들이 말하는 것은
언제?
필요하면 언제든지 가져다 써라..
어디에다?
데이터 프로세싱하는데다가.

클라우드의 중요한 컨셉중 한두가지는 scalabity & fault tolerance일듯 싶습니다.
원하는 시점에 언제든지 필요한 만큼 늘리고 줄이고 할수 있는 확장성과
죽여도 죽여도 어디선가 나 여기 있지롱 하고 시스템을 놀려먹는 복제성을 통한 서비스의 안정성이 그러한 역할을 하는 것이 아닌가 싶습니다.

아무리 가상화로 할당 받았던들 해당 서버가 맛탱이가 가버렸는데 유저보고 어쩌라고?
처리할 데이터가 산더미로 쌓여있고, 한두번의 프로세싱만 필요한데 수십, 수백대의 서버가 요구되는 상황에서 내년, 내 후년으로 프로젝트를 늦춰야할까요?
이러한 컨셉을 해결할 수 없으면, 클라우드가 아닙니다.

우리는 이러한 상황에 대처할 수 있는 데이터베이스 혹은 데이터스토리지 영역의 클라우드 환경이 되었으면 하고 꿈을 꾸고 있습니다.

아마존과 구글의 또다른 공통점은
자기들 시스템으로의 집중화입니다.
아마존 서비스를, 그리고 구글 서비스만을 이용하는 것입니다.
나라는 없고 대륙만, 수많은 소수민족이 엉켜있는 거대한 통합국가만이 존재합니다.

이것 때문에 클라우드는 보안에 취약할 거라고 얘길 합니다.

삼성같은 큰 조직이 아무리 좋다한들 이들 서비스에 들어갈까요?
클라우드는 필요한 것끼리 뭉치되 혈통을 달리하는 민족적 개념이 들어가야 합니다.

아마존시스템이, 구글 시스템이 각 영역에 나눠져 접목되어야 합니다.
물론 이 두회사가 자기들 시스템을 단일회사조직에 납품할 그럴일은 거의 없겠지요.

클라우드대륙이나 통합국가가 아닌 클라우드섬이 존재해야 할 이유는 여기에 있습니다.
공룡기업들이 다 먹을것 같은 이 클라우드 시장에서
이런 클라우드섬이 많아진다면 킬러 app을 가지는 작은 기업들에게는 그만큼 그라운드가 많아지게 될지도 모르겠습니다.
그렇기 위해서는 누구에게만 특혜를 주는 것이 아니라 누구나 입주하고 경작할 수 있는 클라우드섬들이 많이 만들어졌으면 좋겠습니다.


저작자 표시 비영리 변경 금지
Trackback 0 Comment 3
2009/04/09 02:12

Apache Mahout release

아직 정식으로 apache 페이지에 올라오진 않았지만
기다려 왔던 scalable한 machine learning 알고리즘을 구현하는 프로젝트, mahout의 0.1버전이 첫릴리즈 되었습니다.

방금 올라온 따끈따끈한 소식입니다만 몇시간 후면 관련페이지에서 만날 수 있을것 같습니다.

Apache Mahout 0.1 is the project's first release and is focused on establishing a baseline release while attracting more contributors


이제 막 시작이지만 앞으로 많은 개발자들이 프로젝트에 테스트와 버그 개선 및 성능향상에 도움을 주게 되겠지요.

정보검색 분야에서 반드시 적용해야될 부분이긴 하지만 대부분의 머신러닝 코딩들이 단일머신에서만 돌아가기 때문에 대용량의 데이터를 처리하기는 어려움이 많았습니다.

아직은 부족할지 몰라도 mahout이 안정적으로 성장하여 그 한계를 벗어나게 해줄수 있을날의 기대해 봅니다.

앞으로 많이 애정을 가지고 공부해 봐야할 mahout의 정겹거나 혹은 지겨울 class들입니다.



==>
구글 앱엔진은 드뎌 자바버전이 릴리즈되었습니다.
두렵고 부러운 구글world
저작자 표시 비영리 변경 금지
Trackback 0 Comment 3
2008/12/30 11:02

HBase 차라리 포기하는게 어떨까.

hadoop의 0.19버전이 오래전에 나왔음에도 불구하고 HBase는 전혀 진전을 보이지 못하고 있다.
넵튠이 공개되기 전부터 HBase를 조금씩 사용해왔으나
넵튠이 공개된 후로 HBase를 이용해야 할지 넵튠을 이용해야 할지 고민이 많다.

현상태로에서 HBase는 넵튠에게 지는 게임이기 때문에 곧, 곧 하던 0.19에 기대를 걸고 있는 터였다.
다시 얘기하면 HBase 0.19와 넵튠의 성능테스트를 하고 싶었다.

이미 HBase에 들어가있는 데이터를 넵튠에 바로 컨버팅하기도 부담스러운 일이고
새로운 프로젝트에 HBase나 넵튠이 꼭 필요한 터라(기본 코드는 HBase로 되어 있지만)
HBase의 업그레이드는 필수다.

HBase가 hadoop 버전에 종속적이다 보니
Hadoop조차 업그레이드를 시키지 못하는 현실에 처해있다.

그런데 이 HBase는 도저히 진도를 나가지 못하고 있다
Jira를 계속 살펴보아도 todo가 감속했다가도 하루밤이 지나면 다시 증가한다.

올해를 넘길 모양인가?

쩝 HBase와 넵튠을 비교해보고 싶은디...
Trackback 0 Comment 2
2008/11/21 12:24

Hadoop Tutorial Workshop을 개최합니다.

2주전 운영진 회의에서 날짜까지 잡았지만 장소섭외등의 이유로 좀 늦게 공개된듯 합니다.

- hadoop의 기본설치 및 운영방법과
- Map & Reduce를 제대로 이해하고 쓸수 있는
두가지 세션으로 개최합니다.
시간: 11월 28일 (금) 오후 14시 ~ 18시
장소: 서울치대(대학로) 본관 121호 & 교육동 407호

세미나가 아닌 교육과정이므로
hadoop 입문을 원하시는 분들은 참석하시는게 좋겠습니다.
이런 교육은 찾을수 없거든요^^
단 인원제한이 있습니다.(물론 여성개발자는 제약을 받지 않습니다. 제가 옆에서 도우미로^^)

자세한 것은 다음을 참조하시길..
http://www.hadoop.or.kr/?document_srl=1945

Yahoo에서 나온 Hadoop tutorial도 아주 훌륭한 교재입니다.
http://public.yahoo.com/gogate/hadoop-tutorial/start-tutorial.html
Trackback 0 Comment 0