하둡2.2.0을 윈도우7에 설치해서 실행에 성공한 블로거의 글이 있네요.

http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os


일단 링크 남기고 시간내서 돌려봐야 할 것 같습니다.

Protocol Buffers 2.5.0이 있는 것으로 봐서는 소스를 받아서 빌드까지 한 것 같습니다.


  1. Apache Hadoop 2.2.0 Source codes

  2. Windows 7 OS

  3. Microsoft Windows SDK v7.1

  4. Maven 3.1.1

  5. Protocol Buffers 2.5.0

  6. Cygwin

  7. JDK 1.6


10일간 웹로그에서 가장 많이 찍힌 문자열이 다음과 같습니다.

$ head -20 part-r-00000.sorted

-       38368124

+0900]  15687677

"GET    15639179

HTTP/1.1"       15460537

.NET    12153058

CLR     12152759

NT      12104459

"Mozilla/5.0    10849691

(compatible;    10664745

Windows 9383937

MSIE    9348230

200     8631840

6.1;    7713934

304     5998624

like    4948562

(KHTML, 4430859

Gecko)  4422071

"Mozilla/4.0    4289783

WOW64;  3823166

2.0.50727;      3712273


추출한 데이터 목록과 용량입니다.

[hadoop@hadoop input]$ ls -alh && du -h

total 3.6G

drwxr-xr-x.  2 hadoop hadoop  12K Nov 14 20:01 .

drwxr-xr-x. 12 hadoop hadoop 4.0K Nov 14 20:11 ..

-rw-r--r--.  1 hadoop hadoop 455M May 15  2013 localhost_access_log.2013-05-14.txt

-rw-r--r--.  1 hadoop hadoop 467M May 16  2013 localhost_access_log.2013-05-15.txt

-rw-r--r--.  1 hadoop hadoop 426M May 17 00:00 localhost_access_log.2013-05-16.txt

-rw-r--r--.  1 hadoop hadoop 153M May 18 00:00 localhost_access_log.2013-05-17.txt

-rw-r--r--.  1 hadoop hadoop 138M May 19 00:00 localhost_access_log.2013-05-18.txt

-rw-r--r--.  1 hadoop hadoop 154M May 20 00:00 localhost_access_log.2013-05-19.txt

-rw-r--r--.  1 hadoop hadoop 474M May 21 00:00 localhost_access_log.2013-05-20.txt

-rw-r--r--.  1 hadoop hadoop 474M May 22 00:00 localhost_access_log.2013-05-21.txt

-rw-r--r--.  1 hadoop hadoop 483M May 23 00:00 localhost_access_log.2013-05-22.txt

-rw-r--r--.  1 hadoop hadoop 437M May 24 00:00 localhost_access_log.2013-05-23.txt

3.6G    .


싱글 노드에서 돌렸을 때 20:11:27~20:19:28 (8'01") 걸렸습니다. sort는 1분 이하로 걸렸습니다.

date && hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount input output && date


part-r-00000 파일을 정렬한 linux 명령은 다음과 같습니다.

sort -r -n -k2 part-r-00000 > part-r-00000.sorted


virtualbox 가상머신에 centos 6.4 minimal 설치하고, 실행했습니다.

$ cat /proc/cpuinfo /proc/meminfo

processor       : 0

model name      : Intel(R) Core(TM) i3-3220 CPU @ 3.30GHz

cache size      : 6144 KB

fpu             : yes

cpuid level     : 5

wp              : yes

bogomips        : 6585.72

clflush size    : 64

cache_alignment : 64

address sizes   : 36 bits physical, 48 bits virtual


MemTotal:        1020532 kB


$ df -h

Filesystem            Size  Used Avail Use% Mounted on

/dev/mapper/vg_hadoop-lv_root

                       14G  5.4G  7.4G  43% /

tmpfs                 499M     0  499M   0% /dev/shm

/dev/sda1             485M   52M  408M  12% /boot




관리하는 서버에 로그인 없이 들어가기 위한 방법입니다.

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 644 ~/.ssh/authorized_keys


ssh localhost
 

from: http://www.yongbok.net/blog/how-to-install-hadoop-2-2-0-pseudo-distributed-mode/

참고: http://www.jopenbusiness.com/mediawiki/index.php/Hadoop


위 작업을 하지 않은 경우 이런 메시지를 만나게 됩니다.

The authenticity of host 'localhost (::1)' can't be established.

RSA key fingerprint is e2:11:3e:c9:79:fb:a4:6f:d0:dd:53:d8:be:a8:7b:b4.

Are you sure you want to continue connecting (yes/no)? yes

localhost: Warning: Permanently added 'localhost' (RSA) to the list of known hosts.

hadoop@localhost's password: 


하둡 프로그램을 돌려 볼 수 있는 싱글 노드 설정에 관한 영상입니다.


녹화방송을 볼 수 있습니다.

2013-11-14 01:15까지 시청 가능합니다.


09분 위치부터 보시며 됩니다. 

http://afbbs.afreeca.com:8080/app/read_ucc_bbs.cgi?szBjId=kenuheo&nStationNo=12409927&nTitleNo=5353047&szSkin=


관련 페이지입니다.

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html


제 방송국 주소입니다.

http://afreeca.com/kenuheo







Hadoop 세미나
피망 퍼블리싱 플랫폼 소개
네오위즈게임즈 류정수 실장

게임비즈니스 이슈
M&A, 퍼블리싱 증대, 해외시장 개척 다변화, 플랫폼 다변화

포털 비즈니스 이슈
플랫폼 다변화, 기존서비스 강화, 사회적 책임에 대한 요구
아이팟터치의 다음 지도, 세이클럽의 세이캐스트

PMANG 게임 포털
Teaser Site > Closed Beta > Open Beta > 상용화

게임 성공요인
게임 컨텐츠
PM/GM의 사업적 판단 능력
고객 NEED 판단
개발사와의 협업 프로세스
기술 코디네이터

Chukwa
Hadoop 기반의 로그 수집 시스템
http://hadoop.apache.org/
Agent
Collector(http server jetty)
ArchiveBuilder
Demux
DataViewer

Scribe Facebook's Scalable Logging System


Analysis of File Types in hadoop
64M block size
namenode's memory 150 bytes/file

SequenceFile
support compression

MapFile
SequenceFile with sorted key-indexed files

HAR (Hadoop Archives)
hadoop archive -archiveNmae NAME <src>* <dest>



OPEN API : 지도, 검색 정보 등의 일부 데이터를 외부에 오픈해서 사용하도록 하는 프로그래밍 기술. 제3의 서비스 창출이 가능하게 된 Web2.0 프로그래밍 트렌드. 국내 Naver, 다음이 OpenAPI 주도.

Google File System : 전세계 웹검색 정보 등의 대용량 파일 처리를 위한 구글의 파일 분산 저장 시스템. 하루에 PC급 서버 10만대에서 20,000 테라바이트를 처리할 수 있는 병렬 컴퓨팅 설계 기법.

Google BigTable : 구글 파일 시스템을 응용한 대용량 분산 데이터베이스 시스템. 데이터베이스의 머신을 병렬화하여 확장성과 가용성 그리고 퍼포먼스를 무한히 늘려갈 수 있음.
사용자 삽입 이미지
image from: http://whatis.blogs.techtarget.com/2007/06/20/cloud-computing-the-next-big-thing/

2008년 초, 나를 사로잡는 키워드입니다. 몇 년 전 오라클과 델 컴퓨터가 그리드 컴퓨팅이라고 내놓은 컨셉과 유사합니다만, 구글에서 2002년부터 연구하고 서비스에 이용하는 PC급 서버의 클러스터링 방식을 클라우드 컴퓨팅이라고 합니다.

Map Reduce 라는 개념으로 파일을 분산 복제해서 관리를 하게 되는데, 구글 파일 시스템 GFS 에 대한 오픈소스 프로덕트가 하둡입니다. hadoop 이라고 하죠. http://lucene.apache.org/hadoop 사이트에서 이에 관한 정보를 얻을 수 있습니다.

검색엔진과 저는 별로 상관 없을 줄 알았는데, 컴퓨터의 계산 능력을 극대화하기 위한 새로운 접근법 클라우드 컴퓨팅은 매력이 있습니다.

사용자 삽입 이미지

관련:

http://jaso.co.kr/99 하둡 관련 전문 블로그
http://deisys.tistory.com/108 하둡의 퍼포먼스 (삽질기)
http://www.hadoop.co.kr/ 하둡 한국 사용자 그룹
http://wiki.hadoop.co.kr/wiki/moin.cgi 하둡 한국 사용자 그룹 wiki
http://irgroup.org/ 검개그 검색엔진 개발자 그룹
http://www.gruter.co.kr/ 검개그 운영자 블로그

+ Recent posts