하둡2.2.0을 윈도우7에 설치해서 실행에 성공한 블로거의 글이 있네요.
일단 링크 남기고 시간내서 돌려봐야 할 것 같습니다.
Protocol Buffers 2.5.0이 있는 것으로 봐서는 소스를 받아서 빌드까지 한 것 같습니다.
하둡2.2.0을 윈도우7에 설치해서 실행에 성공한 블로거의 글이 있네요.
일단 링크 남기고 시간내서 돌려봐야 할 것 같습니다.
Protocol Buffers 2.5.0이 있는 것으로 봐서는 소스를 받아서 빌드까지 한 것 같습니다.
10일간 웹로그에서 가장 많이 찍힌 문자열이 다음과 같습니다.
$ head -20 part-r-00000.sorted
- 38368124
+0900] 15687677
"GET 15639179
HTTP/1.1" 15460537
.NET 12153058
CLR 12152759
NT 12104459
"Mozilla/5.0 10849691
(compatible; 10664745
Windows 9383937
MSIE 9348230
200 8631840
6.1; 7713934
304 5998624
like 4948562
(KHTML, 4430859
Gecko) 4422071
"Mozilla/4.0 4289783
WOW64; 3823166
2.0.50727; 3712273
추출한 데이터 목록과 용량입니다.
[hadoop@hadoop input]$ ls -alh && du -h
total 3.6G
drwxr-xr-x. 2 hadoop hadoop 12K Nov 14 20:01 .
drwxr-xr-x. 12 hadoop hadoop 4.0K Nov 14 20:11 ..
-rw-r--r--. 1 hadoop hadoop 455M May 15 2013 localhost_access_log.2013-05-14.txt
-rw-r--r--. 1 hadoop hadoop 467M May 16 2013 localhost_access_log.2013-05-15.txt
-rw-r--r--. 1 hadoop hadoop 426M May 17 00:00 localhost_access_log.2013-05-16.txt
-rw-r--r--. 1 hadoop hadoop 153M May 18 00:00 localhost_access_log.2013-05-17.txt
-rw-r--r--. 1 hadoop hadoop 138M May 19 00:00 localhost_access_log.2013-05-18.txt
-rw-r--r--. 1 hadoop hadoop 154M May 20 00:00 localhost_access_log.2013-05-19.txt
-rw-r--r--. 1 hadoop hadoop 474M May 21 00:00 localhost_access_log.2013-05-20.txt
-rw-r--r--. 1 hadoop hadoop 474M May 22 00:00 localhost_access_log.2013-05-21.txt
-rw-r--r--. 1 hadoop hadoop 483M May 23 00:00 localhost_access_log.2013-05-22.txt
-rw-r--r--. 1 hadoop hadoop 437M May 24 00:00 localhost_access_log.2013-05-23.txt
3.6G .
싱글 노드에서 돌렸을 때 20:11:27~20:19:28 (8'01") 걸렸습니다. sort는 1분 이하로 걸렸습니다.
date && hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount input output && date
part-r-00000 파일을 정렬한 linux 명령은 다음과 같습니다.
sort -r -n -k2 part-r-00000 > part-r-00000.sorted
virtualbox 가상머신에 centos 6.4 minimal 설치하고, 실행했습니다.
$ cat /proc/cpuinfo /proc/meminfo
processor : 0
model name : Intel(R) Core(TM) i3-3220 CPU @ 3.30GHz
cache size : 6144 KB
fpu : yes
cpuid level : 5
wp : yes
bogomips : 6585.72
clflush size : 64
cache_alignment : 64
address sizes : 36 bits physical, 48 bits virtual
MemTotal: 1020532 kB
$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg_hadoop-lv_root
14G 5.4G 7.4G 43% /
tmpfs 499M 0 499M 0% /dev/shm
/dev/sda1 485M 52M 408M 12% /boot
from: http://www.yongbok.net/blog/how-to-install-hadoop-2-2-0-pseudo-distributed-mode/
참고: http://www.jopenbusiness.com/mediawiki/index.php/Hadoop
위 작업을 하지 않은 경우 이런 메시지를 만나게 됩니다.
The authenticity of host 'localhost (::1)' can't be established.
RSA key fingerprint is e2:11:3e:c9:79:fb:a4:6f:d0:dd:53:d8:be:a8:7b:b4.
Are you sure you want to continue connecting (yes/no)? yes
localhost: Warning: Permanently added 'localhost' (RSA) to the list of known hosts.
hadoop@localhost's password:
하둡 프로그램을 돌려 볼 수 있는 싱글 노드 설정에 관한 영상입니다.
녹화방송을 볼 수 있습니다.
2013-11-14 01:15까지 시청 가능합니다.
09분 위치부터 보시며 됩니다.
관련 페이지입니다.
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
제 방송국 주소입니다.