'hadoop' 태그의 글 목록

하둡2.2.0을 윈도우7에 설치해서 실행에 성공한 블로거의 글이 있네요.

http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os

일단 링크 남기고 시간내서 돌려봐야 할 것 같습니다.

Protocol Buffers 2.5.0이 있는 것으로 봐서는 소스를 받아서 빌드까지 한 것 같습니다.

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

10일간 웹로그에서 가장 많이 찍힌 문자열이 다음과 같습니다.

$ head -20 part-r-00000.sorted

- 38368124

+0900] 15687677

"GET 15639179

HTTP/1.1" 15460537

.NET 12153058

CLR 12152759

NT 12104459

"Mozilla/5.0 10849691

(compatible; 10664745

Windows 9383937

MSIE 9348230

200 8631840

6.1; 7713934

304 5998624

like 4948562

(KHTML, 4430859

Gecko) 4422071

"Mozilla/4.0 4289783

WOW64; 3823166

2.0.50727; 3712273

추출한 데이터 목록과 용량입니다.

[hadoop@hadoop input]$ ls -alh && du -h

total 3.6G

drwxr-xr-x. 2 hadoop hadoop 12K Nov 14 20:01 .

drwxr-xr-x. 12 hadoop hadoop 4.0K Nov 14 20:11 ..

-rw-r--r--. 1 hadoop hadoop 455M May 15 2013 localhost_access_log.2013-05-14.txt

-rw-r--r--. 1 hadoop hadoop 467M May 16 2013 localhost_access_log.2013-05-15.txt

-rw-r--r--. 1 hadoop hadoop 426M May 17 00:00 localhost_access_log.2013-05-16.txt

-rw-r--r--. 1 hadoop hadoop 153M May 18 00:00 localhost_access_log.2013-05-17.txt

-rw-r--r--. 1 hadoop hadoop 138M May 19 00:00 localhost_access_log.2013-05-18.txt

-rw-r--r--. 1 hadoop hadoop 154M May 20 00:00 localhost_access_log.2013-05-19.txt

-rw-r--r--. 1 hadoop hadoop 474M May 21 00:00 localhost_access_log.2013-05-20.txt

-rw-r--r--. 1 hadoop hadoop 474M May 22 00:00 localhost_access_log.2013-05-21.txt

-rw-r--r--. 1 hadoop hadoop 483M May 23 00:00 localhost_access_log.2013-05-22.txt

-rw-r--r--. 1 hadoop hadoop 437M May 24 00:00 localhost_access_log.2013-05-23.txt

3.6G .

싱글 노드에서 돌렸을 때 20:11:27~20:19:28 (8'01") 걸렸습니다. sort는 1분 이하로 걸렸습니다.

date && hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount input output && date

part-r-00000 파일을 정렬한 linux 명령은 다음과 같습니다.

sort -r -n -k2 part-r-00000 > part-r-00000.sorted

virtualbox 가상머신에 centos 6.4 minimal 설치하고, 실행했습니다.

$ cat /proc/cpuinfo /proc/meminfo

processor : 0

model name : Intel(R) Core(TM) i3-3220 CPU @ 3.30GHz

cache size : 6144 KB

fpu : yes

cpuid level : 5

wp : yes

bogomips : 6585.72

clflush size : 64

cache_alignment : 64

address sizes : 36 bits physical, 48 bits virtual

MemTotal: 1020532 kB

$ df -h

Filesystem Size Used Avail Use% Mounted on

/dev/mapper/vg_hadoop-lv_root

14G 5.4G 7.4G 43% /

tmpfs 499M 0 499M 0% /dev/shm

/dev/sda1 485M 52M 408M 12% /boot

저작자표시

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

관리하는 서버에 로그인 없이 들어가기 위한 방법입니다.

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

chmod 644 ~/.ssh/authorized_keys

ssh localhost

from: http://www.yongbok.net/blog/how-to-install-hadoop-2-2-0-pseudo-distributed-mode/

참고: http://www.jopenbusiness.com/mediawiki/index.php/Hadoop

위 작업을 하지 않은 경우 이런 메시지를 만나게 됩니다.

The authenticity of host 'localhost (::1)' can't be established.

RSA key fingerprint is e2:11:3e:c9:79:fb:a4:6f:d0:dd:53:d8:be:a8:7b:b4.

Are you sure you want to continue connecting (yes/no)? yes

localhost: Warning: Permanently added 'localhost' (RSA) to the list of known hosts.

hadoop@localhost's password:

저작자표시

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

하둡 프로그램을 돌려 볼 수 있는 싱글 노드 설정에 관한 영상입니다.

녹화방송을 볼 수 있습니다.

2013-11-14 01:15까지 시청 가능합니다.

09분 위치부터 보시며 됩니다.

http://afbbs.afreeca.com:8080/app/read_ucc_bbs.cgi?szBjId=kenuheo&nStationNo=12409927&nTitleNo=5353047&szSkin=

제 방송국 주소입니다.

http://afreeca.com/kenuheo

저작자표시

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

Hadoop 세미나
피망 퍼블리싱 플랫폼 소개
네오위즈게임즈 류정수 실장

게임비즈니스 이슈
M&A, 퍼블리싱 증대, 해외시장 개척 다변화, 플랫폼 다변화

포털 비즈니스 이슈
플랫폼 다변화, 기존서비스 강화, 사회적 책임에 대한 요구
아이팟터치의 다음 지도, 세이클럽의 세이캐스트

PMANG 게임 포털
Teaser Site > Closed Beta > Open Beta > 상용화

게임 성공요인
게임 컨텐츠
PM/GM의 사업적 판단 능력
고객 NEED 판단
개발사와의 협업 프로세스
기술 코디네이터

Chukwa
Hadoop 기반의 로그 수집 시스템
http://hadoop.apache.org/
Agent
Collector(http server jetty)
ArchiveBuilder
Demux
DataViewer

Scribe Facebook's Scalable Logging System

Analysis of File Types in hadoop
64M block size
namenode's memory 150 bytes/file

SequenceFile
support compression

MapFile
SequenceFile with sorted key-indexed files

HAR (Hadoop Archives)
hadoop archive -archiveNmae NAME <src>* <dest>

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

OPEN API : 지도, 검색 정보 등의 일부 데이터를 외부에 오픈해서 사용하도록 하는 프로그래밍 기술. 제3의 서비스 창출이 가능하게 된 Web2.0 프로그래밍 트렌드. 국내 Naver, 다음이 OpenAPI 주도.

Google File System : 전세계 웹검색 정보 등의 대용량 파일 처리를 위한 구글의 파일 분산 저장 시스템. 하루에 PC급 서버 10만대에서 20,000 테라바이트를 처리할 수 있는 병렬 컴퓨팅 설계 기법.

Google BigTable : 구글 파일 시스템을 응용한 대용량 분산 데이터베이스 시스템. 데이터베이스의 머신을 병렬화하여 확장성과 가용성 그리고 퍼포먼스를 무한히 늘려갈 수 있음.

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

image from: http://whatis.blogs.techtarget.com/2007/06/20/cloud-computing-the-next-big-thing/

2008년 초, 나를 사로잡는 키워드입니다. 몇 년 전 오라클과 델 컴퓨터가 그리드 컴퓨팅이라고 내놓은 컨셉과 유사합니다만, 구글에서 2002년부터 연구하고 서비스에 이용하는 PC급 서버의 클러스터링 방식을 클라우드 컴퓨팅이라고 합니다.

Map Reduce 라는 개념으로 파일을 분산 복제해서 관리를 하게 되는데, 구글 파일 시스템 GFS 에 대한 오픈소스 프로덕트가 하둡입니다. hadoop 이라고 하죠. http://lucene.apache.org/hadoop 사이트에서 이에 관한 정보를 얻을 수 있습니다.

검색엔진과 저는 별로 상관 없을 줄 알았는데, 컴퓨터의 계산 능력을 극대화하기 위한 새로운 접근법 클라우드 컴퓨팅은 매력이 있습니다.

관련:

http://jaso.co.kr/99 하둡 관련 전문 블로그
http://deisys.tistory.com/108 하둡의 퍼포먼스 (삽질기)
http://www.hadoop.co.kr/ 하둡 한국 사용자 그룹
http://wiki.hadoop.co.kr/wiki/moin.cgi 하둡 한국 사용자 그룹 wiki
http://irgroup.org/ 검개그 검색엔진 개발자 그룹
http://www.gruter.co.kr/ 검개그 운영자 블로그

초급자를 위해 준비한 [데브옵스 · 인프라] 강의입니다. Vite 기반의 React 개발 환경을 만들고, Node.js 기반의 API Server와 Swagger를 통한 API 문서를 자동 생성합니다. 로컬 개발환경과 개발서버의 차이를 이해하고, AWS를 쉽게 따라서 이용할 수 있습니다. https://inf.run/E3Qf

OK 괜찮아, 동네 개발자형

hadoop

윈도우에서 Hadoop 2.2.0 설치 및 실행 가능

10일간 로그 분석

ssh 로그인 없이 접속하기 #1

[동영상]hadoop 시작하기

Hadoop커뮤니티 세미나 후기

요약해서 말하면 openapi, google file system, bigtable

cloud computing 그리고 hadoop

+ Recent posts

티스토리툴바