본문 바로가기

Hadoop

(7)
가상 서버 안의 Hive에서 검색한 테이블을 외부로 가져오기 #하둡 실행하기(모든노드에서 ips,sps,mr,tr은 기본) hadoop namenode -format start-all.sh #hive는 하둡에서 사용하는 데이터베이스이다. #하둡에서 이용할 데이터가 있는 Data폴더에서 hive실행 sf cd Data hive #테이블을 만들어준다 #수집한 데이터에 따라서 만들어주는데 csv파일의 열명에 따라서 hive 테이블에 하나하나 컬럼을 만들어준다. #나같은경우 비행기 데이터를 가지고 하므로 그 데이터의 열 명에 따라 하나하나 만들어준다. create table airdelay( Year INT, Month INT, DayofMonth INT, DayOfWeek INT, DepTime INT, CRSDepTime INT, ArrTime INT, CRSArrT..
하둡 wordcount #하둡켜기 hadoop namenode -format start-all.sh #하둡 폴더로 이동하기 cd hadoop #하둡 파일 시스템의 목록보기 hadoop fs -lsr / #하둡에서 wordcount를 수행한 파일을 저장할 폴더를 생성한다. hadoop fs -mkdir input #input폴더에 wordcount할 txt파일을 넣는다 hadoop fs -put CHANGES.txt /user/root/input #wordcount를 할 때 사용할 jar파일을 확인한다. ls #hadoop-examples-1.0.4.jar파일을 이용해서 wordcount를 수행한 결과물을 out1이라는 폴더에 저장한다. hadoop jar hadoop-examples-1.0.4.jar wordcount /use..
hive 설치 및 구동 #### ## hive설치 # 공유폴더로 이동 sf # 미리 다운 받아놓은 hive압축을 풀어준다. tar xzvfp hive.tar.gz # 압축을 푼 hive폴더를 /usr/local 로 옮긴다 # 나는 여태까지 java와 hadoop폴더는 local에 vmwaretool은 /usr/local/src에 두었다. mv hive /usr/local # local폴더로 이동 loc # 하이브 폴더의 링크설정을 한다. ln -s hive hive #hive의 환경변수 설정을 한다. vi /etc/profile export HIVE_HOME=/usr/local/hive export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/src/bin:$PATH # 설정한 환경변수..
리눅스 설치 #리눅스 Centos가상머신에 공유폴더를 설정하고 # 리눅스 CentosCD를 꼽고 reinstall VMwareTools를 실행한다. # mnt폴더로 이동한다 cd /mnt #cdrom이라는 폴더를 만들어주고 mkdir cdrom #공유폴더와 내가 만든 /mnt/cdrom폴더를 연결 시켜준다.(마운트하기) mount /dev/cdrom /mnt/cdrom mount /dev/sr0 /mnt/cdrom mount /dev/sr1 /mnt/cdrom ###마운트가 안되면 이 3가지를 다 시도 해보았을때 read -only로 쓸 수 있다는 메시지가 뜨면 성공! ###마운트가 잘 안되서 항상 이것저것 다해본다. ##/mnt/cdrom폴더로 이동한다. cd cdrom ls ##VMwareTools을 설치하는 t..
하둡 설치 #하둡 설치를 위한 디렉토리 부터 만들어준다. mkdir -p /home/hadoop/hdfs/data mkdir -p /home/hadoop/hdfs/temp mkdir -p /home/hadoop/hdfs/name # mkdir 의 -p 옵션은 디렉토리를 만들어줄 경로상에 디렉토리가 없으면 만들어준다. #hadoop압축파일 풀기 tar xzvfp hadoop.tar.gz #hadoop 파일을 원하는 위치로 옮겨준다. mv hadoop /usr/local/hadoop #hadoop 폴더 안에 conf폴더로 이동 cd /usr/local/hadoop/conf ls -al (ll과 같다) 하둡 설정을 위해 설정해주어야하는 파일 ###############core-site.xml #하둡에서 이용할 포트번호가..
리눅스에서 SSH설정 host들의 ip주소를 기억하여 SSH프로토콜을 통하여 노드간의 내부 통신이 가능하게 한다. #연결할 노드들의 ip 주소를 기억시키는 설정 vi /etc/hosts #vi /etc/hosts 파일에 들어가야할 설정 192.168.68.129 [노드이름] 192.168.68.130 [노드이름] 192.168.68.131 [노드이름] 192.168.68.132 [노드이름] #연결 설정 확인 ssh [노드이름] #비밀번호 치고 들어 가지면 성공1 # ssh연결을 위한 키값 생성, RSA알고리즘으로 키값 생성(연결해주어야할 노드들에 들어가 노드 마다 한다.) ssh-keygen -t rsa #ssh키 값이 들어있는 폴더로 접속 cd ~/.ssh ls #ssh로 생성한 키값이 들어있는 파일은 id_rsa.pub이..
리눅스에서 자바 설치하기 su #루트 사용자에 접속 #현재 리눅스에 설치된 자바 검색 rpm - qa | grep java* # 현재 기존 리눅스에 설치된 자바 삭제 # .noarch를 제외한 모든 파일을 삭제 #띄어쓰기 주의!!!! yum -y remove [파일명] [파일명] [파일명] #자바 버전 확인 java -version #자바를 모두 삭제 했으니까 자바 버전 확인시 안떠야 정상 #자바 압축파일 풀기 tar xzvfp java.tar.gz #자바 링크 시키기 ln -s java java #자바 환경 변수 설정 vi /etc/profile #/etc/profile 파일 작성 export JAVA_HOME=[내가 압축을 푼 자바 폴더를 놓은 위치] #JAVA_HOME경로설정 export PATH=$JAVA_HOME/bin..