본문 바로가기

OpenSource(Bigdata&distribution&Network)/Sqoop

sqoop parquet snappy 테스트 현재 프로젝트에서 SQOOP 과 압축과 저장포멧을 선택해야해서 간단하게 테스트를 했다. 테스트항목은 sqoop 을 통해서 oracle 데이터를 hadoop 에 넣을때 snappy의 압축 / 비압축 text plain / parquet 포멧이 두가지 종류로 총4 개의 테스트를 진행한다. 테스트 장비의 간단한 스펙 Host 장비 : CPU : Xeon CPU E5-2620 v3 * 2 HT ( Total 24 Core )RAM : 256GBHDD : PCI-E(NVMe) Vm OS , SATA (hadoop , oracle data ) guest os 스펙 HADOOP ECO SYSTEM vm node spec core : 16core ( 4socket , 4core )ram : 16GB1 name node.. 더보기
sqoop data import 성능 테스트 ( 압축 , parquet ) [테스트 실패 진행불가] sqoop , compress , parquet , textplain 을 사용하기 위한 테스트를 진행하기로 했다. 현재 프로젝트중인 고객사에서 사용하기로 한 snappy와 parquet에 대한 테스트를 위해서 해당 내용을 작성한다.사용할경우 안할경우를 비교하기위해서 총 4가지의 케이스를 테스트한다. MAIN Server 환경 : - CPU : 2CPU (2Socket 24Core)- RAM : 256GB- HDD : PCX용 SSD + SATA HDD 조합 (hadoop, oracle data가 SATA HDD에 존재)테스트상 Disk I/O가 영향이 많이가기때문에 이 내용도 기록함 - HDD는 전부 5400RPM - 버퍼 64MB , WD사의 데이터 저장용 HDD임.- SSD는 PCI-E 에 장착하는 .. 더보기
sqopp import format 별로 저장 sqoop 으로 hadoop 으로 넣을경우 4가지 파일 포멧 리스트 * Oracle 에 있는데이터를 Hadoop 으로 옮겨넣을때 그동안은 실시간으로 넣어야해서 flume을 썼는데 배치성으로 도는 작업등은 flume까진 필요없었다. 지금 들어와있는 프로젝트에서는 sqoop 을 사용 해서 데이터를 hadoop으로 넣는 작업을 진행했다. sqoop 은 크게 어려움은 없었으며 쉘상에서 명령어의 사용을 통해서 데이터를 전송해서 사실 개인적으로 사용하기 많이 편했다. 단지 플럼처럼 커스터마이징이 될지는 아직 모르는 상태. 원본은 ORACLE 상에 일반 HEAP TABLE 이다. 테스트용 테이블을 만들고나서 임시로 1,000 건의 데이터를 넣었다. CREATE TABLE HDFS_4 ( ID VARCHAR(100),.. 더보기