본문 바로가기

Hive

Spark2.1 Hive Auth Custom Test Spark2.1 Hive Auth Custom Test - 2017년 현재. 모 빅데이터 프로젝트 운영을 하고있는중.- 요구사항 : Spark 를 사용하는데 Hive권한 인증을 사용하려한다. Spark 버전 : 2.1문제점 : Spark의 강력한 기능에는 현재 호튼웍스 빅데이터 플랫폼에서 사용하고있는 Spark인증은 찾아봐도 없었다. Hive Metastore를 쓰기때문에 Custom을 해서 재컴파일하려고 했고.테스트는 잘되고 . 그 위치만 올려서 나중에 안까먹으려한다. - Spark Source는 Scala로 되어있다 .- 일단 Scala를 좀 스스로 Hello World는 찍고나서 아래부분에 기능을 추가함.SparkSource 위치 sql/hive/src/main/scala/org/apache/spa.. 더보기
sqoop parquet snappy 테스트 현재 프로젝트에서 SQOOP 과 압축과 저장포멧을 선택해야해서 간단하게 테스트를 했다. 테스트항목은 sqoop 을 통해서 oracle 데이터를 hadoop 에 넣을때 snappy의 압축 / 비압축 text plain / parquet 포멧이 두가지 종류로 총4 개의 테스트를 진행한다. 테스트 장비의 간단한 스펙 Host 장비 : CPU : Xeon CPU E5-2620 v3 * 2 HT ( Total 24 Core )RAM : 256GBHDD : PCI-E(NVMe) Vm OS , SATA (hadoop , oracle data ) guest os 스펙 HADOOP ECO SYSTEM vm node spec core : 16core ( 4socket , 4core )ram : 16GB1 name node.. 더보기
Hive java connection 설정 어찌되었든 DB만은 할수없는 일이다. 좋은(비싸기만 한것말고 적재적소의 데이터베이스) DB에 잘 설계된 데이터구조를 올려놓고 나면 잘만들어진 프로그램이 좋은 인터페이스 역할을 해야 좋은데이터가 만들어지는것이지. DB혼자 잘나바야 데이터 넣기도 어렵고 개발혼자 잘나바야 데이터 꺼내서 활용하기도 어렵다. 개발과 DB는 어찌되었든 같이 조화가 되어야지 불화(?) 가 되어서는 안되는것 같다. 아무튼. 데이터 insert , select 를 위해서 hive를 이용해서 데이터 조작을 위한 테스트를 진행하려고 한다. 준비사항 : 1. hive-0.8.1-bin.tar.gz 안의 라이브러리들. 2. 개발툴 ( 나는 eclipse ) 3. WAS 아무거나 ( 나는 tomcat - was라고 치자..... ) 1. 설정 .. 더보기
Hive로 결정. Hbase 로 이것저것 보다가 pig , hive를 발견했다. 사실 pig 와 hive는 hadoop을 보면서 봤던 단어이기도 하다. 그중에 hive! 여기저기 찾아보니 페이스북에서 개발했고 그게 오픈소스프로젝트에서 업그레이드?를 한다고 하던데 (맞는지 안맞는지는 난 모름) 기본적인 세팅을 하고 hive를 실행해보니 약간 DB와 비슷하다. 내가 늘하던 SQL과 비슷해서 (단 INSERT는 무슨 load도 아니고;;;; 뭐냐;;) 그래서 hive로 이것저것 하기로 하고 세팅을 하기로 했다. 아파치 hive 문서를 찾아보면 https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-InstallationandConfigurat.. 더보기