하둡 공부 순서

하둡 공부 순서

  1. HDFS
  2. MapReduce
  3. YARN
  4. Avro
  5. Parquet
  6. Flume
  7. Sqoop
  8. Pig
  9. Hive
  10. Crunch
  11. Spark
  12. Hbase
  13. Zookeeper

하둡 에코 시스템

하둡 에코 시스템

HDFS, MapReduce, YARN은 하둡 기반 구성 요소라서 정확하게 이해할 필요성이 있다
다른 요소들은 필요한 순서대로 공부하면 될 듯

속도를 높이는 파이썬 코드

기존 파이썬 코드를 빠르게 만드는 방법

  • 상황에 맞는 정확한 데이터 구조 사용
    (list, tuple, set, dict, etc…)
  • for 루프 대신 while 루프 사용
  • 컴프레헨션 사용
  • 복수 할당 사용 ( a, b = 1, 2)
  • 될 수 있으면 global 키워드를 줄이자 연산 작업에 많은 시간을 소요한다
  • 라이브러리를 활용
  • 제너레이터 사용
  • .사용 자제 (use sqart instead of math.sqart)
  • 무한 반복문에 1 사용 True 사용 보다 런타임 줄일수 있음
  • 큰 데이터 처리는 pandas, numpy, scipy 사용

참조링크

하둡을 왜 쓰는 것일까?

하둡을 왜 쓰는 것일까?

빅데이터 처리

  • 인터넷 사용자들의 기록(비정형 데이터)
  • 생물학의 데이터 과학 등

대용량 처리하기에는 기존 RDBMS는 비효율적

  • 비정형 데이터 분석 불가
  • 확장하기가 힘들다
  • 빅데이터 처리하기에 운영 비용이 기하급수적으로 비싸진다
  • 빅데이터 처리 속도가 하둡 보다 느리다

'Diary'

i asked that how should i try to learn speak english to teacher.
the teacher said that dont think in korean just think in english.
if i think in korean i have to translate to english, so when i think speaking english,
that make me bother and take time.
although it is unfamiliar to think in english first time i should do it to improve of it
let’s start to think in english during speaking or writing english

'Diary'

i usually talk in english with engoo teacher during work
i realized i used same pattern and same word today
i wanna to express that deviate from the pattern and words i use
i can’t express it
i think that it is important to speak english well that think in freely
i wanna to think in english logic when i use it
the day would come someday