Hadoop Big data AWS 세팅

Unable to load native-hadoop library for your platform

[Hadoop] 'Unable to load native-hadoop library for your platform' 에러

하둡 클라이언트를 통해서 데이터노드(Datanode)에 있는 데이터를 읽다보면 로그 파일에 다음과 같은 에러가 찍혀있는 경우가 있다. Unable to load native-hadoop library for your platform ShortCircuit Read라는 기능의 코드리뷰를 하다가 원격 디버거로 들여다볼라고 돌렸는데 이런 에러가 발생했었다. 에러 메시지의 내용은 libhadoop 라이브러리가 로드되지 않았다는 의미다. 하둡 클라이언트의 동작에는 문제가 없다. 다만 ShortCircuit Read 기능이 제대로 돌지 않기 때문에 성능 저하가 발생한다. 해결방법 이 문제를 해결하기 위해 libhadoop 라이브러리를 제대로 로드할 수 있도록 설정을 변경해줘야한다. 일반적으로 libhadoop.so..

https://hbase.tistory.com/114

AWS web access

AWS Security Group 으로 해결

Hadoop namenode not working

hdfs:0.0.0.0 으로 해결 localhost나 직접 ip말고

Spark conda

yaml file로 설치 안되는거 각자 설치로 해결

일단 tpcxai 전체로 돌아와서 돌려보니


Exception in thread "main" java.lang.NoSuchMethodError: org.tpc.tpcxai.UseCase01$CLIConf.opt(Ljava/lang/String;CLjava/lang/String;Lscala/Function0;Lscala/Function1;ZLjava/lang/String;ZZLorg/rogach/scallop/ValueConverter;)Lorg/rogach/scallop/ScallopOption;
        at org.tpc.tpcxai.UseCase01$CLIConf.<init>(UseCase01.scala:160)
        at org.tpc.tpcxai.UseCase01$.main(UseCase01.scala:127)
        at org.tpc.tpcxai.UseCase01.main(UseCase01.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:1029)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:194)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:217)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:91)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1120)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1129)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
24/05/08 14:42:29 INFO ShutdownHookManager: Shutdown hook called
24/05/08 14:42:29 INFO ShutdownHookManager: Deleting directory /tmp/spark-7cd59099-8b2a-4dcf-bf65-b5788343cbf7

usecase1 에서 발생하는데 1 그냥 빼고 2만 함

csv 는 spark는 folder단위로 불러오는데 파일 안생겨서 문제인듯

Hadoop Big data AWS 세팅

Unable to load native-hadoop library for your platform

AWS web access

Hadoop namenode not working

Spark conda

Recommendations