빡코

[빅데이터]빅데이터 셋팅 + 실습 본문

카테고리 없음

[빅데이터]빅데이터 셋팅 + 실습

chris.djang 2019. 11. 15. 18:40

[최신 버전 R-project 와 R-studio 설치하기]

[주의사항]

*경로에 한글이름있으면 실행 안될때도있음(영문 경로에 파일 설치)

*R을 D:드라이브에 설치 요망, C:드라이브는 library를 저장 못함

https://www.r-project.org/
https://www.rstudio.com/

 

RStudio

Open source and enterprise-ready professional software for data science

rstudio.com

[실습]

1.D드라이브에 temp 폴더를 생성해준다. 

2.해당 폴더에 뽑아내고 싶은 데이터의 원본을 붙여넣기 한다. 

[명령어]

setwd("d:\\temp")   ##소스폴더연결
install.packages("KoNLP")  ##한글사용(china 선택)
install.packages("wordcloud")  ##워드클라 우드작업(아름답게 꾸미기 위해서)
library(KoNLP)  ##패키지로딩
library(wordcloud)

txt <- readLines("원본파일이름.txt") ##파일 읽어들여 txt메모리에 저장

nouns <- sapply (txt,extractNoun,USE.NAMES=F) ##읽어들인 파일에서 명사추출(이름추출x)
unlist(nouns) ##명사확인
head(unlist(nouns), 30) ##명사 앞에서 30개 추출

data <- unlist(nouns) ##추출한 명사 data에 저장
unlist(data) ##data확인
data1 <- Filter(function(x) {nchar(x) >= 2} ,data)  ##2문자이상은 삭제하고 data1에저장
unlist(data1) ##확인


data1<-gsub("도쿄에도","",data1)

unlist(data1) ##확인

 

//결과에서 삭제하고 싶은 단어를 아래와 같이 하나하나 명령창에 실행 준다.

data1<-gsub("오늘","",data1)
data1<-gsub("10","",data1)
data1<-gsub("19","",data1)
data1<-gsub("대통령의","",data1)
data1<-gsub("대통령","",data1)
data1<-gsub("2017","",data1)
data1<-gsub("삼고초려해서","",data1)
data1<-gsub("하기","",data1)
data1<-gsub("민국","",data1)
data1<-gsub("대한","",data1)

unlist(data1) ##확인


write(unlist(data1),"noh_2.txt") ##정리된 데이터 파일저장


rev <- read.table("moon_2.txt") ##파일 다시  읽어오기

nrow(rev)  ##전체 데이터 건 수 조회하기

wordcount <- table(rev)  ##각 항목별 건수를 집계합니다

unlist(wordcount) ##확인


head(sort(wordcount, decreasing=T),30) ##내림차순정렬후 30개확인

library(RColorBrewer)  ## 화면에 출력할 컬러를 사용할 라이브러리를 Loading 합니다.


palete <- brewer.pal(9,"Set1")  # 글자 색깔 을 지정합니다.

wordcloud(names
(wordcount),freq=wordcount,scale=c
(5,0.5),rot.per=0.25,min.freq=1,
random.order=F,random.color=T,colors=palete
)
savePlot("d:\\저장하고자 하는 이름.png",type="png")

[결과]

아래와 같은 결과를 확인해 볼 수 있다.