안녕하세요. ferozah 입니다.
지난 번 스팀잇 1월 데이터 분석에 이어 이번 시간에는 재미로 한 번 확인해 보는 "문재인 대통령, 올림픽 개회식 사전 리셉션 환영사" 에 대한 워드 클라우드 입니다.
원문은 청와대 홈페이지 입니다.
R 프로그래밍 코드 입니다.
library(KoNLP)
library(SnowballC)
library(RColorBrewer)
library(wordcloud)
데이터분석, 정확히 텍스트 마이닝에 필요한 라이브러리를 include 합니다.
KoNLP와 SnowballC는 한글 자연어 처리 합니다. RcolorBrewer은 워드 클라우드를 표현할 때 글자 색깔이나 모양을 정하는 용도 입니다. wordcloud는 말그대로 워드 클라우드를 그리기 위한 함수입니다.
text <- readLines("moon_address.txt")
parsed <- sapply(text,extractNoun,USE.NAMES = F)
대통령의 연설문(moon_address.txt)을 읽어와서 명사를 추출 합니다.
wordcloud(words=top100$word, freq=top15$freq, min.freq = 2, scale=c(2,0.5), max.words = 500, random.order = FALSE, rot.per = 0.1,colors=brewer.pal(8, "Dark2"))
추출된 단어 중 2번이상 등장하는 단어들만 필터링하여 워드 클라우드로 표현 합니다.
'우리'와 '평화'라는 단어가 가장 많이 언급 되었네요. 평창 올림픽을 평화 올림픽에 빗대어 이야기 하는데 문재인 대통령 연설문에서도 그 맥락이 드러납니다.
오늘은 추가로 Bar chart 도 만들어 보았습니다.
각 단어들이 몇번씩 등장 했는지 Bar chart로 보여 줍니다.
ggplot(data=top10, aes(x=reorder(word,freq), y=freq, group=1, fill=word)) + geom_bar(stat="identity", aes(fill=word), position=position_dodge(), colour="black") + theme(legend.position="right", legend.direction="vertical") + coord_flip() + geom_text(data=top10, aes(label=top10$freq), position=position_identity(), vjust=0.5, hjust=-0.2)
문재인 대통령 연설문으로 확인해본 워드 클라우드와 Bar chart 였습니다!
우리와 평화라는 단어로 대표되는 평창올림픽에서 우리나라 선수들의 선전을 기원합니다!
스스로 홍보하는 프로젝트에서 나왔습니다.
오늘도 좋은글 잘 읽었습니다.
오늘도 여러분들의 꾸준한 포스팅을 응원합니다.
응원 및 방문 늘 감사드립니다!
흥미롭게 보고 갑니다
편안한 저녁 되세요^^
자주 와주셔서 너무 감사드립니다!^^
이런 것도 가능하군요~
능력자분들이 많은 스팀잇이예요~
감사합니다! 스팀달러 문제 잘 해결 되셔서 다행입니다!^^
능력자십니다:) 이런 솔팅이 가능하다니!!! 진짜 능력자 집단 스팀잇!!!
저는 이제 막 입문한 초보 입니다^^ 배우면서 이것저것 해보고 있습니다! 응원 감사드립니다!^^
오 신기하네요 ㅎㅎ 그런데 이번 올림픽 취지와 맞게 연설했나봐요 .. 평화평화평화 때문에 말도 많고 또 어떻게 보면 성공적으로 개최할 수 있던 하나의 내용이기도하고요
ㅎㅎ 직접 데이터를 분석하다보면 이렇게 우리가 생각했던 것과 일치하는 데이터가 나오면 나름 신기 합니다^^
여러가지 말은 많지만 여러모로 잘 되기를 기원 합니다! ^^
ㅎㅎㅎㅎㅎㅎㅎㅎ 그 목소리와 말투가 선~합니다. 요런 데이터를 뽑으시다니... 너무 멋지십니다^^
칭찬 감사드려요! 이제 막 배우면서 이것저것 해보는 단계라 힘이 납니다 으샤으샤!^^
1일 1회 포스팅!
1일 1회 짱짱맨 태그 사용!
^^ 즐거운 스티밋의 시작!