본문 바로가기

Analysis Tips13

[한글 분석] kr-wordrank와 soynlp를 활용한 한글 분석 최근 업무의 일환으로 진행했던 한글 분석 내용을 좀 정리하고자 한다. 나는 이제껏 한글 분석을 할때면 늘 konlpy를 메인으로 사용하고 간간히 kr-wordrank를 섞어 쓰는 방식을 사용했다. 하지만 이번엔 그럴수가 없었는데, 1) 리뷰 데이터이며, 2) 최소한의 관리를 바탕으로 배치가 돌아야 했기 때문이다. 한글 리뷰는 대체 짧다. 그리고 그 와중에 오타나 띄어쓰기는 대체로 안지켜지며, 연령대에 따라 사용되는 단어 무척이나 다르다. 그렇기 때문에 일반적인 방법을 쓰면 늘 관리해야는 이슈가 따라올것 같았다. 그래서 생각한 것이 비지도 학습을 통한 단어 사전을 구축하고 이를 바탕으로 토큰나이징을 하는 것이다. (사실 이렇게 하는 것이 맞는 지 모르겠다, 다만 생각보다 결과가 잘나와서...) 여기서 사용.. 2022. 1. 15.
[API] 주택 구입 부담 지수 API 연결 최근 자산 배분에 관한 관심이 높아졌다. 그래서 이런저런 자료를 찾다보니, 주택 구입 부담 지수라는 걸 알게 되었고, 해당 데이터 대해 주택 금융통계 시스템에 API를 제공하는 것을 알게되었다. https://www.hf.go.kr/research/portal/main/indexPage.do 주택금융통계시스템 HOUSTAT (HOUSING FINANCE STATISTICS SYSTEM) www.hf.go.kr * 주택 구입부담지수는 중위소득 가구가 표준대출을 받아 중간가격의 주택을 구입하는 경우의 상환 부담을 나타내는 지수이다. 그렇기때문에 지수가 낮을 수록 주택 구입부담의 완화를 의미하며 높은 경우에는 가중되는 것을 의미한다. 아파트 호재 분석의 경우 단순히 거래량이 중요한게 아니라, 사회 전반적인 경.. 2021. 8. 28.
[공공데이터] 수집한 데이터 flask로 표현해보기 이전에 수집한 데이터를 flask를 통해서 표현해보는 것을 진행했다. 단순히 표현하는 수준이고, 내가 했던 것을 까먹지 않기 위해 작성한다. 참고: https://wikidocs.net/78513 이전에 수집한 실거래 데이터를 활용해볼 예정이다. 수집 관련 게시글 : https://dovah.tistory.com/32?category=830150 다만, 이번 과정에선 db 연결은 하지 않고 로컬 파일로 진행했다. 파이참에서 flask 프로젝트에는 프로젝트 내에 static과 templates폴더가 필요하다. static의 경우 css, templates의 경우는 html 파일이 포함된다. 1. 데이터 호출 from flask import Flask, render_templa from database im.. 2021. 7. 31.
[공공데이터] DB에 저장하고 Flask와 연결해보기 지난번에 API를 연결해서 데이터를 저장하는 것까지 진행했다. 하지만 단순히 데이터를 모으는 것에서 멈추는 게 아니라, 실제로 분석하고 웹으로 시각화하는 것이 목표이다. 그래서 이전에 수집했던 데이터들을 DB에 저장하고, 이걸 Flask를 통해서 DB 연결까지 해보는 것까지 이번에 해봤다. 사실 삽질을 많이 했다. 1. DB 셋팅 DB는 postgresql로 선정했다. (그 이유는 지금 회사에서 사용하고 있으니까...) 개인 노트북의 경우 os가 ubuntu이기 때문에 설치하는 데 좀 애를 먹었다. 여러 블로그를 찾다가 한줄기 빛과 같은 아래 링크를 발견했고... 설치를 완료했다. leop0ld.tistory.com/58 [Ubuntu] PostgreSQL 설치하고 사용하기 이번에는 Ubuntu에서 Da.. 2021. 1. 10.