본문 바로가기
반응형

텍스트마이닝2

[한글 분석] kr-wordrank와 soynlp를 활용한 한글 분석 최근 업무의 일환으로 진행했던 한글 분석 내용을 좀 정리하고자 한다. 나는 이제껏 한글 분석을 할때면 늘 konlpy를 메인으로 사용하고 간간히 kr-wordrank를 섞어 쓰는 방식을 사용했다. 하지만 이번엔 그럴수가 없었는데, 1) 리뷰 데이터이며, 2) 최소한의 관리를 바탕으로 배치가 돌아야 했기 때문이다. 한글 리뷰는 대체 짧다. 그리고 그 와중에 오타나 띄어쓰기는 대체로 안지켜지며, 연령대에 따라 사용되는 단어 무척이나 다르다. 그렇기 때문에 일반적인 방법을 쓰면 늘 관리해야는 이슈가 따라올것 같았다. 그래서 생각한 것이 비지도 학습을 통한 단어 사전을 구축하고 이를 바탕으로 토큰나이징을 하는 것이다. (사실 이렇게 하는 것이 맞는 지 모르겠다, 다만 생각보다 결과가 잘나와서...) 여기서 사용.. 2022. 1. 15.
[Study] 아파트 호재 분석(2020-03-07) 부동산 호재가 아파트 매매가에 얼마나 영향을 끼칠까? 라는 궁금증에서 친구들과 시작하게 되었다. 우선 데이터 수집처부터 확인했다. 1. 공공데이터 수집 공공데이터를 통해서 아파트 매매 실거래 데이터를 확인할 수 있었다. 해당 데이터를 수집하기 위해서 API 활용 신청하고 데이터 수집을 진행했다. 공공데이터 활용 신청의 경우 신청한 후 거의 바로 ServiceKey가 발급되는데, 실제로 API를 연결해서 사용하려면 1~2시간 정도의 대기 시간이 필요했다. 이후 내가 확인하고 싶은 지역의 법정동 코드를 알아야한다. 법정동 코드는 https://www.code.go.kr/stdcode/regCodeL.do에서 확인할 수 있다. 서비스 키 발급과 법정동 코드를 알면 아래의 코드로 데이터를 수집할 수 있다. im.. 2020. 3. 7.
반응형