반응형 한글분석1 [한글 분석] kr-wordrank와 soynlp를 활용한 한글 분석 최근 업무의 일환으로 진행했던 한글 분석 내용을 좀 정리하고자 한다. 나는 이제껏 한글 분석을 할때면 늘 konlpy를 메인으로 사용하고 간간히 kr-wordrank를 섞어 쓰는 방식을 사용했다. 하지만 이번엔 그럴수가 없었는데, 1) 리뷰 데이터이며, 2) 최소한의 관리를 바탕으로 배치가 돌아야 했기 때문이다. 한글 리뷰는 대체 짧다. 그리고 그 와중에 오타나 띄어쓰기는 대체로 안지켜지며, 연령대에 따라 사용되는 단어 무척이나 다르다. 그렇기 때문에 일반적인 방법을 쓰면 늘 관리해야는 이슈가 따라올것 같았다. 그래서 생각한 것이 비지도 학습을 통한 단어 사전을 구축하고 이를 바탕으로 토큰나이징을 하는 것이다. (사실 이렇게 하는 것이 맞는 지 모르겠다, 다만 생각보다 결과가 잘나와서...) 여기서 사용.. 2022. 1. 15. 이전 1 다음 반응형