반응형 Python12 [일상 넋두리] 데이터 분석가로 일하면서 느낀점들 나는 규모가 크지도 작지도 않은 회사에서 데이터 분석 업무를 맡고있다. 뭔가 데이터로 분석한다는 것에 굉장한 멋을 느꼈고, 대학원을 가면 좋다는 얘기에 데이터 사이언스학과를 졸업해 석사 학위를 받았다. 근데 석사학위때만 해도 데이터 분석에 대한 열망?열정? 이런 것들이 있었는데 막상 회사에서 실업무를 하다보면 그런 것들이 다 사라지는 것 같다. 지금 다니는 회사는 IT 업종이고 소프트웨어 개발 중심인 회사이다. 나름 여러 제품을 글로벌하게 서비스하고 있다. 그렇다보니 사업이나 마케팅과 같은 유관부서에서 분석 요청이 들어오는 경우도 많고 자체적으로 신사업에 대한 분석을 진행하기도 한다. 뭐 아무튼 여러 유관부서와 함께 일하면서 느꼈던 부분들을 주저리 주저리 풀어보려 한다. 1. 언어는 어떤걸 써야하나? 다.. 2020. 5. 29. [Study] 아파트 호재 분석(2020-03-07) 부동산 호재가 아파트 매매가에 얼마나 영향을 끼칠까? 라는 궁금증에서 친구들과 시작하게 되었다. 우선 데이터 수집처부터 확인했다. 1. 공공데이터 수집 공공데이터를 통해서 아파트 매매 실거래 데이터를 확인할 수 있었다. 해당 데이터를 수집하기 위해서 API 활용 신청하고 데이터 수집을 진행했다. 공공데이터 활용 신청의 경우 신청한 후 거의 바로 ServiceKey가 발급되는데, 실제로 API를 연결해서 사용하려면 1~2시간 정도의 대기 시간이 필요했다. 이후 내가 확인하고 싶은 지역의 법정동 코드를 알아야한다. 법정동 코드는 https://www.code.go.kr/stdcode/regCodeL.do에서 확인할 수 있다. 서비스 키 발급과 법정동 코드를 알면 아래의 코드로 데이터를 수집할 수 있다. im.. 2020. 3. 7. [Python] 네트워크 분석 시각화(networkx+bokeh) 재작년 즈음에 네트워크 분석을 진행한 적이 있었다. 대학원 시절에는 주로 gephi를 사용했는데, 가장 큰 단점이 일일이 만져줘야하는 시간이 너무나 많이 걸린다는 것이다. 그래서 과감하게 NetworkX를 사용해서 시각화하고 이것을 Bokeh를 통해서 interactive하게 만들어보기로 했었다. 지금은 어떤지 모르겠지만 그 당시에는 NetworkX와 Bokeh 모두 관련 정보가 없어서 시행착오를 많이 겪었다. (사실 내가 빠르게 해보고 싶어서 서두르다 보니 더 잘 안된 것도 큰 이유라 생각한다.) 2년전 코드로 정리할 예정이기 때문에 상당히 난잡하고, 비효율적이다...(늘 그렇듯) 1) networkx를 통한 그래프 그리기 우선 노드와 노드간의 관계를 표현할 수 있는 Edge list를 만들어야 한다... 2020. 3. 4. [Selenium] 체크박스 상태 확인 크롤러를 통해서 데이터를 수집하는 것이 애매해 데이터를 다운 받는 경우가 종종 있다. 그냥 다운로드 할 수 있으면 다행이지만 "요약행"이라든가, "총합행"이라든가.. 하는 옵션이 추가되어 있는 경우가 있다. 이러한 행들의 경우에는 열 구분이 제대로 되어 있지 않아 해당 파읽을 읽었을 때 문제가 생기는 경우가 있다. 체크 박스에 대한 attribute가 제대로 있으면 다행지만 그렇지 않은 경우가 있는데 나는 아래와 같이 해결했다. if driver.find_element_by_xpath('//input[@type="checkbox"]').get_attribute('checked'): driver.find_elements_by_class_name('uiInputLabelLabel')[-1].click() x.. 2019. 3. 30. 이전 1 2 3 다음 반응형