word2vec 용 US 특허 (USPTO) 데이터

상념 2019. 1. 10. 10:21

 

최근에는 word2vec을 이용하여 문서 데이터 분석을 많이 하는데 미국 특허 데이터 (USPTO)를 분석하면서 만들어 놓은 word2vec ready 데이터를 공개하고자 한다.

word2vec은 이제 공개된 것도 많아서 일반인들도 쉽게 사용할 수 있다. 문제는 USPTO 데이터가 너무 방대하고 word2vec 에 걸기 위해서는 먼저 청킹이 되어야 하는데 컴퓨팅 파워 뿐 아니라 시간도 많이 걸려서 쉽게 할 수 없다는 거다.

청킹은 복합명사를 구분하는 것으로 텍스트 분석에서는 필수적 단계이다. 예를 들어 data mining이라는 기술명을 청킹 없이 그냥 word2vec에 걸면 data와 mining이 별개로 입력이 되므로 "data mining"이라는 복합 명사가 갖는 의미는 사라져 버리는 것이다.

이번에 공개하는 데이터는 Stanford core NLP를 이용하여 POS tagging를 한 후 자체 chunking 알고리즘을 이용하여 복합명사를 표시('_' 로 연결)한 데이터로 1994년부터 2017년도까지 전체 USPTO 이며 타이틀, abstract, claims를 커버하고 있다. 2018년이후 데이터도 향후 특허가 공개되는대로 계속해서 추가로 공개할 계획이다.

다운로드 방법은 researchgate.net에서 "USPTO word2vec ready"으로 검색하면 된다.

데이터 인용시에는 "Seonho Kim (2017), Processed Word2Vec ready US Patent research data, ResearchGate, https://doi.org/10.13140/RG.2.2.17439.66721" 라고 달아주시면 감사.

 

 

 

 

 

 

 

posted by Dr.Deeeep

티스토리(TISTORY)를 쓰면 안되는 이유

상념 2018. 12. 24. 13:52

티스토리 블로그 처음 시작하시는 분들 참고하라고 글써본다.

 

티스토리는 검색 노출이 거의 안됨. 

'구글'이나 '네이버'등의 메인 검색엔진에 거의 노출이 안됨. 아마도 로봇 크롤링이 막혀있는듯.

사람들이 많이 안쓰는 '다음' 검색에서만 노출이 잘됨. 하지만 내 주변에 '다음' 검색 쓰는 사람은 거의 못봤음. 아니 한번도 못봤음.

수동으로 이들 검색 엔진에 노출 시키려 해도 절차가 복잡하고 불가능한 부분도 있음.

이제와서 모든 글을 다른 블로그로 이동하는 것도 쉽지 않고... 아쉬움. 애초에 티스토리 특성 좀 조사해보고 블로그를 시작했어야하는데. 너무 아쉬움.

 

 

 

 

 

 

posted by Dr.Deeeep

딥러닝에서 데이터 normalization 범위

상념 2018. 11. 7. 09:50

 

 

딥러닝에서 데이터 전처리시 가장 궁굼한 것 중 하나가, normalization의 대상 범위를 어떻게 정할 것인가? 인데 신경망을 연구하는 사람들은 이미 다 알고 있는 것인지도 모르겠다.

normalization 방법을 단순히 try and error 방법으로 실험으로만 결정할 문제는 아닌것이다. 

아래 이미지는 UCI EEG에서의 normalization을 이거 저거 해보면서 만든 슬라이드 중 일부인데. 이 이외에도 여러 가지 있고 각각 결정해야할 변수들이 많다. 또 실제 각 normalization 시 참고 백데이터 범위를 global 데이터를 대상으로 할 것인가 현재 인스턴스만을 대상으로 할 것인가까지 고려해야 하므로 더 다양한 조합의 방법이 있으므로 이거 저거 다 실험해 보는것은 만만치 않다.

그런데 요즘 몇가지 실험을 해보면서 확인한 바로는 뉴럴넷에 사용되는 액티베이션 펑션에 따라 결정이 되어야한다는 것이다. 액티베이션 펑션이 출력하는 범위의 데이터로 전처리 해야만 전파 중 정보 손실이 없는 것이다. 예를 들어 sigmoid 같은 경우는 0.0~1.0, tanh 같은 경우는 -1.0~1.0 정도이다. 따라서 이러한 펑션을 사용하는 신경망에서 z-score normalization은 다시 한번 생각해 봐야한다.

 

 

 

 

posted by Dr.Deeeep