word2vec 용 US 특허 (USPTO) 데이터

상념 2019. 1. 10. 10:21

 

최근에는 word2vec을 이용하여 문서 데이터 분석을 많이 하는데 미국 특허 데이터 (USPTO)를 분석하면서 만들어 놓은 word2vec ready 데이터를 공개하고자 한다.

word2vec은 이제 공개된 것도 많아서 일반인들도 쉽게 사용할 수 있다. 문제는 USPTO 데이터가 너무 방대하고 word2vec 에 걸기 위해서는 먼저 청킹이 되어야 하는데 컴퓨팅 파워 뿐 아니라 시간도 많이 걸려서 쉽게 할 수 없다는 거다.

청킹은 복합명사를 구분하는 것으로 텍스트 분석에서는 필수적 단계이다. 예를 들어 data mining이라는 기술명을 청킹 없이 그냥 word2vec에 걸면 data와 mining이 별개로 입력이 되므로 "data mining"이라는 복합 명사가 갖는 의미는 사라져 버리는 것이다.

이번에 공개하는 데이터는 Stanford core NLP를 이용하여 POS tagging를 한 후 자체 chunking 알고리즘을 이용하여 복합명사를 표시('_' 로 연결)한 데이터로 1994년부터 2017년도까지 전체 USPTO 이며 타이틀, abstract, claims를 커버하고 있다. 2018년이후 데이터도 향후 특허가 공개되는대로 계속해서 추가로 공개할 계획이다.

다운로드 방법은 researchgate.net에서 "USPTO word2vec ready"으로 검색하면 된다.

데이터 인용시에는 "Seonho Kim (2017), Processed Word2Vec ready US Patent research data, ResearchGate, https://doi.org/10.13140/RG.2.2.17439.66721" 라고 달아주시면 감사.

 

 

 

 

 

 

 

posted by Dr.Deeeep

뉴스: 새로운 블로그 오픈

상념 2018. 10. 3. 04:54

 

이번학기(2018년 가을학기) UST 에서 "[UST-15984] 딥러닝 기술 및 응용" 전공 강의를 하게되면서 강의 내용 및 강의 자료등을 학생들과 공유하기 위한 블로그를 새로 오픈 하였다. 

 

새로운 블로그 위치 : 

https://ust-15984.tistory.com

 

이 블로그를 통해 강의 슬라이드와 실습때 사용한 예제 소스 파일들도 같이 공유가 되니 딥러닝에 대해  공부를 시작해보고자 하는 사람들은 한번씩 방문 해봐도 좋을듯. 

이번 강의의 목표는 데이터분석 전문가를 위한 딥러닝 강의로서 텍스트 등 자연어 분석 분야에서의 딥러닝 기술을 많이 다룰 예정이며 전산 비전공자도 이해하기 쉽도록 최대한 쉽고 필수적이며 실용적인 내용만을 강의할 예정이다.

 

 

posted by Dr.Deeeep