Structured knowledge documenting Dataset

Document 단위로 뽑는데 이 document를 길이를 일정하게 자른다거나, 또는 문서별로 자르는데 이 구조가 개념단위를 명확하게 쪼개지 못해서 cos similarity와 최적화된 구조는 아닌듯

개념별로 document 나뉠 때 데이터셋 논문 혹은 그런 데이터셋 사용시 더 좋다는 것 증명

texonom으로는 multilingual이라 한계가 있을듯

knowledge tree construction

KBQA 에서

leaves가 개념의 핵심인데

Depth-first search 처럼 트리를 탐색하는데, vector similarity based 연관성이 아니라 각각의 node들을 traverse하면서 부모가 연관없을 것 같으면 leave취급하고 최소화된 abstracted tree를 전체 tree에서 만드는 게 핵심

abstraction 할지 expand할지는 vector similarity로 할수도?

기존 vector similarity database search의 computing cost가 심하다는 것을 문제점으로 지적하면서 시작

Structured knowledge documenting Dataset

knowledge tree construction

Recommendations