机构知识库的功能实现,理论上讲已经没有太高的技术门槛,但做容易,做好难。
如机构成果尽可能全面收割,EI每次检索结果只能翻页4000个成果,一个机构会有多种英文名称等。不仅仅要爬取成果元数据,还要爬取全文和引文。元数据要全,如机构署名次序、作者排名、通信作者等。要能提供成果的引证数据,如收录情况,期刊影响因子、JCR分区、中科院分区等。
另外机构成果的去重,似乎很简单,但同一篇文章会出现在SCI、EI、知网、万方等数据库中,甚至在SCI、EI中是英文元数据,而在知网、万方中是中文元数据,这也需要去重。另外在Pubmed上,期刊《癌症》会标记为"AI
ZHNEG"甚至是AI ZHENG/CHINA Cancer,如何去重?