文章核心总结与翻译
一、主要内容
文章提出一种基于大型语言模型(LLM)的混合分析框架,用于量化科学文献的主题趋势和跨学科关联。以《美国国家科学院院刊》(PNAS)2005-2024年间发表的1519篇工程类文章为研究对象,通过两阶段分类流程:先基于摘要进行主主题分类,再通过全文分析完成次主题标注,最终结合传统自然语言处理(NLP)方法(如BoW、TF-IDF)验证结果,并通过二分图呈现主题间的潜在关联。研究发现该框架可自主还原期刊的隐性分类结构,揭示工程学与生物学、医学等领域的跨学科联系,同时识别出组织工程、诊断技术、材料科学等核心研究主题及其时间演化特征。
二、创新点
- 提出“摘要主分类+全文次分类”的两阶段流程,突破传统仅依赖摘要或关键词的分析局限,捕捉文献中的隐性主题关联。
- 融合LLM的语境理解能力与传统NLP的统计验证优势,既解决了关键词稀疏性问题,又通过BoW、c-TF-IDF等方法确保分类结果的可靠性。
- 采用二分图和邻接矩阵可视化主题间的不对称依赖关系,清晰呈现工程学作为基础学科与其他领域的交叉模式,无需预先知晓期刊分类规则。
- 验证了LLM在科学文献元研究中的潜力,可自动生成通俗易懂的主题标签,同时动态追踪研究趋势的演化。
三、核心部分翻译(Markdown格式)
Abstract(摘要)
科学文献正日益受到复杂语言、静态学科结构和潜在稀疏关键词
订阅专栏 解锁全文

2622

被折叠的 条评论
为什么被折叠?



