专题:作为社会科学方法的文本挖掘[范并思教授组织]

组织者的话

在近年信息处理与分析相关技术领域的进展中,文本挖掘是最引人注目的领域之一.文本挖掘是一个方法群,涉及统计学、自然语言处理、信息抽取、可视化等多项信息技术.同很多新兴领域一样,文本挖掘目前并没有统一的定义,没有完全一致的方法与模型,但是,Feldman和sanger那个很笼统的定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”,清晰表明了这种方法与信息分析的内在联系.

信息分析方法可广泛用于决策支持和科学研究,在社会科学问题的研究中,它也具有一般社会科学研究方法所不具备的某些方法论优势.但情报学产生至今的数十年时间里,信息分析方法一直没有成为社会科学研究的主流方法,造成这一现象的原因,除了情报学对本领域的理论与方法缺乏有效的宣传之外,信息分析方法本身的效率问题是一个关键因素.由于社会科学所需要的信息分析方法的效率不高,制约了它们大规模进入社会科学研究的应用领域.值得庆幸的是,随着计算机技术的日渐成熟,高效率的文本挖掘方法出现了.尽管文本挖掘方法本身尚未完全成熟,仍在发展过程中,它在专门领域的应用也需要情报学家根据信息分析的特点加以完善,但它作为一种优秀的社会科学研究方法的前景已经展示无疑了.


2010年,笔者承担了国家社会科学重点项目“我国图书馆核心价值体系构建研究”.考虑到我国图书馆核心价值会受到我国社会主流价值的制约,我们需要判断国际上通行的图书馆核心价值是否为我国社会主流价值体系所认同.这就需要从国际上所有已经产生的图书馆核心价值中提取核心价值文本,并将其置入我国社会核心价值体系中进行考察.由于我国社会并没有形成“社会核心价值”,我们假定代表我国社会主流价值体系的文本,比如《人民日报》全文库或新华网,包含了我国社会的核心价值体系,而这类代表我国主流价值体系的文本必定是海量的、非结构化的,除非采用专门的方法与工具,否则无法发现这些文本中所包含的社会主流价值,也无法判断它们与图书馆核心价值的联系.

在本课题中,我们拟选择文本挖掘方法作为解决上述问题的主体方法.用文本挖掘方法从人文社会科学海量文本中挖掘其对于某些价值类命题的“认同”程度,涉及用计算机自动地从非结构文本中寻找表达情感的语义甚至微语义,这对我们而言是一个充满挑战的课题.完成本课题的前提之一,是要调研现有文本挖掘的方法和工具,研究人文社会科学领域应用文本挖掘的具体做法和成功经验,判断问题的难点并选择合适的研究路线.本组论文即是上述研究的成果.《社会科学信息分析中的文本挖掘》探讨了文本挖掘作为信息分析方法的优势所在;《人文社会科学研究中文本挖掘技术应用进展》和《文本挖掘在人文社会科学研究中的典型应用述评》调研了文本挖掘在社会科学中的应用进展,目的在于论证本课题技术路线的可行性;《文本挖掘工具述评》是为本课题选择具体工具与方法所进行的调研.希望本组论文的问世,有功于业界更好地利用包括文本挖掘在内的新的工具与方法,推动信息分析方法的进步.

华东师范大学商学院信息学系教授 范并思

类似论文

生社会科学方法课程

作者简介:卓凤(1989 07-),性别:女,籍贯:四川资阳,研究方向:少数民族基础教育改革,单位:广西师范。
更新日期:2024-5-25 浏览量:69128 点赞量:15279

简述马克思主义社会科学方法

摘 要随着人类文明的进步,人类对自身及社会的认识水平也不断得到提高 而马克思主义唯物史观的。
更新日期:2024-8-24 浏览量:107233 点赞量:23422

《社会科学方法》读书报告

德国学者马克斯韦伯对当代社会科学和社会思潮做出了巨大的贡献,而此贡献相当重要的一部分就是他į。
更新日期:2024-3-4 浏览量:9869 点赞量:3571

将社会科学方法运用到比较法学中

[摘 要]20世纪比较法学研究取得了许多重要成果,但也存在着许多缺陷与不足,如理论上较为贫弱。
更新日期:2024-12-23 浏览量:157250 点赞量:33863

自然科学与社会科学方法的差异

摘 要:自然科学是研究自然界各种事物和现象的性质及其发展规律的科学,社会科学是研究及阐明各种社会现象&。
更新日期:2024-11-10 浏览量:142973 点赞量:30849

社会科学信息中的文本挖掘

[摘 要]认为信息分析方法可以用于社会科学研究,具有客观、系统和定量的特点 内容分析作为一种典型。
更新日期:2024-3-25 浏览量:45616 点赞量:10824