在分析非结构化数据集时,会使用 自然语言处理 多种方法。今天,我们将了解自然语言处理和文本挖掘之间的区别。
文本挖掘
为了描述文本挖掘(通常称为文本分析),我喜欢牛津的这个定义:“检查大量书面资源以生成新信息的过程或实践。”文本挖掘的目标是通过将文本转换为可用于进一步分析的数据来发现文本中的相关信息。文本挖掘通过使用各种分析方法来实现这一点;自然语言处理 (NLP) 就是其中之一。
虽然听起来很相似,但文本挖掘 目标电话号码或电话营销数据 与我们大多数人习惯的“网络搜索”版本搜索有很大不同,后者涉及向用户提供已知信息。相反,文本挖掘的主要范围是发现可能未知且隐藏在其他信息中的相关信息。
自然语言处理
自然语言处理 (NLP) 是文本挖掘的一个组成部分,它执行一种特殊的语言分析,本质上帮助机器“阅读”文本。NLP使用各种方法来解释人类语言中的歧义,包括:自动摘要、词性标注、消歧、实体提取和关系提取,以及消歧和自然语言理解和识别。
任何自然语言处理软件要想发挥作用,都需要一个一致的知识库,例如详细的同义词库、词汇表、语言和语法规则的数据集、本体和最新的实体。
如今,NLP 软件是许多常见应用程序后台运 自然语言处理应用程序 行的“影子”进程,例如智能手机中的个人助理功能、翻译软件和自助电话银行应用程序。
自然语言处理和文本挖掘的区别
重要的是,当文本挖掘和 NLP 结合使用时,它们会 比特币电子邮件列表 发挥多大的作用。可以这样想:因为我们不可能自己阅读所有的信息并确定哪些是最重要的,所以文本挖掘应用程序(使用 NLP)会为我们做到这一点。文本挖掘工具不仅仅是一个返回符合我们要求的来源列表的搜索工具,它还能为我们提供有关文本本身的详细信息(含义等),并揭示数据集中数百万个文档的模式。
文本分析和 NLP 示例
文本挖掘和 NLP 通常一起用于不同的目的,最常见的应用之一是社交媒体监控,其中对用户生成的内容池进行分析以了解与某个主题相关的情绪、情感和意识。