多样性,因为它们是非结构化数据
传统工具无法对其进行分类(它不是发票或客户编号),因此无法对其进行分析。
这三个 v 可据,但这次我们将重点关注语言;因为目前来说这是分析这种感觉的唯一方法。
我之所以说是现在,是因为下一步是声音,而且我相信我们将能够分析像语调这样微妙的元素。
因此如果我们想分析网络
上关于某个品牌、产品或服务的情绪,就必须分析网络上消费者的大众语言。
非结构化和自然的语言,这就是问题的开始。
社交网络语言和计算语言学
想象一下 twitter 上两个用户关于某个产品的对话、亚马逊 阿尔巴尼亚 whatsapp 号码列表 上的评论或 google 图书上的评价。
你能想象能够大规模分析这些对话并将其分为积极的、中性的和消极的吗?
这就是互联网情绪分析,即对产品或服务的正面、负面和中性评论的平均值。
这就是信息社会的主要资产——书面语言的价值循环。
语言价值圈
大数据是转化为知识的信息,正是这种知识提供 网络或论坛上总会存在有关 了价值并使人们能够采取行动。
然而这个平均值怎么知道呢?
这就是计算语言学以及语言类型的用武之地。
语言类型计算语言学
在互联网和线下世界,人类通过自然语言进行交流。
也就是为了指称世界、为了发表意见或理由,总之为了交 马来西亚号码 流而产生的自发性语言。
自然语言与人工语言(机器语言)不同,充满了歧义。