在信息时代,人们获取信息的途径越来越多样化,获取信息的方式也变的越来越便捷。特别是网络社交媒体的出现,伴随着网络的兴盛,其也受到了广大用户的青睐。因为它不仅提供给用户浏览信息的功用,也提为用户发布消息提供了一个便利的平台。但由于网络上用户群体非常庞大,导致信息量过大,信息质量良莠不齐、信息内容重复等问题,这些问题必然会给用户造成关于信息检索方面的困扰。于是基于信息内容的数据挖掘成为了信息时代的一个重要研究。 其中,热门话题挖掘是最为重要的一部分。因为这项研究的意义,对于用户来说,不仅直接向他们提供了了解当前热门信息的渠道,还能节省大量时间,而对于网络社交媒体网站的管理人员来说,也能帮助他们更好的了解用户群体当前的喜好,并对网站的业务决策提供了实际的数据支持和指导。 本文正是针对网络社交媒体进行热门话题挖掘的研究工作。由于当前网络上主流的社交媒体是各大论坛和微博,本文分别就这两种数据进行了研究。这两者既共享了网络社交媒体所特有的特点,也有着各不相同的内在特质,本文分别对两种社交媒体数据的特点进行分析后,采用了不同的模型和算法去实现热门话题挖掘的研究任务。 首先,针对论坛数据的特点,本文以达到聚类结果具有一定可读性为目标来开展工作,主要从语义性和话题性两个方面,对论坛数据进行了形式化定义;通过利用数据的时序性特点,以及网络社交媒体上热门话题的出现规律,即在话题发起之后的连续时间段内,会有比较集中的针对此话题的讨论,本文采用单遍聚类算法来发掘数据中的热门话题。通过实验说明,本文采取的此种方法是简单可行的,特别是针对社交媒体数据,本文的方法不仅可以获得比较好的话题类别,也能使得话题结果具有可读性。 其次,对微博热门话题挖掘任务由于微博数据具有消息短、传播速度快的鲜明特点。本文采用了灵活性高、易扩展的图模型,并在图上把热门话题查找的任务形式化为查找图中的密集子图问题。通过实验验证,密集子图和热门话题确实存在对应关系。文中实验一种基于贪心策略的算法,此算法保证在经过几次迭代后算法会停止,还可以获得和最好结果相比的一个近似度较高的密集子图。在此算法基础上,本文提出了一种能检测Top-k个微博热门话题的算法,并用实验证明了算法的效率。