- 通过具体项目实例来了解大数据,应用大数据解决实际问题,这是我们学习的目的,我们组的组员都想借此机会学习当前最新的技术。
- 在当今创新创业时代,大数据处理技术要求越来越高,为了跟上时代的潮流,我们理应去了解、培养、训练这些技术。
- 陈家乐(组长):Webpage Crawler,博客,设计文档。
- 韩昇范:Webpage Indexer (+Search Engine),Webpage Relation Visualization。
- 金奭炫:FrontEnd Webpage Design。
一. 系统简介 搜索引擎(Search Engine)就是指在WWW(World Wide Web)环境中能够响应用户提交的搜索请求,返回相应的査询结果信息的技术和系统,是互联网上的可以查询网站或网页信息的工具。它包括信息搜集、信息整理和用户査询部分。搜索引擎的服务方式分为两种:目录服务和关键字检索服务。目录服务是由分类专家将网络信息按照主题分成若干个大类,用户可以根据分类清晰地找到自己所需要的内容。关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。 二. NABCD 分析 1. N(Need 需求) 随着技术的进步,所有的事情都可以通过谷歌或百度搜索。 但有时候结果是一篇很长而且有时候难以理解的文章。 通过这个搜索引擎,可以让搜索者更容易找到想要的结果。我们希望通过本次项目来再次巩固一下使用编程语言基础、新的算法框架、新的应用技术。 2. A(Approach 方法) 所有人可以通过电脑(*或者手机)上的浏览器访问网站。我们设想的实现步骤如下:
-
- 通过用 Python 编写的 Python Crawler (Python爬虫)收集几个网站上的一堆网项,将这些存储到我们的数据库里(信息累积)。
- 通过用 C++ 编写的程序(搜索引擎)将累积的网项根据已有的280,000个左右个单词组成的词库里的单词来索引,程序还需要支持 DBMS (数据管理系统)软件的一些文件管理系统的基本功能。
- 从用户输入一个单词或一个句子,将有关(包含对应keyword)的网项显示到我们要设计的一个网站上。
- 通过Python(和 Java;如果还考虑Android 手机上运行)与前端的接口对接。
- 将对应的结果中的网项之间的关系(相关度)与 keyword之间的关系, 用 d3.js 来可视化到此网项上。
-
- 用户通过将可视化的结果来, 能够输入的(一系列构成的)一个句子中能找出来更重要keyword相关的网项,可以对教育、学习方面具有极大的参考价值。
- 通过具体项目实例来了解大数据,应用大数据解决实际问题能提高咱们的专业方面能力和眼界。





