icon2

2.3 本章心得

“看来仅仅是数据的采集,就有不少学问啊。”

“是的,对于互联网上的公开数据,我们可以通过爬虫这个强大的工具来获取所需要的内容。深度获取、宽度获取和最佳(聚焦或定向)优先是不同的爬取策略,让爬虫可以不断地发现‘数据的新大陆’。在数据的爬取方面,Nutch和Heritrix都是不错的开源系统,可以帮助我们快速实现爬取。对于企业内部的数据而言,数据源的发现不再是问题,更要强调的是数据收集和传输的及时性。Flume、Scribe和Logstash等开源方案,提供了拉取或推送的采集模式,提供了不同的特性和选择。”

“小明哥,感谢你今天关于数据采集的介绍,这下我们不愁没有大量的数据玩了。对了,还有一个问题,就是这么多的数据如何才能存放下来呢?”

“存放确实很关键。无论是互联网,还是企业内部收集到的数据,都可以使用像Hadoop这样NoSQL的大数据解决方案来存储。别急,我们会在下一章来探讨这个问题。如果你对数据收集本身还想做进一步了解,可以参考下面的图书。”