传智播客旗下高端IT在线教育平台|咨询热线:010-56288220

返回顶部 返回列表
462 1

[大数据专区] 古寒飞:《修炼大数据该有的进化》

[复制链接]

4

主题

7

帖子

34

积分

新手上路

古寒飞

Rank: 1

积分
34
4621 古寒飞 发表于 2018-6-15 10:49:12
本帖最后由 18516187075 于 2018-6-15 12:02 编辑

最酷的事
        我觉得世界上最酷的事,就是自己为自己制造一些独一无二的工具,来让自己的能力获得显著的提升。

        最具代表性的一个例子:托尼·斯塔克的智能装甲和智能助手贾维斯。我不是硬件出身,所以只能折腾一些软件,抛转引玉先来一个好的开始:

        下图图是我的私人Linux服务器(上面部署着我的个人网站)登录界面的欢迎动作,里面包含了我进入服务器第一时间需要进行的几个操作,再没有给出明确指令需要退出它之前,会一直以守护进程的方式来待命。


Linux欢迎我自己的界面

Linux欢迎我自己的界面



        这其实只是很简单的一些技术,但是应用手段却很灵活,只要用shell写好一些echo输出语句,和一些i条件判断,然后把整个shell脚本以bash执行的方式放入到/etc/bashrc配置中即可,最后这个脚本就会在任何时候开机运行。


        开机脚本相信很多人都会搞出来,但是我想表达的重点是,开机启动一些为自己提供帮助的脚本是很必要的,我们应该让我们的技术优先服务于我们自己,我们自己为自己提供帮助让我们进化的更加强大然后再去服务于生产,而这就是我今天要表达的主题:我们如何使用大数据来使自身进化!


利用技术来让自己更加进化
        在上一篇文章《大数据修炼秘籍》中,我提到了第四阶段的“领悟”是比“理解”要更高一个层次的行为,其中提到的一个典型应用,就是我通过“离线点击流日志分析”的这个学习,领悟到,它可以应用到我的英语学习中。我不想去从四六级单词开始背起,那让我觉得容易放弃,且没有实际应用。但是apache hadoop的技术文档则不一样。我下载好hadoop的全英文技术文档,然后就进行最简单的单词统计。统计出出现频次最高的100个单词,一个一个查明白中文意思,然后时长复习一下。慢慢的不到一个月再去查看hadoop的英文文档时,有时候猜都能猜出大概意思。然后依次类推再去学习第二个100个单词。最后当hadoop的官方文档我能全部看懂时,我想那个时候我应该是技术部里的hadoop第一人了吧。


        上面提到的统计hadoop英文文档的单词频次,有限学习出现频次最高的单词,这只是第一个应用场景。下面还有一些我能想象到的应用场景,大家集思广益:


        我要租房子,用爬虫去爬去所有公网上的租房信息(学大数据是要学python的,会了python但是不会爬虫,那怎么可以),然后统计出现词汇的频次和对应价格。比如在上海二室一厅这个词汇一般对应的价格都是4500元往上,但是同样是4500元的价位,我们可以利用“离线点击流日志分析”学习中其中老师教我们以关联判断的思维来进行的session的合并的这种方式,来判断同一个招租信息,在不同招租网站上的发布时间和频次。来分合并析出谁是更急着想要把房子租出去,从而利用对方的及迫切租房的心理为自己压一下价格是相对容易的事情,毕竟急着招租的人,我们往往总能在他们面前为自己争取到三五百的让步的,一个月省500元一年就是6000元,我们又可以去买两台新的Xbox游戏机了。


        这里还有一个例子是和我们自身学习相关的,上面的租房有些少校可能不太喜欢折腾,但是这个例子就蛮好。你们注意到了老师在教我们hive的时候,会创建一些表,然后为表手动创建一些数据吗?然后老师会把手动创建的数据线上传到linux上,然后再执行hdfs dfs -put命令来吧数据上传到HDFS,这是不是很繁琐。虽然作者在这里有好几种方法来解决这个繁琐的难题(比如使用samba目录同步),但对不理解linux的同学,这里却有一种更好的方式啊来完成windows本地的文件及时同步到HDFS上或者linux上。那就是flume采集,我们做实验的时候采集的是实验的业务数据,我们同样也可以采集我们windows某一个目录的数据啊,然后用它来提交到linux或者HDFS上。从此只要在window的某一个目录中新建了什么文件,linux那边立刻就可以同步过去,是不是很方便呢!


        以上的几个例子或许列举的不是很恰当,但是作者只想表达一个意思,我们所掌握的技术不应该只是去服务于公司的生产,更要服务于我们自己,当我们把所学的技术在折腾中应用到了我们实际的生活中,学习是不是就没有那么枯燥了呢。所以,作者在这里抛砖引玉,希望能启发更多对大数据有兴趣的同学和我一起探索,我们的目标不应该只是简单的为了赚钱而学习,利用我们的“魔法”去探索星辰大海,其获得的乐趣总能超乎我们的想象!


回复

1

主题

2

帖子

30

积分

新手上路

guohan

Rank: 1

积分
30
guohan 发表于 2018-8-8 08:55:41
启发很大,谢谢哥们能够讲自己的学习经验分享出来,受益匪浅!
回复

您需要登录后才可以回帖 登录 | 立即注册