标签归档:大数据

大数据 教程 视频 spark hadoop 学习 2019最新 项目实战精通

继续阅读

1.select * from table的时候不走mapreduce,但是常规配置下 select 字段  from table 是走mapreduce的 2.fetch 如果配置了fetch,根据不同配置某些操作不走mapreduce提高效率,比如配置成more,select 字段 from t…

继续阅读

外部表external,删除外部表不会删除数据,只删除元数据,删除管理表会把数据和元数据一起删除。 分区表,partitioned table,根据某个字段按照目录分区,提高查询效率 注意:hive表创建时候指定目录,即使目录没有文件也可以创建,创建好后把文件上传过去,hive表中会自动加载,分区表…

继续阅读

elasticsearch建立了映射不能修改,如果想实现修改,就要另辟蹊径: 重新建立索引,重新建立映射,然后把之前的索引导入到新的索引里。这样就实现了修改映射。 如何把旧索引的数据导入到新索引? 别名,非常方便。 给index起一个aliases(别名)能非常优雅的解决两个索引无缝切换的问题,这个…

继续阅读

学习elasticsearch时候,都说倒排索引倒排索引,乍一听以为是一种倒叙排列的方式,还是另有玄机? 经过一番论证,发现并不是那么回事。 先看下定义:倒排索引源于实际应用中需要根据属性的值来查找记录 一般的索引表的每一项都包含一个属性值和记录改属性值的地址,由于不是由记录来确定属性值,而是由属性…

继续阅读

什么是ElasticSearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云…

继续阅读

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, …

继续阅读

LanguageManual Types Hive Data Types Hive Data Types Overview Numeric Types Date/Time Types String Types Misc Types Complex Types Column Types Integra…

继续阅读

常用命令  查询数据库 show databases; #查询表 show tables; 使用数据库 use database_name ; 查看表结构 desc table_name;   目录 一、关系运算:… 4 1. 等值比较: =. 4 2. 不等值比较: <…

继续阅读

公司需求搭建hadoop环境支持hive的场景,虽然hadoop已经发布了3.x版本,但是hive官方目前只看到支持2.x就选择了安装hadoop2.9.0,以下记录完整的环境搭建以及测试过程以备不时之需。linux用的是redhat6.3,建议使用centos更新的版本,redhat有些功能需要注…

继续阅读

尚硅谷《全套Java、Android、HTML5前端视频》         (百万谷粉推荐:史上最牛、最适合自学的全套视频、资料及源码)                                                                                  …

继续阅读

1、通过搜索调研,可以尝试使用工具如sqoop或者datax,或者借鉴其开源代码提供的思路来解决,datax中有channel和通道速率,主键分片splitPk等各种配置方式。 2、从数据库层面考虑,比如oracle中有各种根据不同方式将一张表根据算法拆分比如rowid等,一个牛人悬赏的例子: &#…

继续阅读

设计 https://pan.baidu.com/s/1nvu5Rw1#list/path=%2F 4月11日 Wow English TV https://pan.baidu.com/s/1jIsxTZK#list/path=%2F 4月11日 Team_Umizoomi gcks https:/…

继续阅读

马化腾谈智慧零售:腾讯不做零售 甚至不做商业 新浪科技讯 3月25日上午消息,2018中国(深圳)IT领袖峰会于2018年3月24-25日在深圳市五洲宾馆举行。腾讯公司控股董事会主席兼首席执行官马化腾《数字中国的机遇与探索》的主题演讲。 马化腾提到,通过10、11年智能手机的迅速普及,3G、4G等基…

继续阅读

谷歌正在与美国医学协会(美国的一个医师游说团体)进行合作,双方达成一项挑战计划,其内容是让初创企业能够想出“促进健康监测设备数据共享的最佳新思路”。 美国医学协会于周一表示,最终的挑战成果将会是一款手机应用或可穿戴设备。这两者可以让慢性病患者更轻松地与医生分享数据。 该声明称:“获奖作品将展示申请人…

继续阅读

小猪奴尼               https://pan.baidu.com/s/1eQtLt9C#list/path=%2F                                             wjb1 汉字宫001-430集        https://pan.baid…

继续阅读

看了一些关于kafka的资料,略懂一点,总结对比kafka和jms的区别和联系来加深理解,kafka到底是个神马东西: jms分为队列和主题两种模式。 queue:队列中一个queue中的消息只能被一个客户端消费。p2p模式特点: 每个消息只有一个消费者(Consumer)(即一旦被消费,消息就不再…

继续阅读

摘一片文章,茶余饭后了解下我们的世界。 作者丨罗振宁 来源丨《品读》2018第4期 过去,我们总以为人工智能是在复制人的思维方式。但实际上,完全不是这样。 机器和人类的最大区别是什么?是机器不会疲倦。 它其实就是传说中的中国最牛的虚拟人物——别人家的孩子,一个勤奋的、听话的、完美的小孩。 你在打游戏…

继续阅读

18/18