分类目录归档:技术前沿

1.select * from table的时候不走mapreduce,但是常规配置下 select 字段  from table 是走mapreduce的 2.fetch 如果配置了fetch,根据不同配置某些操作不走mapreduce提高效率,比如配置成more,select 字段 from t…

继续阅读

外部表external,删除外部表不会删除数据,只删除元数据,删除管理表会把数据和元数据一起删除。 分区表,partitioned table,根据某个字段按照目录分区,提高查询效率 注意:hive表创建时候指定目录,即使目录没有文件也可以创建,创建好后把文件上传过去,hive表中会自动加载,分区表…

继续阅读

elasticsearch建立了映射不能修改,如果想实现修改,就要另辟蹊径: 重新建立索引,重新建立映射,然后把之前的索引导入到新的索引里。这样就实现了修改映射。 如何把旧索引的数据导入到新索引? 别名,非常方便。 给index起一个aliases(别名)能非常优雅的解决两个索引无缝切换的问题,这个…

继续阅读

悲观锁,正如其名,它指的是对数据被外界(包括本系统当前的其他事务,以及来自外部系统的事务处理)修改持保守态度(悲观),因此,在整个数据处理过程中,将数据处于锁定状态。 悲观锁的实现,往往依靠数据库提供的锁机制 (也只有数据库层提供的锁机制才能真正保证数据访问的排他性,否则,即使在本系统中实现了加锁机…

继续阅读

学习elasticsearch时候,都说倒排索引倒排索引,乍一听以为是一种倒叙排列的方式,还是另有玄机? 经过一番论证,发现并不是那么回事。 先看下定义:倒排索引源于实际应用中需要根据属性的值来查找记录 一般的索引表的每一项都包含一个属性值和记录改属性值的地址,由于不是由记录来确定属性值,而是由属性…

继续阅读

众所周知split的用法,指定字符分割返回数组。下面讲一个特殊的用法,后面跟第二个参数,意思是返回 的数组个数,如果是-1,返回所有。 split(” “) 和 split(” “, -1) 区别: 代码示例: String line = &#8220…

继续阅读

什么是ElasticSearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云…

继续阅读

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, …

继续阅读

遇到这个问题,查了查网上有几种情况,重启eclipse等等均未解决,后来发现junit测试的方法没有返回值、没有参数,突然想起自己手贱在方法中传参了。。。去掉参数就解决了解决了。。。

LanguageManual Types Hive Data Types Hive Data Types Overview Numeric Types Date/Time Types String Types Misc Types Complex Types Column Types Integra…

继续阅读

常用命令  查询数据库 show databases; #查询表 show tables; 使用数据库 use database_name ; 查看表结构 desc table_name;   目录 一、关系运算:… 4 1. 等值比较: =. 4 2. 不等值比较: <…

继续阅读

公司需求搭建hadoop环境支持hive的场景,虽然hadoop已经发布了3.x版本,但是hive官方目前只看到支持2.x就选择了安装hadoop2.9.0,以下记录完整的环境搭建以及测试过程以备不时之需。linux用的是redhat6.3,建议使用centos更新的版本,redhat有些功能需要注…

继续阅读

常用指令 ls          显示文件或目录 -l           列出文件详细信息l(list) -a          列出当前目录下所有文件及目录,包括隐藏的a(all) mkdir         创建目录 -p           创建目录,若无父目录,则创建p(parent) c…

继续阅读

1、通过搜索调研,可以尝试使用工具如sqoop或者datax,或者借鉴其开源代码提供的思路来解决,datax中有channel和通道速率,主键分片splitPk等各种配置方式。 2、从数据库层面考虑,比如oracle中有各种根据不同方式将一张表根据算法拆分比如rowid等,一个牛人悬赏的例子: &#…

继续阅读

环境变量配置 程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix或Windows中路径变量为PATH(UNIX区分大小写,Wind…

继续阅读

eclipse查看一个方法被谁引用(调用)的快捷键四种方式 1.(首推)双击选中该方法,Ctrl+Alt+H 如果你想知道一个类的方法到底被那些其他的类调用,那么请选中这个方法名,然后按“Ctrl+Alt+H”, Eclipse就会显示出这个方法被哪些方法调用,最终产生一个调用关系树。 2.(次推)…

继续阅读

视觉中国供图 “一口唾液,就能测出孩子的天赋。家长可以有的放矢地开发孩子的天赋和潜能,不用尝试那么多的兴趣班来挖掘特长”“准确预测癌症肿瘤,准确率近100%”…… 打开搜索引擎,键入“基因检测”,类似的广告语不时可见。基因检测成了可以预测未来发展以及旦夕福祸的利器,然而事实真的如此吗? 天赋基因检测…

继续阅读

一说到爬虫,都会想到近几年火爆天际的Python,甚至有很多java老粉丝也想转行学python了。我也曾经深思熟虑过是否要学习另一种语言了呢?java是否已经失宠?经过了一番搜寻论证,我得出了一个惊人的结论: java是世界上最好的语言! 就拿爬虫来说吧!我们java也是可以勉为其难的实现滴。这用…

继续阅读

来源:北京晨报   日前,教育部印发《高等学校人工智能创新行动计划》,要求推进“新工科”建设,重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合,形成“人工智能+X”复合专业培养新模式,到2020年建设100个“人工智能+X”复合特色专业、建立50…

继续阅读

IT之家4月12日消息 在今日腾讯主办的2018年中国“互联网+”数字经济峰会金融分论坛上,腾讯区块链业务总经理蔡弋戈表示腾讯将于4月23日发布腾讯第一款区块链游戏。 蔡弋戈还称,当前腾讯区块链已经落地供应链金融、数字资产、物流等场景,同时正式对外公布“腾讯区块链+供应链金融解决方案”。蔡弋戈称,通…

继续阅读

20/42