甘洛| 宿豫| 水城| 平凉| 临潼| 涪陵| 玉树| 文水| 若尔盖| 宁县| 建阳| 汾阳| 隆德| 明光| 五指山| 高密| 错那| 陈仓| 富裕| 泰来| 肥西| 依安| 双鸭山| 怀柔| 伊川| 平阴| 黄山市| 迭部| 洪江| 恒山| 范县| 正宁| 温县| 朔州| 沙洋| 定边| 乌鲁木齐| 汕头| 谷城| 赣榆| 正镶白旗| 武川| 尖扎| 甘泉| 左权| 七台河| 钟祥| 东乌珠穆沁旗| 武汉| 南岔| 内蒙古| 兴县| 察雅| 会东| 甘棠镇| 获嘉| 东川| 黑水| 息烽| 花都| 定边| 沂水| 平昌| 德江| 当阳| 漳县| 苗栗| 沁阳| 万宁| 文登| 阿荣旗| 莱西| 会理| 临高| 礼泉| 沿滩| 崇左| 沁阳| 巴里坤| 崂山| 建宁| 英吉沙| 甘谷| 武穴| 郎溪| 平武| 扎囊| 千阳| 宝应| 察哈尔右翼前旗| 宾阳| 库尔勒| 马边| 平潭| 阳泉| 宽城| 类乌齐| 涿州| 白玉| 科尔沁左翼中旗| 涞水| 阳东| 花都| 赵县| 怀远| 绛县| 通江| 乌伊岭| 项城| 吉木萨尔| 临颍| 夷陵| 美溪| 葫芦岛| 珲春| 铁力| 靖远| 昔阳| 吉首| 宜丰| 萧县| 仁怀| 头屯河| 河池| 察哈尔右翼前旗| 建湖| 会理| 莒县| 正镶白旗| 闽清| 建德| 淮北| 宜君| 乐业| 乌拉特前旗| 本溪市| 甘棠镇| 盐都| 凌云| 博湖| 吴中| 腾冲| 永泰| 鄂温克族自治旗| 梓潼| 仁布| 兴山| 珲春| 华容| 抚顺县| 舒城| 浦东新区| 盘县| 兴城| 丹江口| 定远| 肥城| 临沂| 井研| 且末| 颍上| 平和| 电白| 兰州| 南京| 六安| 安国| 茂名| 龙岗| 灞桥| 上饶县| 海南| 宕昌| 班戈| 北碚| 南雄| 佛坪| 随州| 布尔津| 台儿庄| 万全| 博野| 汝南| 台湾| 拜城| 桓台| 库尔勒| 定边| 旬阳| 洛川| 临颍| 利津| 泸州| 盘锦| 五河| 洪湖| 井陉| 济阳| 镇雄| 松江| 磴口| 兰溪| 太湖| 门头沟| 江华| 荣县| 天柱| 大冶| 宽甸| 西乌珠穆沁旗| 陆川| 同安| 武威| 公安| 夏河| 马边| 通河| 商都| 开江| 洪洞| 苍溪| 王益| 上甘岭| 三门| 吉林| 依兰| 上海| 理县| 河北| 大名| 双牌| 惠农| 饶阳| 澳门威尼斯人官方网投 必赢亚洲366.net 澳门星际网上娱乐 澳门官网唯一指定开户网站网址注册 澳门威尼斯在哪里 澳门赌城官网 东森游戏平台 澳门娱乐网站排名 金沙在线平台 新澳门电子游戏 澳门线上新葡京网址 永利国际 永利官网开户 银河平台网址 新葡京官方网址 新2网址官网 澳门威尼斯 好评如潮亚洲最大 威尼斯娱乐网 威尼斯娱乐城是骗人的吗 葡京官方直营 永利博国际赌场 新葡京平台 葡京官方 和盛娱乐怎么样 威尼斯人网上娱乐场 博狗赌场 威尼斯充值 新宝娱乐线路 威尼斯网上娱乐平台 澳门现金游戏 007足球比分 豪门娱乐会所 澳门威尼斯人酒店 金沙官网 网上威尼斯赌场

时时彩玩法 心得群⒊⒊⒏0⒏0:

2018-10-17 10:41 来源:中国贸易新闻

  时时彩玩法 心得群⒊⒊⒏0⒏0:

  巴黎人国际娱乐场同时,本次公开课邀请了黑马营1期学员、泰格医药联合创始人曹晓春和夏鼎投资董事长叶锋作为分享嘉宾,旨在与大家共享企业发展经验、发掘产业新机会、推动资源链接,帮助黑马企业产业升级。这则新闻传出时,日本主要的交易所币安(Binance)面临没有进行注册的问题,这显示出了向金融服务管理局登记在日本开展外汇业务的重要性。

机构普遍认为,A股市场短期可能出现一定冲击,中长期不必过于悲观。对于遭受301条款贸易调查的对象国来说,他们可能面临着出口商品丢失美国市场份额的风险,进而影响本国的就业和经济发展。

  纳入补贴范围企业在2018年3月23日至2018年4月30日期间收购入库,并于6月30日前加工的2017年省内新产玉米(标准水分)给予每吨150元、大豆(标准水分)给予每吨300元补贴。然而与联邦政府债券最好的客户结怨是危险之举。

  业内人士认为,随着银行纷纷设立专业资管子公司,意味着银行将有自己的通道,逐渐不再依赖其他的通道支持,未来大量通道业务将有自己子公司消化。在演讲中,马化腾谈到了近日大红大紫的智慧零售,表示腾讯不会做零售,甚至也不会做商业,未来腾讯将会把机会让给商业伙伴。

今天最火的话题是中美贸易战,中美贸易战本质上是在打第二产业,美国在过度金融化和过度互联网化后,发现自己的整个制造业已呈空心化的态势,因此特朗普上台后,极力希望第二产业重新变成美国强国的根基,但中美两国在贸易上优势产业是错位的,这就造成了美国不能忍受的过大贸易逆差,也让特朗普的愿望受到了阻碍。

  这样你就能理解地方政府为什么会选像宁德时代这样的公司。

  他在接受记者采访时说到:为何不见这一百万找到工作的人拿薪水去购物呢?我的意思是特朗普政府对就业、薪酬和减税话题大谈特谈,但为何美国零售销售额会出现连续三月的下降呢?不幸的就是,就在美国政府背负巨额债务的同时,美国国内个人债务的规模也创下历史新高。人人贷在运营报告中就表示,平台一如既往地拥抱监管。

  当年九鼎最后一次定增时,正处于新三板市场的高峰期,当时公司有几个大项目要做,觉得公司能值那么多钱,但随着市场环境、监管政策变化,之前几个大项目未能落地。

  【详情点击标题】凤凰网WEMONEY讯3月23日,浙江省高级人民法院公开开庭审理罪犯吴英减刑一案,当庭作出裁定:将罪犯吴英的刑罚减为有期徒刑二十五年,剥夺政治权利十年。事实上,华业资本或许并非首家被否的机构,此前,某健康险公司曾被两次公开问询是否与地产大佬郭英成家族有关,最终其有关股东和注册资本变更的行政许可被撤销,相关投资人列入黑名单。

  301调查是美国《1974贸易法》的一项条款。

  大丰收娱乐网址然而与联邦政府债券最好的客户结怨是危险之举。

  业内人士认为,移动支付来势汹汹,将会淘汰一批产业,也会带动一批产业的兴起,例如二维码扫码器生产商就是其中受益者。3月23日,美国在世贸组织争端解决机制项下向中方提出磋商请求,指称中国政府有关技术许可条件的措施不符合《与贸易有关的知识产权协定》的有关规定。

  威尼斯人平台在线 威尼斯线上赌场 澳门百家乐平台

  时时彩玩法 心得群⒊⒊⒏0⒏0:

 
责编:
楼主: ada89k
4252 20

[问答] hadoop常见的面试题,了解一下 [推广有奖]

  • 3关注
  • 64粉丝

内部工作人员

院士

85%

还不是VIP/贵宾

-

威望
2
论坛币
123829 个
学术水平
119 点
热心指数
144 点
信用等级
80 点
经验
45002 点
帖子
1609
精华
3
在线时间
2005 小时
注册时间
2017-2-7
最后登录
2018-10-2

楼主
ada89k 在职认证  发表于 2018-7-21 15:22:50 |只看作者 |倒序

hadoop常见的面试题,了解一下



1.什么是hadoop

Hadoop 是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。

        HDFS(HadoopDistributed File System,Hadoop 分布式文件系统):HDFS 允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即 1024 MB)文本文件可以拆分为 16 * 128MB 文件,并存储在 Hadoop 集群中的 8 个不同节点上。每个分裂可以复制 3 次,以实现容错,以便如果 1 个节点故障的话,也有备份。HDFS 适用于顺序的“一次写入、多次读取”的类型访问。

        MapReduce:一个计算框架。它以分布式和并行的方式处理大量的数据。当你对所有年龄>18 的用户在上述 1 GB 文件上执行查询时,将会有“8 个映射”函数并行运行,以在其 128 MB 拆分文件中提取年龄> 18 的用户,然后“reduce”函数将运行以将所有单独的输出组合成单个最终结果。

2.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么?

1) NameNode: HDFS的守护进程,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到那些数据节点上,它的主要功能是对内存及IO进行集中管理

2) Secondary NameNode:辅助后台程序,与NameNode进行通信,以便定期保存HDFS元数据的快照。

3) DataNode:负责把HDFS数据块读写到本地的文件系统。

4) JobTracker:负责分配task,并监控所有运行的task。

5) TaskTracker:负责执行具体的task,并与JobTracker进行交互。

3.请列出你所知道的hadoop调度器,并简要说明其工作方法?

比较流行的三种调度器有:默认调度器FIFO,计算能力调度器CapacityScheduler,公平调度器Fair Scheduler

1) 默认调度器FIFO

hadoop中默认的调度器,采用先进先出的原则

2) 计算能力调度器CapacityScheduler

选择占用资源小,优先级高的先执行

3) 公平调度器FairScheduler

同一队列中的作业公平共享队列中所有资源

4.简答说一下hadoop的map-reduce编程模型

首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合

使用的是hadoop内置的数据类型,比如longwritable、text等

将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出

之后会进行一个partition分区操作,默认使用的是hashpartitioner,可以通过重写hashpartitioner的getpartition方法来自定义分区规则

之后会对key进行进行sort排序,grouping分组操作将相同key的value合并分组输出,在这里可以使用自定义的数据类型,重写WritableComparator的Comparator方法来自定义排序规则,重写RawComparator的compara方法来自定义分组规则

之后进行一个combiner归约操作,其实就是一个本地段的reduce预处理,以减小后面shufle和reducer的工作量

reduce task会通过网络将各个数据收集进行reduce处理,最后将数据保存或者显示,结束整个job

5、为什么要用flume导入hdfs,hdfs的构架是怎样的

flume可以实时的导入数据到hdfs中,当hdfs上的文件达到一个指定大小的时候会形成一个文件,或者超过指定时间的话也形成一个文件

文件都是存储在datanode上面的,namenode记录着datanode的元数据信息,而namenode的元数据信息是存在内存中的,所以当文件切片很小或者很多的时候会卡死

6、map-reduce程序运行的时候会有什么比较常见的问题

比如说作业中大部分都完成了,但是总有几个reduce一直在运行

这是因为这几个reduce中的处理的数据要远远大于其他的reduce,可能是因为对键值对任务划分的不均匀造成的数据倾斜

解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处理,或者是在map端的combiner中进行数据预处理的操作

7、Hive中存放是什么?

表。
存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。

8、Hive与关系型数据库的关系?

没有关系,hive是数据仓库,不能和数据库一样进行实时的CURD操作。
是一次写入多次读取的操作,可以看成是ETL工具。

9、Sqoop工作原理是什么?

hadoop生态圈上的数据传输工具。
可以将关系型数据库的数据导入非结构化的hdfs、hive或者bbase中,也可以将hdfs中的数据导出到关系型数据库或者文本文件中。
使用的是mr程序来执行任务,使用jdbc和关系型数据库进行交互。
import原理:通过指定的分隔符进行数据切分,将分片传入各个map中,在map任务中在每行数据进行写入处理没有reduce。
export原理:根据要操作的表名生成一个java类,并读取其元数据信息和分隔符对非结构化的数据进行匹配,多个map作业同时执行写入关系型数据库

10、Hadoop性能调优?

调优可以通过系统配置、程序编写和作业调度算法来进行。
hdfs的block.size可以调到128/256(网络很好的情况下,默认为64)
调优的大头:mapred.map.tasks、mapred.reduce.tasks设置mr任务数(默认都是1)
mapred.tasktracker.map.tasks.maximum每台机器上的最大map任务数
mapred.tasktracker.reduce.tasks.maximum每台机器上的最大reduce任务数
mapred.reduce.slowstart.completed.maps配置reduce任务在map任务完成到百分之几的时候开始进入
这个几个参数要看实际节点的情况进行配置,reduce任务是在33%的时候完成copy,要在这之前完成map任务,(map可以提前完成)
mapred.compress.map.output,mapred.output.compress配置压缩项,消耗cpu提升网络和磁盘io
合理利用combiner
注意重用writable对象

11、Spark Streaming和Storm有何区别?

一个实时毫秒一个准实时亚秒,不过storm的吞吐率比较低。

12、ALS算法原理?

答:对于user-product-rating数据,als会建立一个稀疏的评分矩阵,其目的就是通过一定的规则填满这个稀疏矩阵。
als会对稀疏矩阵进行分解,分为用户-特征值,产品-特征值,一个用户对一个产品的评分可以由这两个矩阵相乘得到。
通过固定一个未知的特征值,计算另外一个特征值,然后交替反复进行最小二乘法,直至差平方和最小,即可得想要的矩阵。

13、kmeans算法原理?

随机初始化中心点范围,计算各个类别的平均值得到新的中心点。
重新计算各个点到中心值的距离划分,再次计算平均值得到新的中心点,直至各个类别数据平均值无变化。

14、canopy算法原理?

根据两个阈值来划分数据,以随机的一个数据点作为canopy中心。
计算其他数据点到其的距离,划入t1、t2中,划入t2的从数据集中删除,划入t1的其他数据点继续计算,直至数据集中无数据。

15、朴素贝叶斯分类算法原理?

对于待分类的数据和分类项,根据待分类数据的各个特征属性,出现在各个分类项中的概率判断该数据是属于哪个类别的。

16、关联规则挖掘算法apriori原理?

一个频繁项集的子集也是频繁项集,针对数据得出每个产品的支持数列表,过滤支持数小于预设值的项,对剩下的项进行全排列,重新计算支持数,再次过滤,重复至全排列结束,可得到频繁项和对应的支持数。


已有 1 人评分经验 热心指数 收起 理由
fin-qq + 80 + 3 精彩帖子

总评分: 经验 + 80  热心指数 + 3   查看全部评分

本帖被以下文库推荐

stata SPSS
沙发
sunyzhu 发表于 2018-7-21 22:19:43 |只看作者

回帖奖励 +4

谢谢分享
藤椅
liuydt 发表于 2018-7-22 13:17:23 |只看作者

回帖奖励 +4

谢谢分享
板凳
simafei 在职认证  发表于 2018-7-23 09:06:10 |只看作者

回帖奖励 +4

支持一下
报纸
gewenhong66 发表于 2018-7-31 23:45:48 |只看作者

回帖奖励 +4

thank a lot
地板
十一点的猪 发表于 2018-8-1 20:25:30 |只看作者

回帖奖励 +4

支持支持
7
xujingjun 发表于 2018-8-5 09:37:34 |只看作者

回帖奖励 +4

8
ktv55 发表于 2018-8-12 16:35:17 |只看作者

回帖奖励 +4

谢谢分享
9
昭hr 发表于 2018-8-13 09:49:27 |只看作者

回帖奖励 +4

谢谢分享
10
圣魔 发表于 2018-8-15 17:37:13 |只看作者

回帖奖励 +4

谢谢分享,在公司java转hadoop过程中
您需要登录后才可以回帖 登录 | 我要注册

GMT+8, 2018-10-9 12:53
现金网赌场 黄金城开户 永利娱乐yl官方网站 新葡京赌场平台 tt娱乐赌场
足球平台出租 皇浦国际娱乐 24小时娱乐城 线路检测中心 新世界娱乐平台 ewin娱乐城下载
买球 万博app 威尼斯人注册送588 巴宝莉娱乐 澳门美高梅集团 澳门威尼斯注册网址
永利网站注册 网上威尼斯人娱乐官网 威尼斯人娱乐官网 葡京在线 银河注册