搜索
    上传资料 赚现金
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件
    立即下载
    加入资料篮
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件01
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件02
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件03
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件04
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件05
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件06
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件07
    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件08
    还剩26页未读, 继续阅读
    下载需要10学贝
    使用下载券免费下载
    加入资料篮
    立即下载

    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件

    展开
    这是一份高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件,共34页。PPT课件主要包含了高一各班总分平均值,热门省份Top5,学科百分比示意图,性别比例,大数据处理类型,Hadoop组成等内容,欢迎下载使用。

    ☆数据处理的核心是数据,在数据分析、挖掘前通常先对数据进行整理。考点1数据整理1.数据整理的目的(1)检测和修正错漏的数据(2)整合数据资源(3)规整数据格式(4)提高数据质量
    2.常见的数据问题(1)数据缺失①忽略含有缺失值的实例或属性(可能因数据集不完整导致分析结果偏差)。·Excel的筛选查找空值或错误标识符②采用平均值、中间值或概率统计值来填充缺失值。·Excel的<查找-替换>,找出缺失值并替换为指定的插补值。
    (2)数据重复①检测数据集中的重复数据的两个方面:·基于字段·基于记录②检查到重复数据,在审核后可进行合并或删除操作·统计重复数据个数:Excel的COUNTIF函数、排序。·标记重复数据:Excel→条件格式→突出显示单元格规则→重复值(颜色标记)·删除重复数据:Excel→数据→数据工具→删除重复项
    (3)数据异常异常数据指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。(4)逻辑错误√数据集中的属性值与实际值不符,或违背业务规则,或不符合逻辑。√判别、剔除异常数据:Excel→数据→数据验证(数据有效性)。(5)格式不一致对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行数据转换。
    考点2数据计算1.专业的数据处理和统计分析的工具:SPSS、SAS、MATLAB等,也可以通过R、Pythn、Java等计算机语言编程进行数据处理。2.Excel数据计算与分析常见操作:(1)公式计算步骤①选中结果单元格②输入等号“=”或者单击“插入函数”按钮③编辑公式(公式显示在编辑栏内)④回车确认
    (2)公式中可以引用函数、单元格、区域、数值、字符等。结果单元格内显示计算结果,编辑栏上显示公式。(3)常用函数①SUM求和例如“=SUM(B1,D2:E5)”,对B1单元格和D2:E5区域的数据求和②AVERAGE求平均例如“=AVERAGE(B2:C6,E8)”,对B2:C6区域和E8单元格的数据求平均③MAX求最大值例如“=MAX(B1,D2:E5)”,对B1单元格和D2:E5区域的数据求最大值④MIN求最小值例如“=MIN(B2:C6,E8)”,对B2:C6区域和E8单元格的数据求最小值
    (4)要点①“=”是公式计算的标志,公式必须以“=”开头。没有“=”,系统认为是普通的字符输入,不予计算。②公式中不能引用结果单元格自己,以及引用了依赖结果单元格值的其他单元格。否则系统会报错(循环引用)。
    (5)自动填充→相对引用&绝对引用某些情况下,自动填充时不希望行号或列号发生改变,而因为自动填充会默认发生相对引用的改变,则在不希望变化而实际上发生了变化的行号或列号前加上$锁定不让其发生改变。
    ①相对引用<1>被填充单元格和填充的样版单元格公式在形式上保持一致。<2>填充时公式中行号或列号发生递变,递变值为被填充单元格行号或列号与样板单元格行号或列号的差值。<3>系统默认在自动填充时发生相对引用②绝对引用
    ③总结规律<1>按列纵向填充,默认相对引用变化的是行号,若需某行号不变,则需要在样板单元格(作为样版进行自动填充的单元格)相应的行号前加绝对引用符号$进行锁定。<2>按行横向填充,默认相对引用变化的是列号,若需某列号不变,则需要在样板单元格相应的列号前加绝对引用符号$进行锁定。④以有公式计算的单元格为样版单元格对其他单元格进行自动填充,则样版单元格和被填充单元格的公式在形式上保持高度一致。⑤对有公式计算的单元格A进行“复制”操作,在别的单元格B执行“粘贴”操作,等同于A向B自动填充。
    3.用Excel软件进行数据计算的一般方法(1)分析表格数据(2)抽象计算模型(3)计算(4)分析计算结果,描述其含义
    典例1写出下图所示数据中结果单元格的公式。
    (1)F2单元格赵文昊同学的总分公式(2)G2单元格赵文昊同学的平均分公式(3)C18单元格语文学科最高分的公式(4)C19单元格语文学科最低分的公式(5)C20单元格的语文“学科百分比(%)”【语文学科总分÷F17单元格中所有学科的总分×100】向右自动填充得到其他两门学科的“学科百分比(%)”数据,求C20单元格的公式(6)H2单元格赵文昊同学的“总分占比(%)” 【赵文昊总分÷F17单元格中所有同学的总分之和×100】向下填充得到其他同学的“总分占比(%)”,求H2单元格公式
    答案 (1)=SUM(C2:E2)或者=C2+D2+E2(2)=AVERAGE(C2:E2)或者=F2/3(3)=MAX(C2:C16)(4)=MIN(C2:C16)(5)=C17/$F17 * 100  解析 横向自动填充,默认发生相对引用,被填充单元格的列号相对样板单元格发生改变,而公式中的分母F17单元格不能变化,所以将分母F17单元格的列号F加上$锁定不让它发生改变。
    (6)答案=F2/F$17 * 100 解析 纵向自动填充,默认发生相对引用,被填充单元格的行号相对样板单元格发生改变,而公式中的分母F17单元格不能变化,所以将分母F17单元格的行号17加上$锁定不让它发生改变。
    考点3数据图表呈现1.用Excel软件创建图标呈现数据的一般方法:分析表格数据→选择图表类型→创建图表→检查图表,表述数据特征。2.图表类型:依据数据间的关系选择相应的图表类型
    (1)柱形图:比较一组数据的多少
    (2)条形图:比较一组数据的多少
    (3)饼图:分析所占份额
    (4)圆环图:分析所占份额
    (5)折线图①分析一组数据的变化趋势部分少数民族人口变化趋势图
    ②分析2组数据之间是否存在相关性(前提:其中一组数据有序)
    平均温度和地理纬度相关性分析
    (6)雷达图:可对两组或多组变量进行多指标对比,反映数据相对中心点和其他数据点的变化情况。常用于多项指标的全面分析。
    (7)散点图:用两组数据构成多个坐标点,反映坐标点的分布情况,常用于反映2~3个变量之间的关联或分布趋势。
    (8)气泡图:散点图的演变,将散点图的数据点变为气泡,通过气泡面积大小反映第三维度变量值,通过气泡颜色反映第四维度变量值。常用于反映3~4个变量之间的关联或分布趋势。
    典例2依据下图所示“人口普查.xls”文件中的数据,完成以下小题。
    (1)H5~H13的值由H4单元格自动填充得到,写出H4单元格的公式[各年龄文盲占比(%)=各年龄文盲人口总数÷文盲人口总数(G14单元格)×100)]。(2)“全国15~24岁文盲人口比例统计图”如图所示,分析并描述图中数据的特征和规律(写出两条)。
    全国15~24岁男女文盲人口比例统计图
    ①_____________________________________ ②_____________________________________
    考点4大数据处理的基本思想与架构1.大数据处理的分治思想(1)把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。
    (2)若这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至求出解为止。
    2.大数据处理类型(1)静态数据:在处理时已收集完成,在计算时不会发生改变的数据,一般采用批处理计算进行处理。(2)流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,可采用流计算进行实时分析。(3)图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算进行处理。
    3.批处理计算(1)Hadp:一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。(2)Hadp计算平台的组成①Cmmn公共库②分布式文件系统HDFS<1>主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。<2>是一个高度容错性系统,适合部署在廉价的机器上(云盘、网盘的底层一般采用HDFS)。
    ③分布式数据库HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,可管理PB级的大数据。④分布式并行计算模型MapReduce<1>是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)2个函数构成。<2>核心处理思想:将任务分解并分发到多个节点上进行处理,最后汇总输出。
    MapReduce的工作流程
    4.流计算:流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadp、编程语言等整合后可开发出功能强大的实时计算与分析应用。
    Twitter的分层数据处理框架5.图计算:现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。6.实时处理与批处理的整合整合可以缩短批处理与流处理之间的切换时延,有利于降低成本。
    相关课件

    高中信息技术学考复习必修1数据与计算第五章人工智能及应用教学课件: 这是一份高中信息技术学考复习必修1数据与计算第五章人工智能及应用教学课件,共15页。

    高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件: 这是一份高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件,共46页。PPT课件主要包含了☆kde密度图,☆常见的分词系统,标签云,城市心情,卡特里娜飓风路径图,答案A等内容,欢迎下载使用。

    高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件: 这是一份高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件,共60页。PPT课件主要包含了答案C,常用属性,常用函数等内容,欢迎下载使用。

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:0份资料
    • 充值学贝下载 90%的用户选择 本单免费
    • 扫码直接下载
    选择教习网的 4 个理由
    • 更专业

      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿

    • 更丰富

      涵盖课件/教案/试卷/素材等各种教学资源;500万+优选资源 ⽇更新5000+

    • 更便捷

      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤

    • 真低价

      超⾼性价⽐, 让优质资源普惠更多师⽣

    开票申请 联系客服
    本次下载需要:0学贝 0学贝 账户剩余:0学贝
    本次下载需要:0学贝 原价:0学贝 账户剩余:0学贝
    了解VIP特权
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送

        扫码支付后直接下载

        0元

        扫码支付后直接下载

        使用学贝下载资料比扫码直接下载优惠50%
        充值学贝下载,本次下载免费
        了解VIP特权
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付(支持花呗)

        到账0学贝
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付 (支持花呗)

          下载成功

          Ctrl + Shift + J 查看文件保存位置

          若下载不成功,可重新下载,或查看 资料下载帮助

          本资源来自成套资源

          更多精品资料

          正在打包资料,请稍候…

          预计需要约10秒钟,请勿关闭页面

          服务器繁忙,打包失败

          请联系右侧的在线客服解决

          单次下载文件已超2GB,请分批下载

          请单份下载或分批下载

          支付后60天内可免费重复下载

          我知道了
          正在提交订单

          欢迎来到教习网

          • 900万优选资源,让备课更轻松
          • 600万优选试题,支持自由组卷
          • 高质量可编辑,日均更新2000+
          • 百万教师选择,专业更值得信赖
          微信扫码注册
          qrcode
          二维码已过期
          刷新

          微信扫码,快速注册

          还可免费领教师专享福利「樊登读书VIP」

          手机号注册
          手机号码

          手机号格式错误

          手机验证码 获取验证码

          手机验证码已经成功发送,5分钟内有效

          设置密码

          6-20个字符,数字、字母或符号

          注册即视为同意教习网「注册协议」「隐私条款」
          QQ注册
          手机号注册
          微信注册

          注册成功

          下载确认

          下载需要:0 张下载券

          账户可用:0 张下载券

          立即下载

          如何免费获得下载券?

          加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

          即将下载

          高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件

          该资料来自成套资源,打包下载更省心

          [共10份]
          浏览全套
            立即下载(共1份)
            返回
            顶部