{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
免运费
Yami

Nickname

请告诉我们怎么更好地称呼你

更新你的名字
账户 订单 收藏
{{ inviteNavTitle }}
退出登录

切换配送区域

不同区域的库存和配送时效可能存在差异.

历史邮编

{{email ? __('Got it!') : __('Restock Alert')}}

我们将在商品到货后第一时间通知你。

取消
Yami

京东图书

干净的数据 数据清洗入门与实践

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

干净的数据 数据清洗入门与实践

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
后结束
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
后结束促销
后开始秒杀 后结束秒杀
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 详情
商品有效期

已下架

当前地址无法配送
已售完

商品描述

展开全部描述
编辑推荐

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
- 理解数据清洗在整个数据科学过程中的作用
- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
- 采用三种策略来解析和清洗HTML文件中的数据
- 揭开PDF文档的秘密,提取需要的数据
- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
内容简介

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
作者简介

Megan Squire 依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。
目录

目录

第1 章 为什么需要清洗数据 1
1.1新视角1
1.2数据科学过程2
1.3传达数据清洗工作的内容3
1.4数据清洗环境4
1.5入门示例5
1.6小结9
第2章 基础知识——格式、 类型与编码11
2.1文件格式11
2.1.1文本文件与二进制文件11
2.1.2常见的文本文件格式14
2.1.3分隔格式14
2.2归档与压缩20
2.2.1归档文件20
2.2.2压缩文件21
2.3数据类型、空值与编码24
2.3.1数据类型25
2.3.2数据类型间的相互转换29
2.3.3转换策略30
2.3.4隐藏在数据森林中的空值37
2.3.5字符编码41
2.4小结46
第3章 数据清洗的老黄牛——电子表格和文本编辑器47
3.1电子表格中的数据清洗47
3.1.1Excel 的文本分列功能47
3.1.2字符串拆分51
3.1.3字符串拼接51
3.2文本编辑器里的数据清洗54
3.2.1文本调整55
3.2.2列选模式56
3.2.3加强版的查找与替换功能56
3.2.4文本排序与去重处理58
3.2.5Process Lines Containing60
3.3示例项目60
3.3.1第一步:问题陈述60
3.3.2第二步:数据收集60
3.3.3第三步:数据清洗61
3.3.4第四步:数据分析63
3.4小结63
第4章 讲通用语言——数据转换64
4.1基于工具的快速转换64
4.1.1从电子表格到CSV65
4.1.2从电子表格到JSON65
4.1.3使用phpMyAdmin 从SQL语句中生成CSV 或JSON67
4.2使用PHP 实现数据转换69
4.2.1使用PHP 实现SQL 到JSON的数据转换69
4.2.2使用PHP 实现SQL 到CSV的数据转换70
4.2.3使用PHP 实现JSON 到CSV的数据转换71
4.2.4使用PHP 实现CSV 到JSON的数据转换71
4.3使用Python 实现数据转换72
4.3.1使用Python 实现CSV 到JSON的数据转换72
4.3.2使用csvkit 实现CSV 到JSON的数据转换73
4.3.3使用Python 实现JSON 到CSV的数据转换74
4.4示例项目74
4.4.1第一步:下载GDF 格式的Facebook 数据75
4.4.2第二步:在文本编辑器中查看GDF 文件75
4.4.3第三步:从GDF 格式到JSON格式的转换76
4.4.4第四步:构建D3 图79
4.4.5第五步:把数据转换成Pajek格式81
4.4.6第六步:简单的社交网络分析83
4.5小结84
第5章 收集并清洗来自网络的数据85
5.1理解HTML 页面结构85
5.1.1行分隔模型86
5.1.2树形结构模型86
5.2方法一:Python 和正则表达式87
5.2.1第一步:查找并保存实验用的Web 文件88
5.2.2第二步:观察文件内容并判定有价值的数据88
5.2.3第三步:编写Python 程序把数据保存到CSV 文件中89
5.2.4第四步:查看文件并确认清洗结果89
5.2.5使用正则表达式解析HTML的局限性90
5.3方法二:Python 和BeautifulSoup90
5.3.1第一步:找到并保存实验用的文件90
5.3.2第二步:安装BeautifulSoup91
5.3.3第三步:编写抽取数据用的Python 程序91
5.3.4第四步:查看文件并确认清洗结果92
5.4方法三:Chrome Scraper92
5.4.1第一步:安装Chrome 扩展Scraper92
5.4.2第二步:从网站上收集数据92
5.4.3第三步:清洗数据94
5.5示例项目:从电子邮件和论坛中抽取数据95
5.5.1项目背景95
5.5.2第一部分:清洗来自Google Groups 电子邮件的数据96
5.5.3第二部分:清洗来自网络论坛的数据99
5.6小结105
第6章 清洗PDF 文件中的数据106
6.1为什么PDF 文件很难清洗106
6.2简单方案——复制107
6.2.1我们的实验文件107
6.2.2第一步:把我们需要的数据复制出来108
6.2.3第二步:把复制出来的数据粘贴到文本编辑器中109
6.2.4第三步:轻量级文件110
6.3第二种技术——pdfMiner111
6.3.1第一步:安装pdfMiner111
6.3.2第二步:从PDF 文件中提取文本111
6.4第三种技术——Tabula113
6.4.1第一步:下载Tabula113
6.4.2第二步:运行Tabula113
6.4.3第三步:用Tabula 提取数据114
6.4.4第四步:数据复制114
6.4.5第五步:进一步清洗114
6.5所有尝试都失败之后——第四种技术115
6.6小结117
第7章 RDBMS 清洗技术118
7.1准备118
7.2第一步:下载并检查Sentiment140119
7.3第二步:清洗要导入的数据119
7.4第三步:把数据导入MySQL120
7.4.1发现并清洗异常数据121
7.4.2创建自己的数据表122
7.5第四步:清洗&字符123
7.6第五步:清洗其他未知字符124
7.7第六步:清洗日期125
7.8第七步:分离用户提及、标签和URL127
7.8.1创建一些新的数据表128
7.8.2提取用户提及128
7.8.3提取标签130
7.8.4提取URL131
7.9第八步:清洗查询表132
7.10第九步:记录操作步骤134
7.11小结135
第8章 数据分享的最佳实践136
8.1准备干净的数据包136
8.2为数据编写文档139
8.2.1README 文件139
8.2.2文件头141
8.2.3数据模型和图表142
8.2.4维基或CMS144
8.3为数据设置使用条款与许可协议144
8.4数据发布146
8.4.1数据集清单列表146
8.4.2Stack Exchange 上的OpenData147
8.4.3编程马拉松147
8.5小结148
第9章 Stack Overflow 项目149
9.1第一步:关于Stack Overflow 的问题149
9.2第二步:收集并存储Stack Overflow数据151
9.2.1下载Stack Overflow 数据151
9.2.2文件解压152
9.2.3创建MySQL 数据表并加载数据152
9.2.4构建测试表154
9.3第三步:数据清洗156
9.3.1创建新的数据表157
9.3.2提取URL 并填写新数据表158
9.3.3提取代码并填写新表159
9.4第四步:数据分析161
9.4.1哪些代码分享网站最为流行161
9.4.2问题和答案中的代码分享网站都有哪些162
9.4.3提交内容会同时包含代码分享URL 和程序源代码吗165
9.5第五步:数据可视化166
9.6第六步:问题解析169
9.7从测试表转向完整数据表169
9.8小结170
第10章 Twitter 项目171
10.1第一步:关于推文归档数据的问题171
10.2第二步:收集数据172
10.2.1下载并提取弗格森事件的数据文件173
10.2.2创建一个测试用的文件174
10.2.3处理推文ID174
10.3第三步:数据清洗179
10.3.1创建数据表179
10.3.2用Python 为新表填充数据180
10.4第四步:简单的数据分析182
10.5第五步:数据可视化183
10.6第六步:问题解析186
10.7把处理过程应用到全数据量(非测试用)数据表186
10.8小结187

规格参数

品牌 京东图书
品牌属地 中国
ISBN 9787115420473
著者 [美],斯夸尔(Megan,Squire)
出版社 人民邮电出版社
包装 平装
出版时间 2016-04-01
页数 188
译者 任政委
语言 中文
版次 01

免责声明

产品价格、包装、规格等信息如有调整,恕不另行通知。我们尽量做到及时更新产品信息,但请以收到实物为准。使用产品前,请始终阅读产品随附的标签、警告及说明。

查看详情
加入收藏
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
数量
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
由 京东图书 销售
送至
{{ __("Ship to United States only") }}
满$69免运费
正品保证

已加入购物车

继续逛逛

为你推荐

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

优惠券

{{ coupon.coupon_name_new | formatCurrency }}
领取 已领取 已领完
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
即将过期: {{ formatTime(coupon.use_end_time) }}

分享给好友

取消

亚米礼卡专享价

使用礼卡支付即可获得礼卡专享价

规则说明

礼卡专享价是部分商品拥有的特殊优惠价格;

购买礼卡专享价商品时,若在结算时使用电子礼卡抵扣支付,且礼卡余额足够支付订单中所有礼卡专享价商品的专享价总和,则可以启用礼卡专享价;

不使用礼卡支付,或礼卡余额不满足上一条所述要求时,将无法启用礼卡专享价,按照普通售价计算,但您仍然可以购买这些商品;

在购买礼卡专享价商品时,若余额不足,可以在购物车或结算页中点击“充值”按钮对礼卡进行购买和充值;

商品若拥有礼卡专享价,会显示“专享”的特殊价格标记;

如有疑问,请随时联系客服;

礼卡专享价相关规则最终解释权归亚米所有。

由 亚米 销售

服务保障

Yami 满$49免运费
Yami 无忧退换
Yami 从美国发货

配送信息

  • 美国

    标准配送 $5.99(不包含阿拉斯加,夏威夷),最终价满$49免运费

    本地配送$5.99(加州,纽约州,新泽西,麻省和宾夕法尼亚,以上州部分地区);最终价满$49免运费

    两日达(包含阿拉斯加夏威夷)运费$19.99起

退换政策

亚米网希望为我们的客户提供最优秀的售后服务,让所有人都能放心在亚米购物。亚米自营商品在满足退换货条件的情况下,可在收到包裹的30天之内退换商品(食品因商品质量问题7天内可退换;为了确保每位客户都能获得安全和高质量的商品,对于美妆类产品,一经开封或使用即不提供退款或退货服务,质量问题除外;其他特殊商品需联系客服咨询)。
感谢您的理解和支持。

查看详情

由 亚米 销售

亚米电子礼品卡使用规则

若购买时选择自动充值,订单完成后礼卡将自动充值到您的账户中;

若购买时选择发送邮件,订单完成后系统将自动发送卡号和密码到您填写的邮箱;

发送邮件时,任何用户均可使用邮件中的卡号密码进行礼卡充值,请妥善保管邮件信息。

如接收邮件遇到问题,请联系客服处理;

发送邮件时,若礼卡没有被兑换,可以补发邮件。若已经被其他用户兑换,则无法补偿;

亚米网电子礼卡可用于购买自营或第三方商品;

亚米网电子礼卡没有有效期限制,长期有效;

亚米网电子礼卡的金额,可分多次使用;

亚米网电子礼卡业务规则,最终解释权归亚米网所有。

退换政策

已消费的电子礼卡不支持退款。

京东图书 销售

服务保障

Yami 满$49免运费
Yami 最优售后
Yami 美国本土发货

配送信息

  • 美国

    标准配送 $5.99(不包含阿拉斯加,夏威夷),最终价满$49免运费

    本地配送$5.99(加州,纽约州,新泽西,麻省和宾夕法尼亚,以上州部分地区);最终价满$49免运费

    两日达(包含阿拉斯加夏威夷)运费$19.99起

退换政策

提供30天内退还保障。产品需全新未使用原包装内,并附有购买凭据。产品质量问题、或错发漏发等,由商家造成的失误,将进行补发,或退款处理。其它原因需退货费用由客户自行承担。

由 京东图书 销售

服务保障

Yami 跨店满$69免运费
Yami 30天退换保障

亚米-中国集运仓

由亚米从中国精选并集合各大优秀店铺的商品至亚米中国整合中心,合并包裹后将一次合包跨国邮寄至您的地址。跨店铺包邮门槛低至$69。您将在多商家集合提供的广泛选品中选购商品,轻松享受跨店铺包邮后的低邮费。

退换政策

提供30天内退换保障。产品需在全新未使用的原包装内,并附有购买凭据。产品质量问题、错发、或漏发等由商家造成的失误,将进行退款处理。其它原因造成的退换货邮费客户将需要自行承担。由于所有商品均长途跋涉,偶有简易外包压磨等但不涉及内部质量问题者,不予退换。

配送信息

亚米中国集运 Consolidated Shipping 运费$9.99(订单满$69 包邮)

下单后2个工作日中国商家发货,所有包裹抵达亚米中国整合中心(除特别情况及中国境内个别法定节假日外)会合并包裹后通过UPS发往美国。UPS从中国发货后到美国境内的平均时间为10个工作日左右,根据直发单号可随时跟踪查询。受疫情影响,目前物流可能延迟5天左右。包裹需要客人签收。如未签收,客人须承担包裹丢失风险。

由 京东图书 销售

服务保障

满$69免运费
正品保证

配送信息

Yami Consolidated Shipping 运费$9.99(订单满$69包邮)


下单后1-2个工作日内发货。 物流时效预计7-15个工作日。 如遇清关,交货时间将延长3-7天。 最终收货日期以邮政公司信息为准。

积分规则

不参加任何折扣活动以及亚米会员积分制度。

退换政策

提供30天内退还保障。产品需全新未使用原包装内,并附有购买凭据。产品质量问题、或错发漏发等,由商家造成的失误,将进行补发,或退款处理。其它原因需退货费用由客户自行承担。

Yami

下载亚米应用

返回顶部

为你推荐

品牌故事

京东图书

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

评论{{'('+ commentList.posts_count + ')'}}

分享你的感受,帮助更多用户做出选择。

写评论
{{ totalRating }} 写评论
  • {{i}}星

    {{i}}星

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已购买 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已购买 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暂无符合条件的评论

评论详情

Yami Yami

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ commentDetails.content }}

Yami
查看更多

{{ formatTime(commentDetails.in_dtm) }} 已购买 {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

请输入内容

回复{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

请输入内容

取消

End

发表评论
商品评分

请输入评论

  • 一个好的昵称,会让你的评论更受欢迎!
  • 修改了这里的昵称,个人资料中的昵称也将被修改。
感谢你的评论
你的好评可以帮助我们的社区发现更好的亚洲商品。

举报

取消

确认删除该评论吗?

取消

历史浏览

品牌故事

京东图书