Skip to content

Commit ef49b71

Browse files
committed
update pd_4
2 parents 4515c8d + 94b7d92 commit ef49b71

10 files changed

+454
-849
lines changed

Machine Learning/Python,机器学习和语言之争.md

Lines changed: 266 additions & 0 deletions
Large diffs are not rendered by default.

Machine Learning/README.md

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -15,6 +15,9 @@
1515

1616
本文中,我们将涵盖可以如何使用这些机器学习模型来分析数百万条来自于TripAdvisor的点评,然后比较人们对不同城市的酒店的感受,来学习各种有趣的事情。
1717

18+
- [Python,机器学习和语言之争](./Python,机器学习和语言之争.md)
19+
1820
- [使用预测算法追踪实时健康趋势](./使用预测算法追踪实时健康趋势.md)
1921

2022
在这个教程中,我们将构建一个实时健康显示面板,用来追踪一个人的血压读数,进行时间序列分析,然后使用预测算法绘制时间趋势。本教程是使用时间序列算法和预测API来创建你个人健康显示面板的起点。
23+

Python Weekly/Python Weekly Issue 258.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -33,15 +33,15 @@
3333

3434
能够了解一段文本的上下文通常被认为是人工智能领域。然而,主题建模和语义分析可以用来让计算机确定不同的消息和文章是否是关于同样的事情。本周,我们和Radim Řehůřek聊聊他关于GenSim的工作,GenSim是一个Python库,用来进行非结构化文本的无监督分析,并应用机器学习模型到自然语言理解的问题上。
3535

36-
[页面扫描](https://mzucker.github.io/2016/08/15/page-dewarping.html)
36+
[页面扭曲矫正](https://mzucker.github.io/2016/08/15/page-dewarping.html)
3737

38-
一篇显示了如何扁平化弯曲页面上的图像的文章
38+
一篇显示了如何扁平化扭曲页面上的图像的文章
3939

4040
[Python中的线性分类介绍](http://www.pyimagesearch.com/2016/08/22/an-intro-to-linear-classification-with-python/)
4141

4242
这篇文章讨论了参数化学习和线性分类的基础知识。虽然简单,但是线性分类可以被看成更高级的机器学习算法基本构架模块,自然扩展到神经网络和卷积神经网络。
4343

44-
[使用Python和LLVM的,用于TensorFlow计算图形的JIT本地代码生成](http://blog.christianperone.com/2016/08/jit-native-code-generation-for-tensorflow-computation-graphs-using-python-and-llvm/)
44+
[使用Python和LLVM的,用于TensorFlow计算图形的JIT本地代码生成](http://blog.christianperone.com/2016/08/jit-native-code-generation-for-tensorflow-computation-graphs-using-python-and-llvm/) [中文版](../Science and Data Analysis/用于格式化和数据清理的便捷Python库.md)
4545

4646
[Python JIT来了](https://lwn.net/Articles/691070/)
4747

Science and Data Analysis/README.md

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -43,6 +43,8 @@
4343

4444
- [使用Python探索NFL选秀](使用Python探索NFL选秀.md)
4545

46+
- [用于格式化和数据清理的便捷Python库](./用于格式化和数据清理的便捷Python库.md)
47+
4648
- [分析iPhone步数数据](./分析iPhone步数数据.md)
4749

48-
本文展示了如何使用pandas timeseries和ggplot来分析iPhone步数数据。
50+
本文展示了如何使用pandas timeseries和ggplot来分析iPhone步数数据。

Science and Data Analysis/使用BigQuery和TensorFlow进行需求预测.md

Lines changed: 0 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -120,9 +120,6 @@ In [30]:
120120

121121
## 天气数据
122122

123-
We suspect that weather influences how often people use a taxi. Perhaps
124-
someone who'd normally walk to work would take a taxi if it is very cold or
125-
rainy.
126123
我们怀疑天气影响人们使用出租车的频率。也许在极冷或阴雨的情况下,那些通常走路去上班会乘坐出租车。
127124

128125
Google用户[Felipe Hoffa](https://twitter.com/felipehoffa)已经公开他从美国国家海洋和大气管理局做出的气象观测到BigQuery中。让我们使用该数据集,并找到对应纽约La Guardia机场的站号。
Lines changed: 97 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,97 @@
1+
原文:[Handy Python Libraries for Formatting and Cleaning Data](https://blog.modeanalytics.com/python-data-cleaning-libraries/)
2+
3+
---
4+
5+
真实世界是杂乱的,它的数据也是。那么凌乱,[最近的一项调查](http://visit.crowdflower.com/data-science-report.html)显示,数据科学家花费60%的时间在清理数据。不幸的是,他们中57%还觉得这是他们工作中最不愉快的方面。
6+
7+
清理数据可能是耗时的,但是很多工具已经出现,让这个重要的任务惬意一点。Python社区提供了众多库,用来让数据有序清晰,从具有风格的DataFrame到匿名数据集。
8+
9+
如果你发现什么有用的库,请告诉我们,我们一直在寻找更好的库,以添加到[Mode Python Notebooks](https://about.modeanalytics.com/python/)中。
10+
11+
![Scrub that Data](https://blog.modeanalytics.com/images/post-images/python-data-cleaning-libraries.png)
12+
13+
_太糟糕的清理对数据科学家而言就像对这个小男孩一样,并不好玩。_
14+
15+
## Dora
16+
17+
Dora是为探索性分析而生的;具体来说,是为了自动化它最痛苦的那部分,如特征选择和提取,可视化,以及,是哒,你猜到了,就是数据清理。清理功能包括:
18+
19+
* 读取缺失和比例值不佳的数据
20+
* 输入缺失值
21+
* 缩放输入变量的值
22+
23+
**创建者:** [Nathan Epstein](https://twitter.com/epstein_n)
24+
**何处了解更多:** <https://github.com/NathanEpstein/Dora>
25+
26+
## datacleaner
27+
28+
令人感到惊奇的datacleaner清理你的数据 —— 但只在它是以[pandas DataFrame](https://community.modeanalytics.com/python/tutorial/pandas-dataframe/)形式出现的时候。据创建者Randy Olson说:“datacleaner并不是魔术,它不会读取文本的无组织块,然后自动的为你解析。”
29+
30+
但是,它会丢弃具有缺失值的行,在逐列基础上用模或者中位数来替换缺失值,并且用数值等效来编码非数值变量。这个库相当的新,但是由于在Python中,DataFrame是分析的基础,因此值得一看。
31+
32+
**创建者:** [Randy Olson](https://twitter.com/randal_olson)
33+
**何处了解更多:** <https://github.com/rhiever/datacleaner>
34+
35+
## PrettyPandas
36+
37+
DataFrame是强大的,但是它不会生成你想要展示给你老板看的那种表格。PrettyPandas利用[pandas Style API](http://pandas.pydata.org/pandas-docs/stable/style.html)来转换DataFrame成值得展示的表单。创建摘要,添加样式,并格式化数字、列和行。额外的好处:健壮、易读的[文档](http://prettypandas.readthedocs.io/en/latest/)
38+
39+
**创建者:** [Henry Hammond](https://twitter.com/henryhammond92)
40+
**何处了解更多:** <https://github.com/HHammond/PrettyPandas>
41+
42+
## tabulate
43+
44+
tabulate让你只用一次函数调用,就可以打印小而美的表格。它让列按照十进制、数字格式和表头等等进行排列,对于让表单更易读,它是非常方便的。
45+
46+
其中一个最酷的功能是,能够以多种格式,例如HTML, PHP或者Markdown Extra,来输出数据,所以你可以继续在另一个工具或者语言中处理你的表单数据。
47+
48+
**创建者:** Sergey Astanin
49+
**何处了解更多:** <https://pypi.python.org/pypi/tabulate>
50+
51+
## scrubadub
52+
53+
在诸如医疗保健和金融的领域中,数据科学家经常需要匿名数据集。scrubadub从免费文本中移除了[个人身份信息 (PII)](https://en.wikipedia.org/wiki/Personally_identifiable_information),如:
54+
55+
* 姓名 (专有名词)
56+
* 电子邮件地址
57+
* 网址
58+
* 电话号码
59+
* 用户名/密码组合
60+
* Skype用户名
61+
* 社保号
62+
63+
该文档在显示你可能想要自定义scrubadub行为的方面(例如定义新的PII类型,或者排除某些PII类型)表现良好。
64+
65+
**创建者:** [Datascope Analytics](http://datascopeanalytics.com/)
66+
**何处了解更多:** <http://scrubadub.readthedocs.io/en/stable/index.html>
67+
68+
## Arrow
69+
70+
坦白说:在Python中处理日期和时间很痛苦。本地时区不能够被自动识别。要花几行令人不爽的代码来转换时区和时间戳。
71+
72+
Arrow旨在修复这些问题和插件功能上的缺陷,来帮助你用更少的代码和更少的导入来处理时间和日期。不像Python的标准库,Arrow默认意识到时区和UTC。你可以用一行代码来转换时区或者解析字符串。
73+
74+
**创建者:** [Chris Smith](https://twitter.com/crsmithdev)
75+
**何处了解更多:** <http://arrow.readthedocs.io/en/latest/>
76+
77+
## Beautifier
78+
79+
Beautifier的任务很简单:清理和美化URL和电子邮件地址。你可以通过域名和用户名来解析电子邮件;通过域名和参数(例如,UTM或者令牌)来解析URL。
80+
81+
**创建者:** [Sachin Philip Mathew](https://twitter.com/sachin_philip)
82+
**何处了解更多:** <https://github.com/sachinvettithanam/beautifier>
83+
84+
## ftfy
85+
86+
ftfy (为你修正文本)接收糟糕的Unicode,输出漂亮的Unicode。基本上,它修复了所欲的垃圾字符。`“quotesâ€\x9d`变成`"quotes"`; `ü`变成`ü`; `&lt;3`变成`<3`。如果每天都在处理文本,那么这个库,正如一个用户所说,是“一个方便的法宝。”
87+
88+
**创建者:** [Luminoso](http://www.luminoso.com/)
89+
**何处了解更多:** <https://github.com/LuminosoInsight/python-ftfy>
90+
91+
## 管理数据的更多资源
92+
93+
这里是几个我们最喜欢的关于改写/管理/清理数据的文章。
94+
95+
* [每一个数据科学家都应该知道的关于数据匿名化的事](https://github.com/krasch/presentations/blob/master/pydata_Berlin_2016.pdf) (Katharina Rasch)
96+
* [在Python中清理数据](https://data.library.utoronto.ca/cleaning-data-python) (University of Toronto Map & Data Library)
97+
* [用Python进行数据清理 - MoMA的艺术品收藏](https://www.dataquest.io/blog/data-cleaning-with-python/) (Dataquest)

raw/Handy Python Libraries for Formatting and Cleaning Data.md

Lines changed: 0 additions & 133 deletions
This file was deleted.

0 commit comments

Comments
 (0)