内容简介:你可能不知道的实用Python库
现在有如此之多的 Python 包,几乎没有人能够全盘掌握。 光是PyPI就可单独列出47,000个包!
近日,听到很多数据科学家切换到Python的消息,我不由地想到,虽然他们得到了pandas、scikit-learn和numpy的一些巨大好处,但却错过了一些稍微老一点但同样能提供帮助的Python库。
在这篇文章中,我将介绍一些鲜为人知的库。即使你已经是Python高手,也应该看看,可能会有那么一两个是你从来没有见过的!
1)delorean
Delorean是一个非常酷的日期/时间库。它是我在Python中使用过的感觉最自然的日期/时间munging库之一。有点像JavaScript中的moment。文档也不错,除了在技术上有帮助,还让无数人情不自禁地回过头来参考。
from delorean import Delorean EST = "US/Eastern" d = Delorean(timezone=EST)
2)prettytable
很可能你还没有听说过prettytable,因为它列在GoogleCode上面——基本上是被流放的编码装备。
尽管被流放到了西伯利亚,prettytable在终端或在浏览器中依然是强大又美观的构建输出。所以,如果你正在为IPython的笔记本电脑搞新插件的话,那就使用prettytable为你的HTML repr 吧。
from prettytable import PrettyTable table = PrettyTable(["animal", "ferocity"]) table.add_row(["wolverine", 100]) table.add_row(["grizzly", 87]) table.add_row(["Rabbit of Caerbannog", 110]) table.add_row(["cat", -1]) table.add_row(["platypus", 23]) table.add_row(["dolphin", 63]) table.add_row(["albatross", 44]) table.sort_key("ferocity") table.reversesort = True +----------------------+----------+ | animal | ferocity | +----------------------+----------+ | Rabbit of Caerbannog | 110 | | wolverine | 100 | | grizzly | 87 | | dolphin | 63 | | albatross | 44 | | platypus | 23 | | cat | -1 | +----------------------+----------+
3)snowballstemmer
我第一次安装snowballstemmer的原因是因为我觉得这个名字很酷。但它实际上是一个非常漂亮的小型库。 snowballstemmer能在15种不同的语言下工作,并自带用于引导的porter stemmer。
from snowballstemmer import EnglishStemmer, SpanishStemmer EnglishStemmer().stemWord("Gregory") # Gregori SpanishStemmer().stemWord("amarillo") # amarill
4)wget
还记得你曾因为某种目的写的网络爬虫(web crawler)吗?原来是它——wget创造的。递归地下载网站?抓取每个页面的每一张图片?避开cookie 痕迹?统统只要wget。
电影《马克·扎克伯格》甚至这样赞誉过它
首先是Kirkland,他们把一切都公开,并允许索引他们的Apache配置,所以只需要一点wget的魔术就能够下载整个Kirkland的Facebook。太简单了!
Python的版本带有几乎所有你需要的功能,并且非常易于使用。
import wget wget.download("http://www.cnn.com/") # 100% [............................................................................] 280385 / 280385
需要注意的是 Linux 和OSX用户可能会操作的另一种选择是:from sh import wget。不过,Python的wget模块确实有一些有争议的地方。
5)PyMC
我不知道PyMC怎么会经常被排除在组合之外。scikit-learn似乎是大家的宠儿(不过它确实很棒),但在我看来,PyMC没有得到应有的地位。
from pymc.examples import disaster_model from pymc import MCMC M = MCMC(disaster_model) M.sample(iter=10000, burn=1000, thin=10) [-----------------100%-----------------] 10000 of 10000 complete in 1.4 sec
PyMC是一个做贝叶斯分析(Bayesian analysis)的库。它被着重描述于Cam Davidson Pilon的《Bayesian Methods for Hackers》一文中,并已在很多流行的数据科学/ python的博客中亮过相,但一直未能得到类似于scikit-learn的推崇。
6)sh
sh允许你将 shell 命令作为函数导入到Python。它在bash中做一些简单的事情时特别有用,但你可能已经忘记怎么在Python(即递归搜索文件)中使用了。
from sh import find find("/tmp") /tmp/foo /tmp/foo/file1.json /tmp/foo/file2.json /tmp/foo/file3.json /tmp/foo/bar/file3.json
7)fuzzywuzzy
我使用过的最简单的,排行前十位的库就是fuzzywuzzy(如果你有时间的话,可以阅读源码)。fuzzywuzzy是SeatGeek中的一些人构建的一个模糊字符串匹配库。
fuzzywuzzy可以实现如字符串比较比率、令牌比率,以及许多其他匹配指标等工作。这对于创造特征向量 (feature vectors)或匹配不同数据库中的记录特别有用。
from fuzzywuzzy import fuzz fuzz.ratio("Hit me with your best shot", "Hit me with your pet shark") # 85
8)progressbar
你知道那些你在一堆烂摊子中调用 main 的for循环执行print “still going…”脚本吗?那么你为什么不步骤化你的游戏并使用progressbar呢?
诚如其名,progressbar确实就是进度条(progress bar)。虽然这不是一个完全的数据科学中的具体活动,但它确实很好地改善了那些超长的运行脚本。
可惜的是,作为另一个GoogleCode的弃儿,它也没有得到很多的关注(文档有2个空格的缩进……2啊!)。希望大家能对这个勤劳又能干的娃多一点怜悯,阿门。
from progressbar import ProgressBar import time pbar = ProgressBar(maxval=10) for i in range(1, 11): pbar.update(i) time.sleep(1) pbar.finish() # 60% |########################################################
9)colorama
既然你为日志设置了很好的进度条,何不让它们变得多彩起来!而且还可以当事情出现严重错误的时候还可以提醒自己。
colorama超级易于使用。只要弹出到你的脚本,添加任何你想要变色的文本即可:
10)uuid
在我的想法中,我们在编程的时候其实真正只需要几个 工具 就可以了:hashing、键/值存储以及全局惟一标识符(universally unique ids,uuid)。 uuid内置于Python的UUID库。它实现了版本1、3、4和5的UUID标准,对于比如说保证唯一性等工作,非常方便。
这听起来很傻,但如果你要搞一个营销活动或电子邮件投递的记录,并且要确保每个人都有自己的促销代码或身份证号码的时候呢?
如果你担心用完id,哈哈,那你完全多虑了!UUID可以生成的数量相当于宇宙中原子的数目。
import uuid print uuid.uuid4() # e7bafa3d-274e-4b0a-b9cc-d898957b4b61
#11)bashplotlib
最后这个就让我厚着脸皮介绍吧——bashplotlib是我的作品之一。它可以让你绘制使用标准输入的直方图和散点图。因此,尽管你可能不会让它取代ggplot或matplotlib作为日常的绘图库,但是它非常的新颖。最起码,可以把它作为美化日志的一个方式。
$ pip install bashplotlib $ scatter --file data/texas.txt --pch x
希望这些Python库能对你的开发有所帮助!
我有一个Python学习交流QQ群:638121273 禁止闲聊,非喜勿进。
以上所述就是小编给大家介绍的《你可能不知道的实用Python库》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 你可能不知道的cookie
- 我可能不知道的JS
- 你很可能需要知道这个调试小技巧
- 你可能不知道的小程序(上篇)
- [译] 你可能不知道的 Python 技巧
- 你可能知道事务的四大特性,但是你不一定知道事务的实现原理
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
改变未来的九大算法
[美] 约翰.麦考密克 / 管策 / 中信出版社 / 2013-6 / 39.00元
Google得出的搜索结果是如何产生的? 百度为何会陷入“搜索门”,又是什么机制使然? 身处在大数据时代的我们,究竟该如何应对变化莫测的世界? …… 没有满篇的专业术语,第一次让我们通过简单明了的语言、生动的例证了解支撑计算机王国的灵魂支柱——9大算法,包括人工智能、数据压缩,以及Google著名的PageRank等。 本书精彩地介绍了搜索引擎、PageRank、公开......一起来看看 《改变未来的九大算法》 这本书的介绍吧!