Merge branch 'master' of https://github.com/jackzhenguo/python-small-examples

jackzhenguo · jackzhenguo · commit 104f7f7b32a2 · 2019-12-21T10:34:15.000+08:00
diff --git a/README.md b/README.md
@@ -6,20 +6,47 @@
 
 ### 今日更新
 
-**【2019年12月19日】** 计算任意维坐标中两点之间距离
+**【2019年12月20日】** 让实例也能被调用
 
+Python自定义一个类Student，如下：
 ```python
-import math
-def distance(p0,p1,digits=2):
-    a=map(lambda p: (p[0]-p[1])**2, zip(p0, p1))
-    return round(math.sqrt(sum(a)),digits)
+class Student():
+    ...:     def __init__(self,id,name):
+    ...:         self.id = id
+    ...:         self.name = name
+    ...:     def __repr__(self):
+    ...:         return 'id = '+self.id +', name = '+self.name
+
 ```
+创建实例：`xiaoming`:
 
 ```python
-distance((1,1),(2,2),digits=5) # 1.41421
-distance((1,2,3,4),(4,3,2,1)) # 4.47
+xiaoming = Student('001','xiaoming')
+xiaoming() # TypeError: 'Student' object is not callable
+```
+此时调用实例`xiaomng()`会抛出TypeError实例不能被调用的异常。
+
+重写`__call__ `方法，实现`xiaomng()`可被调用:
+```python
+class Student():
+    ...:     def __init__(self,id,name):
+    ...:         self.id = id
+    ...:         self.name = name
+    ...:     def __repr__(self):
+    ...:         return 'id = '+self.id +', name = '+self.name
+    ...:     def __call__(self):
+    ...:         print('Now, I can be called')
+    ...:         print(f'my name is {self.name}')
+
 ```
+再次调用：
+```python
+In[1]: xiaoming = Student('001','xiaoming')
 
+In[2]: xiaoming()
+OUT[2]: Now, I can be called
+my name is xiaoming
+```
 
 
 ### 一、Python之基
diff --git a/data/cut_words.csv b/data/cut_words.csv
@@ -0,0 +1,120 @@
+��,12
+��,11
+Python,10
+��,7
+��,5
+����,4
+���,4
+��׼��,3
+ͨ��,3
+��,3
+�ṩ,3
+ģ��,3
+��,3
+ϵͳ,3
+����,2
+�ο�,2
+����,2
+��,2
+��,2
+��,2
+��,2
+��,2
+ѡ,2
+��,2
+��д,2
+����,2
+����,2
+ƽ̨,2
+����,2
+����,2
+����,1
+�﷨,1
+����,1
+��,1
+��,1
+��,1
+����,1
+��,1
+һͬ,1
+����,1
+��,1
+��,1
+���а�,1
+һЩ,1
+�ǳ�,1
+�Ӵ�,1
+�漰,1
+��Χ,1
+ʮ��,1
+�㷺,1
+����,1
+����,1
+����,1
+Ŀ¼,1
+��ʾ,1
+���,1
+��,1
+��,1
+����,1
+(,1
+C,1
+),1
+����Ա,1
+����,1
+����,1
+����,1
+ʵ��,1
+��,1
+����,1
+�ļ�,1
+I/O,1
+����,1
+����,1
+����,1
+�ճ�,1
+���,1
+����,1
+��׼,1
+���,1
+����,1
+����,1
+��Щ,1
+����,1
+ר��,1
+���,1
+ͨ��,1
+��,1
+�ض�,1
+����,1
+Ϊ,1
+����,1
+API,1
+����,1
+��ǿ,1
+����ֲ��,1
+Windows,1
+�汾,1
+��װ,1
+����,1
+����,1
+����,1
+����,1
+��,1
+Unix,1
+��,1
+�ֳ�,1
+һ,1
+ϵ��,1
+������,1
+���,1
+����,1
+��Ҫ,1
+ʹ��,1
+��,1
+����,1
+����,1
+��ȡ,1
+����,1
+��,1
+ȫ��,1
diff --git a/md/README.md b/md/README.md
@@ -61,14 +61,13 @@
 #### 六、文件操作
 1. [批量修改后缀名](./批量修改后缀名.md)
 2. [返回两个文件的不同行的编号](返回两个文件的不同行的编号.md)
-3. [查找指定文件格式文件](查找指定文件格式文件.md)
+3. [查找指定后缀名的文件](查找指定文件格式文件.md)
 4. [使用Python实现群发邮件功能](自动群发邮件.md)
 5. [xls批量转化为xlsx](xls批量转化为xlsx.md)
 6. [获取指定文件路径下文件修改时间](获取指定文件路径下文件修改时间.md)
-7. [计算指定日期当月最后一天的日期和该月天数](计算指定日期当月最后一天的日期和该月天数.md)
-8. [文件批量压缩](文件批量压缩.md)
-9. [文件读写操作](文件读写操作.md)
-10. [字符串32位加密](字符串32位加密.md)
+7. [文件批量压缩](文件批量压缩.md)
+8. [文件读写操作](文件读写操作.md)
+9. [字符串32位加密](字符串32位加密.md)
 
 
 #### 七、字符串、正则和爬虫
@@ -81,7 +80,7 @@
 7. [格式化数字使用大全](str.format() 格式化数字的多种方法.md)
 8. [字符串32位加密](字符串32位加密.md)
 9. [反转字符串](反转字符串1.md)
-
+10. [分词并保存结果](分词并保存结果.md)
 
 ####  八、绘图
 
diff --git a/md/分词并保存结果.md b/md/分词并保存结果.md
@@ -0,0 +1,45 @@
+**分词并保存结果**
+
+`pkuseg`是北大开源的一个中文分词工具包。它在多个分词数据集上都有非常高的分词准确率，比经常使用的`jieba`分词性能和效果要更好。
+
+下面使用`pkuseg`的`cut`函数，分词后统计前10频率词，并按照所有词的频次由高到低写入到文件`cut_words.csv` 中。
+
+这是需要切分的段落：
+```python
+mystr = """Python 语言参考 描述了 Python 语言的具体语法和语义，
+这份库参考则介绍了与 Python 一同发行的标准库。
+它还描述了通常包含在 Python 发行版中的一些可选组件。
+Python 标准库非常庞大，所提供的组件涉及范围十分广泛，
+正如以下内容目录所显示的。这个库包含了多个内置模块 (以 C 编写)，
+Python 程序员必须依靠它们来实现系统级功能，
+例如文件 I/O，此外还有大量以 Python 编写的模块，
+提供了日常编程中许多问题的标准解决方案。
+其中有些模块经过专门设计，
+通过将特定平台功能抽象化为平台中立的 API 来鼓励和加强 Python 程序的可移植性。
+Windows 版本的 Python 安装程序通常包含整个标准库，
+往往还包含许多额外组件。对于类 Unix 操作系统，
+Python 通常会分成一系列的软件包，
+因此可能需要使用操作系统所提供的包管理工具来获取部分或全部可选组件。"""
+```
+
+几行代码就完成上述工作：
+
+```python
+from pkuseg import pkuseg
+from collections import Counter
+
+seg = pkuseg()
+words = seg.cut(mystr)
+frequency_sort = Counter(words).most_common()
+with open('./data/cut_words.csv', 'w') as f:
+    for line in frequency_sort:
+        f.write(str(line[0])+',' + str(line[1])+"\n")
+
+print('writing done')
+```
+
+出现最高频的前10个词语：
+```python
+Counter(words).most_common(10)
+# [('的', 12), ('，', 11), ('Python', 10), ('。', 7), ('了', 5), ('包含', 4), ('组件', 4), ('标准库', 3), ('通常', 3), ('所', 3)]
+```
diff --git a/md/文件读写操作.md b/md/文件读写操作.md
@@ -18,12 +18,12 @@ def openfile(filename):
 
 
 # 写入文件信息
-
 # example1
 # w写入，如果文件存在，则清空内容后写入，不存在则创建
 f = open(r"./data/test.txt", "w", encoding="utf-8")
 print(f.write("测试文件写入"))
 f.close
+
 # example2
 # a写入，文件存在，则在文件内容后追加写入，不存在则创建
 f = open(r"./data/test.txt", "a", encoding="utf-8")
diff --git a/md/获取指定文件路径下文件修改时间.md b/md/获取指定文件路径下文件修改时间.md
@@ -1,5 +1,5 @@
 ```python
-#递归获取目录下文件的修改时间
+#获取目录下文件的修改时间
 import os
 import datetime
 print(f"当前时间：{datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
diff --git a/src/top_big_files.py b/src/top_big_files.py
@@ -0,0 +1,7 @@
+from collections import defaultdict
+d = defaultdict(list)
+for root, dirs, files in os.walk('E:\guozhen3\08LOL\JDLOL\fengbi\jdlol'):
+    for file in files:
+        abs_path_file = os.path.join(root, file)
+        file_size = os.path.getsize(abs_path_file)
+        d[abs_path_file].append(file_size)
diff --git a/src/use_pkuseg.py b/src/use_pkuseg.py
@@ -0,0 +1,21 @@
+from pkuseg import pkuseg
+from collections import Counter
+
+mystr = """Python 语言参考 描述了 Python 语言的具体语法和语义，这份库参考则介绍了与 Python 一同发行的标准库。它还描述了通常包含在 Python 发行版中的一些可选组件。
+
+Python 标准库非常庞大，所提供的组件涉及范围十分广泛，正如以下内容目录所显示的。这个库包含了多个内置模块 (以 C 编写)，Python 程序员必须依靠它们来实现系统级功能，例如文件 I/O，此外还有大量以 Python 编写的模块，提供了日常编程中许多问题的标准解决方案。其中有些模块经过专门设计，通过将特定平台功能抽象化为平台中立的 API 来鼓励和加强 Python 程序的可移植性。
+
+Windows 版本的 Python 安装程序通常包含整个标准库，往往还包含许多额外组件。对于类 Unix 操作系统，Python 通常会分成一系列的软件包，因此可能需要使用操作系统所提供的包管理工具来获取部分或全部可选组件。"""
+
+seg = pkuseg()
+words = seg.cut(mystr)
+top10 = Counter(words).most_common(10)
+# [('的', 12), ('，', 11), ('Python', 10), ('。', 7), ('了', 5), ('包含', 4), ('组件', 4), ('标准库', 3), ('通常', 3), ('所', 3)]
+print(top10)
+
+frequency_sort = Counter(words).most_common()
+with open('./data/cut_words.csv', 'w') as f:
+    for line in frequency_sort:
+        f.write(str(line[0])+',' + str(line[1])+"\n")
+
+print('writing done')