长尾效应又是幂律分布的另一种提法。
下面简单用一组数据的图示化来表示:
数据来自于文本特征的抽取。
代码如下:
# coding: utf-8 import matplotlib.pyplot as plt filename = "**" ys = get_count_from_file(filename) ys = sorted(ys, reverse=True) xs = range(len(ys)) plt.plot(xs, ys) plt.show()
效果图如下:
当ys取前200时,效果图如下:
取前30时,效果图如下: