长尾效应又是幂律分布的另一种提法。


下面简单用一组数据的图示化来表示:


数据来自于文本特征的抽取。


代码如下:

# coding: utf-8

import matplotlib.pyplot as plt

filename = "**"

ys = get_count_from_file(filename)

ys = sorted(ys, reverse=True)
xs = range(len(ys))

plt.plot(xs, ys)
plt.show()


效果图如下:

image.png

当ys取前200时,效果图如下:

image.png

取前30时,效果图如下:

image.png