Counter()
most_common()
Numpy
sum
Calculate the summary of ndarray a according to the given axis, axis is a integer or tuple
argsort
返回数组的排序索引(从小到大),若为矩阵可指定轴。1
2
3
4
5
6
7
8
9k = 2
x = np.array([[4, 5, 1],
[1, 2, 3]])
top_k_idx = np.argsort(x[0])[:k]
print(x)
print(top_k_idx)
top_k = np.argsort(x, axis=1)
print(top_k)
np.square
np.square
是用c实现的,比**
快多了😭。 661s:36s.
np.linalg.norm
求范数,L1范数->曼哈顿距离(L1距离),L2范数->欧氏距离(L2距离)np.linalg.norm
vstack, hstack
array_split
concatenate
np.random.choice
生成随机序列,可指定范围或来源于某个数组。
reshape
改变矩阵为指定形状
mean
求平均值,可指定matrix的轴
fmax(x1, x2)
Compare two arrays and returns a new array containing the element-wise maxima. x2可以是一个数。
numpy.random.randn(d0, d1, …, dn)
从标准正态分布中返回一个或多个样本值。
numpy.random.rand(d0, d1, …, dn)
随机样本位于[0, 1)中。
\xa0 \n
1 | s |
list comprehension
1 | new_list = [ expression(i) for i in old_list if filter(i)] |
np.random.shuffle()
1 | In [26]: x = np.arange(10) |
pandas Dataframe get rows by index array
1 | def split_data(data): |
str clean
1 | str1 = ''.join(str1.split()) # remove '\n','\xa0' |
pandas : add a column to a Daraframe
1 | data_df['cool'] = votes['cool'] |
pandas : groupby mean
1 | data_df.groupby('stars').mean() |
pandas : group and count unique values
1 | srcIp_Host_count = df.groupby(by='srcIp')['requestHost'].nunique() |
pandas :SettingwithCopyWarning
pandas : reindex() , reset_index()
reindex() 是取出index为参数中指定的行
reset_index() 才是重置索引
[pandas : apply 也可用做遍历df的操作]
1 | import re |
jupyter 允许外网访问
1 | jupyter notebook --ip=<host_ip> |