MongoDB中强大的统计框架Aggregation使用实例解析-木庄网络博客

本文整理自网络，侵删。

听说项目里面Aggregation用的多，那就专门针对这个多多练习一下。

基本的操作包括：

•$project - 可以从子文档中提取字段，可以重命名字段

•$match - 可以实现查找的功能

•$limit - 接受一个数字n，返回结果集中的前n个文档。

•$skip - 接受一个数字n，丢弃结果集中的前n个文档。效率比较低，依然会遍历前n个文档。

•$unwind - 可以将一个包含数组的文档切分成多个, 比如你的文档有中有个数组字段 A, A中有10个元素, 那么经过 $unwind处理后会产生10个文档，这些文档只有字段 A不同

•$group - 统计操作，还提供了一系列子命令

–$avg, $sum …

•$sort - 排序

Python篇
实验一、学生数据统计
1、生成学生数据：

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint
name1 = ["yang ", "li ", "zhou "]
name2 = [
  "chao",
  "hao",
  "gao",
  "qi gao",
  "hao hao",
  "gao gao",
  "chao hao",
  "ji gao",
  "ji hao",
  "li gao",
  "li hao",
]
provinces = [
  "guang dong",
  "guang xi",
  "shan dong",
  "shan xi",
  "he nan"
]
client = MongoClient('localhost', 27017)
db = client.student
sm = db.smessage
sm.remove()
for i in range(1, 100):
  name = name1[randint(0, 2)] + name2[randint(0, 10)]
  province = provinces[randint(0, 4)]
  new_student = {
    "name": name,
    "age": randint(1, 30),
    "province": province,
    "subject": [
      {"name": "chinese", "score": randint(0, 100)},
      {"name": "math", "score": randint(0, 100)},
      {"name": "english", "score": randint(0, 100)},
      {"name": "chemic", "score": randint(0, 100)},
    ]}
  print new_student
  sm.insert_one(new_student)

print sm.count()

好了，现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄，在mongo控制台输入：

如果想到得到所有省份的平均年龄，那就更加简单了：

db.smessage.aggregate(
{$match: {province: "guang dong"}}
)

{ "_id" : "guang xi", "age" : 15.19047619047619 }
{ "_id" : "guang dong", "age" : 16.05263157894737 }
{ "_id" : "shan dong", "age" : 17.44 }
{ "_id" : "he nan", "age" : 20 }
{ "_id" : "shan xi", "age" : 16.41176470588235 }

如果想得到广东省所有科目的平均成绩：

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}}
)

加上排序：

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}},
{$sort:{per:1}}
)

实验二、寻找发帖水王
有一个保存着杂志文章的集合，你可能希望找出发表文章最多的那个作者。假设每篇文章被保存为MongoDB中的一个文档。

1、插入数据

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint


name = [
  'yangx',
  'yxxx',
  'laok',
  'kkk',
  'ji',
  'gaoxiao',
  'laoj',
  'meimei',
  'jj',
  'manwang',
]

title = [
  '123',
  '321',
  '12',
  '21',
  'aaa',
  'bbb',
  'ccc',
  'sss',
  'aaaa',
  'cccc',
]

client = MongoClient('localhost', 30999)
db = client.test
bbs = db.bbs
bbs.remove()
for i in range(1, 10000):
  na = name[randint(0, 9)]
  ti = title[randint(0, 9)]
  newcard = {
    'author': na,
    'title': ti,
  }
  bbs.insert_one(newcard)

print bbs.count()

现在我们拥有了10000条文章数据了。

2、用$project将author字段投射出来

{"$project": {"author":1}}

这个语法与查询中的字段选择器比较像：可以通过指定"fieldname" : 1选择需要投射的字段，或者通过指定"fieldname":0排除不需要的字段。

执行完这个"$project"操作之后，结果集中的每个文档都会以{"_id" : id, "author" : "authorName"}这样的形式表示。这些结果只会在内存中存在，不会被写入磁盘。

3、用group将作者名称分组

{"group":{"_id":"$author","count":{"$sum":1}}}

这样就会将作者按照名字排序，某个作者的名字每出现一次，就会对这个作者的"count"加1。

这里首先指定了需要进行分组的字段"author"。这是由"_id" : "$author"指定的。可以将这个操作想象为：这个操作执行完后，每个作者只对应一个结果文档，所以"author"就成了文档的唯一标识符（"_id"）。

第二个字段的意思是为分组内每个文档的"count"字段加1。注意，新加入的文档中并不会有"count"字段；这"$group"创建的一个新字段。

执行完这一步之后，结果集中的每个文档会是这样的结构：{"_id" : "authorName", "count" : articleCount}。

4、用sort排序

{"$sort" : {"count" : -1}}

这个操作会对结果集中的文档根据"count"字段进行降序排列。

5、限制结果为前5个文档

{"$limit" : 5}

这个操作将最终的返回结果限制为当前结果中的前5个文档。
在MongoDB中实际运行时，要将这些操作分别传给aggregate()函数：

> db.articles.aggregate({"$project" : {"author" : 1}},
... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}},
... {"$sort" : {"count" : -1}},
... {"$limit" : 5}
... )

aggregate()会返回一个文档数组，其中的内容是发表文章最多的5个作者。

{ "_id" : "yangx", "count" : 1028 }
{ "_id" : "laok", "count" : 1027 }
{ "_id" : "kkk", "count" : 1012 }
{ "_id" : "yxxx", "count" : 1010 }
{ "_id" : "ji", "count" : 1007 }

Java篇

我在db中造了些数据(数据时随机生成的, 能用即可)，没有建索引，文档结构如下：

Document结构:

 {
  "_id" : ObjectId("509944545"),
  "province" : "海南",
  "age" : 21,
  "subjects" : [
  {
  "name"："语文",
  "score" : 53
  },
  {
  "name"："数学",
  "score" : 27
  },
  {
  "name"："英语",
  "score" : 35
  }
   ],
  "name" : "刘雨"
 }

接下来要实现两个功能：