为什么要从被关注列表里取数据呢,从关注列表里取不更好吗,每个人关注的用户是有限可控的。
可以用一个任务队列+unvisited队列,主线程负责从unvisited队列里取url将用户信息存入数据库,并将该用户的关注列表链接和页码数作为参数压入任务队列,辅线程不断从任务队列里取数据并把所关注用户的url压入unvisited队列。
关键做好同步和去重。