NoSQL数据库的分布式算法

2019-08-16

本文译自 Distributed Algorithms in NoSQL Databases
原文:NoSQL数据库的分布式算法

系统的可扩展性是推动 NoSQL 运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得 NoSQL 听起来像是一个大筐,什么都能塞进去。尽管 NoSQL 运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。正是通过这些尝试逐渐总结出了一些行之有效的数据库构建方法。在这篇文章里,我将针对 NoSQL 数据库的分布式特点进行一些系统化的描述。

接下来我们将研究一些分布式策略,比如故障检测中的复制,这些策略用黑体字标出,被分为三段:

  • 数据一致性。NoSQL 需要在分布式系统的一致性,容错性

Java I/O模型从BIO到NIO和Reactor模式解析

2019-08-16

01308200580ZNcr.gif

Java I/O 模型

同步 vs. 异步

同步 I/O 每个请求必须逐个地被处理,一个请求的处理会导致整个流程的暂时等待,这些事件无法并发地执行。用户线程发起 I/O 请求后需要等待或者轮询内核 I/O 操作完成后才能继续执行。

异步 I/O 多个请求可以并发地执行,一个请求或者任务的执行不会导致整个流程的暂时等待。用户线程发起 I/O 请求后仍然继续执行,当内核 I/O 操作完成后会通知用户线程,或者调用用户线程注册的回调函数。

阻塞 vs. 非阻塞

阻塞 某个请求发出后,由于该请求操作需要的条件不满足,请求操作一直阻塞,不会返回,直到条件满足。

非阻塞 请求发出后,若该请求需要的条件不满足,则立即返回一个标志信息告知条件不满足,而不会一直等待。一般需要通过循环判断请求条件是否满足来获取请求结果。

需要注意的是,阻塞并不等价于同步,而非阻塞并非等价于异步。事实上这两组概念描述的是 I

Mac开发系列之python多版本和环境管理(pyenv和virtualenv安装配置使用)

2019-08-17

系统版本:Mac OS X El Capitan(10.13)
预先安装:homebrew 安装方法:运行 Ruby 脚本:

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

pyenv 依赖:python 2.5+ , Git

pyenv 安装

推荐使用 pyenv-installer 这个插件安装 pyenv,这种方式安装会多安装几个是实用的插件,比如:

pyenv-virtualenv 用于整合virtualenv

pyenv-pip-rehash 用于使用pip安装包之后自动执行rehash

pyenv-update 用于升级pyenv

使用python-installer方式安装:确保你的电脑可以访问Github,然后在终端运行:
curl -L https://raw.githubusercontent.com/yyuu/pyenv-ins

周杰伦的《烟花易冷》和《洛阳伽蓝记》的前世今生

2019-07-21

《烟花易冷》的前世今生

《烟花易冷》这首歌发行之时我便已听过了,按照周董『一张专辑一首中国风』的传统,《烟花易冷》便作为专辑《跨时代》的中国风歌曲面世,一曲终了,并没有初听《东风破》、《青花瓷》和《菊花台》这些前作般的惊艳之感,不仅如此,因为周杰伦在演绎这首歌时的不同于以往的唱腔 — 低沉阴冷,可能许多不常听周杰伦的人都会问:这是周杰伦唱的吗?甚至我这个老歌迷也觉得这的确是他刻意做的改变,所以当时并没有对这首歌有太多的青睐,就觉着是周杰伦的一首风格『奇怪』的中国风,也便止于此了。

前阵子,网易云『每日推荐』里给我推了这一首《烟花易冷》,重听之后,与几年前的感受很不一样,似乎听出了《东风破》的哀愁、《发如雪》的凄美、《青花瓷》的婉转,歌词也写出了一种败落、苍凉的感觉,而且歌词的故事性居然还比较完整,要知道方文山的中国风歌词那都是走的是印象画派、意识流小说这种风格 — 意象丰富、故事零碎。这倒是激起了我的兴趣,我上网搜了一下

tornado配合celery及rabbitmq实现web request异步非阻塞

2019-08-16

CeleryRabitMQDiagram.png

Tornado 和 Celery 介绍

1.Tornado

Tornado 是一个用 python 编写的一个强大的、可扩展的异步 HTTP 服务器,同时也是一个 Web 开发框架。tornado 是一个非阻塞式 Web 服务器,其速度相当快。得利于其非阻塞的方式和对 epoll 的运用,tornado 每秒可以处理数以千计的连接,这意味着对于实时 Web 服务来说,tornado 是一个理想的 Web 框架。它在处理严峻的网络流量时表现得足够强健,但却在创建和编写时有着足够的轻量级,并能够被用在大量的应用和工具中。
进一步了解和学习 tornado 可移步:tornado官方文档

2.Celery

Celery 是一个简单、灵活且可靠的,处理大量消息的分布式系统,它是一个专注于实时处理的任务队列, 同时也支持任务调度。Celery 中有两个比较关键的概念:

  • Worker: worker 是一个独立的进程,它持续监视队列中是否有需要处理的任务;
  • Broker: broker 也被称为中间人或者协调者,br

深入golang之---goroutine并发控制与通信

2019-08-17
2 评论 13,012 浏览

Context调用链路

开发 go 程序的时候,时常需要使用 goroutine 并发处理任务,有时候这些 goroutine 是相互独立的,而有的时候,多个 goroutine 之间常常是需要同步与通信的。另一种情况,主 goroutine 需要控制它所属的子 goroutine,总结起来,实现多个 goroutine 间的同步与通信大致有:

  • 全局共享变量
  • channel 通信(CSP 模型)
  • Context 包

本文章通过 goroutine 同步与通信的一个典型场景-通知子 goroutine 退出运行,来深入讲解下 golang 的控制并发。

通知多个子 goroutine 退出运行

goroutine 作为 go 语言的并发利器,不仅性能强劲而且使用方便:只需要一个关键字 go 即可将普通函数并发执行,且 goroutine 占用内存极小(一个 goroutine 只占 2KB 的内存),所以开发 go 程序的时候很多开发者常常会使用这个并发工具,独立的并发任务比较简单,只需要用 go 关键字修饰函数就可以启用一个 goroutine 直接运行;但是,实际的并发场景常常是需要进行协程间的同步与通信,以及精确控制子 goroutine 开始和

协同过滤Item-based算法实现电影推荐系统

2019-07-21

摘要: 采用离线式计算推荐给每位用户的电影,采用 Item-based 算法并做了适当修改,
主要分两部分:

  1. 计算电影的相似度:利用调整的余弦相似度计算方法;
  2. 相似度加权求和:使用用户已打分的电影的分数进行加权求和,权值为用户未打分的各电影与打分的各电影的相似度,然后对所有相似度的和求平均。

系统详细设计

离线计算推荐电影模块

系统所用算法

本系统采用协同过滤(Collaborative Filtering)推荐算法。协同过滤推荐算法分为预测过程和推荐过程,其包括 Item-based 算法和 User-based 算法,但经查阅相关资料发现 User-based 算法存在两个问题:

  1. 数据的稀疏性:一个大型的电影推荐系统会有大量的电影信息,用户已打分的电影可能只占总量的很少一部分,不同用户之间电影打分的重叠性较低,导致算法无法找到一个兴趣用户;
  2. 算法的扩展性:最近邻算法的计算量会随着用户和电影信息数量的增加而增加,不适合信息量大的情况。所以本系统采用了 Item-based 协同过滤算法,并对其做了适当修改。

计算过程

读史时哪些故事让你动容?

2019-07-21

读史,动容莫过于见证一个一个悲剧的发生。

诸葛孔明

读《三国演义》之时,我感觉像是亲历了孔明一生的大起大落,从踌躇满志辅佐刘皇叔兴复汉室,到最后回天无力命陨五丈原,可悲,可叹,可泪。
意气风发

卧龙翔天

  • 汉灵帝光和四年,孔明诞生于琅邪阳都。
  • 建安四年,孔明与友人徐庶等从师水镜先生司马徽,这一年,孔明 19 岁。
  • 建安十二年,刘备前往襄阳(今湖北襄樊)三顾茅庐,孔明对刘备陈说《隆中对》,详尽描述了他的三分天下之计。随即出山辅助刘备,这一年,孔明 27 岁。
  • 同年,孔明出山第一战,火烧博望坡,彼时的曹孟德

精品国漫荟萃之3D动画篇

2019-07-21

传说江湖中有一条漫画鄙视链:日漫粉鄙视美漫粉,美漫粉鄙视国漫粉,国漫粉鄙视其他所有粉...

国漫比不上日漫美漫这是事实,整个产业真正发展起来才没几年而且整个产业非常浮躁,很少有业内人能真正静下心来制作一部优秀的国漫,所以质量普遍不如日漫也得承认,但是,国漫产业也在慢慢好转,近些年也不断有优秀的作品涌现,非常值得关注,我虽然也经常看日漫,但也追国漫中的精品,也算有些心得,在这里给大家推荐几部当前国漫中的优秀作品,有兴趣的可以去看一看,希望国漫崛起不仅仅是一句口号而已。

3D 动画

秦时明月

秦时明月

故事概要

易水河畔,墨家巨子、燕国太子丹为阻止秦灭六国的步伐,遣使天下第一刺客荆轲前往咸阳刺杀秦王嬴政。荆轲刺秦,一是为了阻挡秦灭六国,二是因为他的恋人—天下第一美人丽姬被嬴政虏去为妃,彼时,丽姬已身怀六甲,腹中胎儿便是荆轲之子荆天明。剑圣盖聂,天下第一剑客

精品国漫荟萃之2D动画篇

2019-07-21

2D 动画

一人之下

《一人之下》是 2015 年 2 月 26 日开始在网络平台腾讯动漫上连载的一部网络漫画作品,作者是米二。2016 年 8 月开始由浙江人民美术出版社发售漫画单行本。动画《一人之下》改编自米二创作的同名网络漫画,动画由日本动画公司 Pandanium 负责制作。中国网络版于 2016 年 7 月 8 日起每周五在版权网站更新国语版;7 月 15 日起每周五更新日语版。日本电视版于 2016 年 7 月 9 日起每周六 20:00 在 TOKYO MX 首播,全 12 话。

《一人之下 2》之罗天大醮于 2017 年 10 月 27 日起在网络更新,动画制作更换为上海绘界文化传播有限公司。

作者米二,漫画界人称二叔,擅长细腻的人物性格刻画、紧凑巧妙的剧情设计以及浓烈的国风,代表作有《Project 大爱》、《九九八十一》、《一人之下》等,自其漫画在网络连载以来,累积人气超过百亿,2013 年被列为中国漫画作家富豪榜第七名,《一人之下》将中国超能力者、道家武学体系、八卦玄学、《西游记》别解、传

数据库内部排序算法之两阶段多路归并排序算法实现

2019-07-21

摘要: 两阶段归并排序算法是数据库查询的一个基础技术,在数据库应用中,常常采用“两阶段多路归并排序算法”来解决对海量数据的排序问题(这里的海量数据是指数据大小远远超过了数据库可用的主存的大小,无法将所有数据一次性的载入主存进行排序)。

前言

基于斯坦福大学的《数据库系统实现》,实现两阶段多路归并排序算法,通过 merge-sort 算法的实现,理解外存算法所基于的 I/O 模型与内存算法基于的 RAM 模型的区别;理解不同的磁盘访问优化方法是如何提高数据访问性能的。

首先生成一个具有 10,000,000 个记录的文本文件,其中每个记录由 100 个字节组成。实验只考虑记录的一个属性 A,假定 A 为整数类型。记录在 block 上封装时,采用 non-spanned 方式,即块上小于一个记录的空间不使用。Block 的大小可在自己的操作系统上查看,xp 一般为 4096 bytes。在内存分配 50M 字节的空间用于外部 merge-sort。要求设计和实现程序完成下列功能:

  1. 生成文本文件,其中属性 A 的值随机产生。
  2. 对文本文件中的记录,按照属性 A 进行排序,其中在第二阶段的排序中每个子列表使用一

64位Ubuntu14.04下安装hadoop2.6单机配置和伪分布配置详解

2019-07-21

环境

系统: Ubuntu 14.04 64bit

Hadoop 版本: Hadoop 2.6.0 (stable)

JDK 版本: oracle jdk7

操作

在 Ubuntu 下创建 hadoop 用户组和用户

  1. 创建 hadoop 用户组
sudo addgroup hadoop
  1. 创建 hadoop 用户
sudo adduser -ingroup hadoop hadoop

3 . 给 hadoop 用户添加权限,打开/etc/sudoers 文件

sudo gedit /etc/sudoers

在 root ALL=(ALL:ALL) ALL 下添加 hadoop ALL=(ALL:ALL) ALL.

安装 SSH server、配置 SSH 无密码登陆

SSH 是一个很著名的安全外壳协议 Secure Shell Protocol。 rsync 是文件同步命令行工具

sudo apt-get install ssh rsync

mapreduce之数据去重和数据排序实例

2019-07-21

数据去重:
数据去重,只是让出现的数据仅一次,所以在 reduce 阶段 key 作为输入,而对于 values-in 没有要求,即输入的 key 直接作为输出的 key,并将 value 置空。具体步骤类似于 wordcount:

Tip:输入输出路径配置。

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.m

hadoop平台wordcount程序的python实现

2019-07-21

摘要: ​ 尽管 Hadoop 框架是用 Java 写的,但是 Hadoop 程序不限于 Java,可以用 python、C++、Ruby 等。本例子中直接用 python 写一个 MapReduce 实例,而不是用 Jython 把 python 代码转化成 jar 文件。

例子的目的是统计输入文件的单词的词频。

  • 输入:文本文件
  • 输出:文本(每行包括单词和单词的词频,两者之间用'\t'隔开)

Python MapReduce 代码

使用 python 写 MapReduce 的“诀窍”是利用 Hadoop 流的 API,通过 STDIN(标准输入)、STDOUT(标准输出)在 Map 函数和 Reduce 函数之间传递数据。
我们唯一需要做的是利用 Python 的 sys.stdin 读取输入数据,并把我们的输出传送给 sys.stdout。Hadoop 流将会帮助我们处理别的任何事情。

Map 阶段:mapper.py

在这里,我们假设把文件保存到 hadoop-0.20.2/test/code/mapper.py

#!/usr/bin/env python
import sy

网络爬虫详解与python实现

2019-07-21

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。

网络爬虫的基本结构及工作流程

一个通用的网络爬虫的框架如图所示:

image

网络爬虫的基本工作流程如下:

  1. 首先选取一部分精心挑选的种子 URL;
  2. 将这些 URL 放入待抓取 URL 队列;
  3. 从待抓取 URL 队列中取出待抓取在 URL,解析 DNS,并且得到主机的 ip,并将 URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些 URL 放进已抓取 URL 队列。
  4. 分析已抓取 URL 队列中的 URL,分析其中的其他 URL,并且将 URL 放入待抓取 URL 队列,从而进入下一个循环。

从爬虫的角度对互联网进行划分

对应的,可以将互联网的所有页面分为五个部分:

![image](https://taohuawu.club/upload/2018