range

If there were you, the world would be just right

分表?
将单个大的数据库表进行拆分,拆分成多个数据表,然后用户访问的时候,根据一定的算法(hash/取模),让用户访问不同的表,这样数据分散到多个数据表中,减少了单个数据表的访问压力,缩短查询时间提升了数据库访问性能。

场景1:
1000万用户user表,拆分为100个分表,命名 user_00 - user_99 ,通过用户id 取模的方法把数据分散到这100个表中
场景2:
用户登录操作日志类,日流量高达500万+,通过使用日期分表方法,将数据按日期保存表名 xxlog_20190918

分表缺点
查询汇总数据难度增大

分区

  • 逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件)
  • 一个表最多只能有1024个分区。
  • 如果分区字段中有主键或者唯一索引的列,那么多有主键列和唯一索引列都必须包含进来。
    即:分区字段要么不包含主键或者索引列,要么包含全部主键和索引列。
  • 分区表中无法使用外键约束

分区类型

  • RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区。
  • LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
  • HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
  • KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL服务器提供其自身的哈希函数。必须有一列或多列包含整数值。

建立分区表注意:

  • 顺应MYSQL的要求,primary key和unique key必须包含在分区key的一部分 所以把分区字段加入到主键中,组成复合主键
  • 查询sql 必须走分区键,避免查所有区
  • 在where语句中包含分区条件时,可以只扫描一个或多个分区表来提高查询效率;
  • 插入数据,如果数据对应本该插入的分区不存在会报错
  • 单张表最多是只能有1024个分区的(所以不按日做表)

分区选择

这个看个人业务,此处主要说我用到的

1、list 分区键必须为整数类型( 弃用 )

2、RANGE 区间范围( 与日期相关的统一采用range )

#维护相关
  查分区内容
    SELECT * FROM tableName PARTITION (p1,p2)
  添加分区:
    alter table tableName add partition (partition p0 values less than(1991));  //只能添加大于分区键的分区  
  删除分区数据
    alter table tableName  truncate partition p1,p2;  
    alter table tableName  truncate partition all; 
  删除分区
    alter table tableName drop partition p0; //可以删除任意分区

3、hash 分区键必须为整数类型( 可用hash则不用key,userId 为整形选择hash作为用户表分区 )

TIPS:
1)hash的分区必须是整数列
2)drop partition命令只能用在RANGE和LIST分区中。
3)分区的字段必须是要包含在主键字段之内,不然会报错

维护相关
  添加分区:
    ALTER TABLE tableName ADD PARTITION PARTITIONS 6; // 加6个区
  减少分区:
    ALTER TABLE tableName COALESCE PARTITION 4; // 减4个区
  移除表的分区
    ALTER TABLE tablename REMOVE PARTITIONING ;

注意:使用remove移除分区是仅仅移除分区的定义,并不会删除数据和drop PARTITION不一样,后者会连同数据一起删除

4、key 分区键字段不限制为整数类型( 设备为字符串可选择key分区 )

TIPS:
1) KEY分区支持除text和BLOB之外的所有数据类型的分区
2) 数据会分布不均(多次测试结果,创建分区个数为奇数 如99,可使数据相对分布更均匀)
3) 无法直接定位数据在哪个分区

需求
网站可正常请求静态文件,拒绝单独把静态文件路径取出来浏览器访问

突破口
其实可以发现2者还是存在着明显的差异-来源地址(网站访问是会带上源地址,而直接请求源地址为空)
1.png

2.png

实现思路
ngx_http_referer_module模块可根据header中的referer信息屏蔽某些请求对网站或应用的访问,可以起到禁止直接访问网站static files的作用(防盗链或保护文件)。
虽然伪造一个referer并不难,但还是提高了技术门槛,可以限制多数普通用户。

配置示例

valid_referers none blocked server_names  
               *.example.com example.* www.example.org/galleries/  
               ~\.google\.;  
  
if ($invalid_referer) {  
    return 403;  
} 
  • valid_referers 代表可信referer,此处可信referer的设置将会使变量$invalid_referer的值为「0」,反之$invalid_referer的值为「1」,则执行IF条件名并返回相关限制结果。
  • none是指当referer为空的时候,比如在链接器中直接打开一个图片链接,若要禁止用户直接访问,则必须省掉none。
  • blocked 是指经过某些代理或firewall过滤后的referer,比如省略了url前缀等, 同样地,若要禁止用户直接访问,则必须省掉blocked。
  • server_names 是nginx配置文件中的server name项,代指网站域名 

需求实例:禁止直接访问

#禁止所有用户,直接访问网站上的静态资源并返回错误代码404
location ~* ^.*\.(jpg|jpeg|gif|png|swf|rar|zip|css|js)$ {
    valid_referers server_names;
    if ($invalid_referer) {
        return 404;
    }
}

分布式架构的演变过程

1.单机负载
2.单机负载越来越高,数据库服务器和应用服务器分离
3.利用缓存改善网站性能
4.利用集群改善应用服务器性能
5.数据库压力变大,数据库读写分离
6.使用Nosql和搜索引擎缓解读库压力
7.使用cdn和反向代理提高网站性能
8.将应用服务器进行业务拆分
9.数据库水平、垂直拆分
10.服务拆分

什么是分布式

对项目进行分层分割拆分,最终分布在不同服务器上

分布式和集群的区别

分布式:一个业务分布成多个子系统,部署在不同的服务器上
集群: 同一个业务,部署在多个服务器上。做的都是同样的事

分布式和微服务的区别

微服务是分布式的一种实现方式
微服务关注的是分布式中的服务环节,而分布式是关注整个系统闭环

阅读剩余部分...