=数据压缩算法=速记算法=
递增素数之间,可以使用加法,得出相对小的数,可以用乘法,得出相对大的数,可以用乘方号,得出很大很大的数。
当使用特定长度把一个大数据分割成N个小片段时,就可以进行统计,比如全体相加,然后除以总数得到全局平均数。
然后使用1KB的平均数,1MB的平均数,1GB的平均数作为比大小基准。
然后还有特定数(比如出现了一次以上的多次数)(比如只出现了一次的一次数)(比如出现的最大值)(比如出现的最小值)。
现在的问题就是,统计能够获得数据的被过滤掉了很多信息的被压缩后的数据,如何使用统计获得的数据,来逆推原始数据(包括各种统计的先后顺序)(当然,因为数据的缺失,导致必须使用试错方式来实现)。
在处理大数据时,如何减少解压缩时试错次数,就是大数据压缩专用算法的重难点。
[示例]
如果有一个二进制数1010010010011100110001000100010,统计出其二进制的1总共有12个,二进制的0总共有19个;转换为八进制为12223461042,统计出其八进制的0总共出现了1次,八进制的1出现了2次,八进制的2出现了4次,八进制的3出现了1次,八进制的4出现了2次,八进制的6出现了1次;转换为十进制为1380868642,统计出其十进制的0出现了1次,十进制的1出现了1次,十进制的2出现了1次,十进制的3出现了1次,十进制的4出现了1次,十进制的6出现了2次,十进制的8出现了3次(当然了,为了加速碰撞,一般都是使用素数进制的方式,而不是使用这种方式,作者用这种方式示例,只是为了方便使用微软自带的程序员计算器换算进制,从而进行统计),那么接下来,就需要通过进制碰撞的方式,来逆推根据统计得出的原始数据。
当然了,也可以使用MD4,MD5和其他的哈希值生成算法,用于快速生成哈希值,以及记录上大小,然后是二进制的0和1,然后是八进制,16进制(一般都采取2的正整数次方进制的方式,来加速快速压缩时的速度,换算更快)。
另外还有一种快速碰撞的方式,使用大于X的(Y+1次方),小于X的Y次方的方式。
第一次比大小范围:
示例:取X=16;Y=18;
16^19=75,557,863,725,914,323,419,136
16^18=4,722,366,482,869,645,213,696
第二次比大小范围:
示例:取X=15;Y=7;
15^8=2,562,890,625
15^7=170,859,375
当然了,因为作者并没有使用16^19-16^18,然后再把结果进行开15次方,然后再进行筛查,可能就会导致第二次和第一次的相关度不高。
一个二进制数据根据位数,可以表达多少数值?
1位二进制,有两种可能,1和0。
2位二进制,有四种可能,00,01,10,11。
16位二进制,有2的16次方种可能,然而一个数据本身使用这么多位是一种浪费。
也就是说,一个16位二进制所表达的数,是一个固定数,是大于或等于0,小于2的16次方+1。
就比如说,一个1ZB大小的数据,只要其本身是固定的,那么就注定大于或等于0,然后小于2的多少次方来着???+1。
表达固定的数,并不一定需要使用到很长的长度。
比如2的987654321次方,可以是一个很大的数,其换算成二进制,会占用多大的存储空间?然后是不是可以逆推为算术内容:2的987654321次方?
问题就是,并非所有的数,都是规律数,都可以使用A的B次方+C乘以D+E阶乘方式正好等于该数,也就导致往往只能采取使用比大小的方式,无限近似,大于某个最接近该数的小数,小于某个最接近该数的大数。
比如说,想要记录一个5,那么在只能使用素数的表达方式时,就可以记录为该数大于3,小于7。
使用大于和小于之后,就可以获得一个数据范围,该范围内可能包含有有数的可能性,接下来的方法,就是把这个可能性减少,比如说(3+7)5=2,则表示这个数正好处于大于和小于的中间值,比如说(3+7)4=2.5,则表示这个数正好大于大于和小于的中间值;以此类推;
设定一个数为未知数B,A大于B小于C。
那么就可以取近似值(A+B)C=D
一般情况下,D都是带有小数的,那么把D的小数去掉,那么D的整数部分就可以作为第二轮的最小值,D+1就可以作为第二轮的最大值。
取(A+B)C=区间值1(也就是C更靠近A,还是更靠近B)。
(A-B)(B-C)=区间值2
(A+C)B=区间值3
(B+C)A=区间值4
还有一种固定数大于小于法,就是A+→B←+C}总长度为多少位,特定数大于某个可以用循环速记法记录的数,小于某个可以用循环速记法记录的数。
然后就是使用特定算法生成一个数,该数大于B,然后使用特定刷房生成一个数,该数小于B。
示例:3*7=21;4*5=20;3*7大于B小于4*5;那么就可以获得该数百分之八十的近似值,然后再使用不断精准的继续用比大小法接近的方式,获得。
比如3.1415926
第一次比大小:4大于圆周率大于3
第二次比大小:3.14小于圆周率小于3.15
第三次比大小:3.141592小于圆周率小于3.141593
比大小之后,就是使用一个算术,来生成更接近的比大小精准度。
比如第一次比大小,大和小之间相差2的16次方,第二次比大小,大和小之间相差2的14次方,第三次比大小,大和小之间相差2的12次方,以此类推,就能快速还原出原始数据。
1TB的固定数据,可以使用1GB的算法来生成,1GB算法当做固定数据,就能使用1KB的算法来生成,这就是TB2KB算法的原理。
看小说,630book
请勿开启浏览器阅读模式,否则将导致章节内容缺失及无法阅读下一章。
相邻推荐:轮回:这剧情我熟叶辰 山海画符人:我镇压洪荒数个纪元许纸 裂天空骑陈非 听说我是盗墓贼梅谦 斗罗之别等我CD转好 霍格沃茨之诡秘序列阿蒙·诺特 三国乱世传奇雨弋 人在柱灭,开局医治无惨尚泉奈 徐以年郁槐 耕耘贞观李泰 都市神医:手握八份婚书凌寒非 一抹匠心瑶琴传易遥 神秘修炼营孟岩 东京氪命流怪异游戏酒井善 胡糊月追 网球鬼才轩辕瑾 写轮眼中的黑夜战场聂长风 颜一鸣江逸 我的诡异小说世界罗素 一人之下:从风后奇门开始陈让
好书推荐:桃运无双,洛雷神秘帝少甜宠妻和表姐同居的日子最佳女配(娱乐圈冯征秦始皇嬴政撩妹小神医妙手小村医吻安,首长大人超品邪医报告首长,萌妻入侵睡吧,国民夫人离婚三十天重生世家子我的老婆是冠军校园极品公子山村名医当沙雕攻拿到虐文剧本我的相公风华绝代极品媳妇农女不修仙我家皇后又作妖美人如玉都市弃少归来,依旧怪医圣手叶皓轩,一念都市超级赘婿八零娇女有空间神话之后仙工开物,蛊真人龙藏恒星时刻据说秦始皇是个女儿控来着中年男人请遵守游戏规则世上还有这种好事儿娘子,我道心乱了我被初恋退婚之后大明虎贲农家小娘子总裁情深入骨我行走江湖那些年混在后宫的假太监那夜上错床凶兽档案蚀骨危情带着妹子去修仙醉卧美人乡抱上空姐的大腿都市之纵意花丛末世之重生御女逆命相师老子是无赖都市极品人生高武我的气血无限多十年磨砺,归来已无敌修仙 一代神帝横空出世网游我在全民战争霸气开挂这个歌神眼神不好使瞎子开局逆风翻盘,抱得校花归傲世骄龙世界房产巨头将门弃妇又震慑边关了汉末无衣神话之后开局签到荒古圣体公寓里的精灵训练家盗墓,开棺挖到一只两千年粽子我们都是九零后心花路放别搞,我是人,魔尊是啥玩意儿他的金丝雀又娇又软渣夫软饭硬吃,那就送他去归西我本无意成仙我和女神合租的日子小师弟,求你从了师姐吧超品风水相师最废皇太子空间重生之商门影后穿成前夫的家养狗重生之纯真年代凡人神算整座大山都是我的猎场极品兵王俏总裁乡村傻医仙的秘密乡村神医村长九千岁,女帝她又纳妃了跪在妻女墓前忏悔,我重生了屌丝小保安,遇见女鬼逆袭了寡妇也是潜力股我要成为天下无敌假太监:攻略皇后的我如鱼得水穿越为摄政王,女帝视我心头刺汉服小姐姐直播被大熊猫赖上娘亲,离开这家,我带你吃香喝辣小姐,姑爷他又要造反啦凡三的财富蛙跳外戚好凶猛我的女皇上司最强俏村姑这个农民有点虎多子多福,从拿捏九幽女帝开始重生许仙当儒圣古玩捡漏从离婚后开始绝世废材:毒后归来偷偷藏不住楚家有女初修仙师父,抱小腿极品女仙他的小仙女大律师的惹火宝贝重生不当接盘侠,前世老婆她急了捡个魔神做师父万古第一废材我真不想当奸臣重生后我成了拼爹界杠把子我的姐姐是恶役千金大小姐一胎七宝:老婆大人哪里跑内科医生她真不是沙雕龙藏烟雨江南仙工开物神话之后鹅是老五剑走偏锋的大明大燕文学读吧小说网读一读小说网快眼看书啃书网爬书网权术小说网去读书书荒小说网再读读小说网书趣阁恒星时刻崇文中文网天籁小说小二中文文华摘云若月楚玄辰开局揭皇榜,皇后竟是我亲娘官途,搭上女领导之后千里宦途升迁之路官道征途:从跟老婆离婚开始权力巅峰:从城建办主任开始官梯险情相亲认错人,闪婚千亿女总裁书文小说不乖官路女人香学姐蓄意勾引深入浅出仙帝重生,我有一个紫云葫芦财阀小甜妻:老公,乖乖宠我空白在综艺直播里高潮不断重回2009,从不当舔狗开始透骨欢爱欲之潮直上青云深度补习上流社会共享女友镇龙棺,阎王命上瘾爱欲之潮假千金身世曝光,玄学大佬杀疯了臣服议事桌上官途:权力巅峰开局手搓歼10,被女儿开去航展曝光了关于我哥和我男朋友互换身体这件事村野流香闪婚夜,残疾老公站起来了师娘,你真美迟音