立即购买
《数据要素》作者赵刚:数据的历史
  • 《数据要素》作者赵刚:数据的历史

    Innov100
    2021-04-13 17:49:25
  • 我经常说,数据能够记录和还原“历史”。但是,要问数据能够还原多久的历史?那就要看数据自身有多久的历史。所以,本书先从数据的历史说起。

    研究数据的历史,要追溯到数的历史。计数,是一种人类特有的智能特性,正是因为有了计数,我们赢得了用数来表达宇宙的惊人成就。为了方便计数,人类发明了数的符号:数字(number)。考古学发现,人类历史上最早的数字记录的物证是在南部非洲斯威士兰王国出土的一块刻有29道清晰的V字型刻痕的狒狒的腓骨,这一纪录的年代大约是公元前35000年。而在捷克共和国的墨拉维亚也出土了公元前30000年的幼狼桡骨,上面刻有两列五道一组共55道V字形刻痕。

    在中国,《周易》中有“上古结绳而治”的记载。《周易》成书于春秋战国时期(公元前770-公元前221年),书中所指的上古,一般是指现存文字记载出现以前的时代,即夏朝(公元前2070-公元前1600年)以前的时代。上古时期的初民们,为了计数,在绳上打结,用绳结代表数字。

    文字是记录人类语言的符号。迄今发现的人类最早的文字是楔形文字,是由古苏美尔人创造的。在公元前3400年左右,楔形文字雏形产生,大多是图像。在公元前3000年左右,楔形文字系统逐步成熟。已被考古发现的楔形文字多写在泥板上,少数写在石头、金属或蜡板上。楔形文字系统有两种类型的符号,一种代表数字,如1,10,60等,用于计数;另一种代表事物,如人、动物、商品、领土等,用于记录农业、贸易等活动。大约在同一时期,埃及、印度和中国,也产生了文字。在公元前3100年左右,古埃及出现了象形文字,在法老那默尔的铠甲关节板上的象形刻记,就是迄今发现的最早的埃及象形文字。在公元前2000年左右,古印度出现了印章文字,目前出土了约2000多枚刻有印章文字的陶土残片。中国现存最早的成批的文字资料是商代(约公元前1600年—约公元前1046年)的甲骨文,是对殷王朝占卜活动的记录。如图1为古苏美尔、古埃及、古印度和中国最古老的文字记载。

    图1 最古老的文字记录

    苏美尔人在泥土板上保留下来大量数字后,开始利用这些数字进行计算,并对这些泥土板上的数字、图像等数据进行编目和管理。随后,征服古苏美尔人的古巴比伦(公元前1900-公元前1000年)对古代数学的发展做出了更大贡献。19世纪初考古发掘出的古巴比伦楔形文字泥板,有约300块是纯数学内容的,其中约200块是各种数表,包括乘法表、倒数表、平方和立方表等。据此推断,古巴比伦人的算术计算就是在泥土板上进行的。巴比伦人还建立了数的制度,规定了数从小到大的序列,不过他们当时使用的是以60为基数的六十进制数。迄今为止,六十进制仍用于计时。后来更多的数制则采用了以10为基数的十进制,古希腊哲学家亚里士多德指出,十进制的广泛采用,只不过是我们绝大多数人具有十个手指这一事实的结果。公元前2000年左右,在古埃及、印度、巴比伦和中国,对土地的测量和记录,产生了早期的几何学雏形。《史记·夏本纪》记载,夏禹治水,“左规矩,右准绳”,体现了中国夏商时代几何学的早期应用。

    到公元前500年前后的古希腊时代,数学开始兴起。古希腊数学家、哲学家毕达哥拉斯(公元前580年-公元前500年或公元前490年)提出了“数是万物的本原”的观点,将数提升到本体论的高度,代表着数学哲学的启蒙。他认为“数”比任何物理属性都更为普遍,一切都可用“数”衡量,所有事物都可以被归结为“数”,从“数”产生出“点”,从“点”产生出“线”,从“线”产生出“面”,从“面”产生出“体”,从“体”产生出一切形体。随后,古希腊数学家欧几里得(约公元前330年-公元前275年)完成了不朽著作《几何原本》,奠定了研究空间结构及性质的几何学基础。

    中国流传至今的最古老的系统化数学著作有《周髀算经》《九章算术》等,大致成书于西汉时期(公元前202年-公元8年),是中国古代系统的数学教科书。“算”是一种竹制的计算工具,类似筷子,因此数学在中国古代被称为算术。中国人在长期使用算筹的基础上,进一步发明了计算工具——算盘,如图2所示。公元6世纪左右,中国出现过“数术”这一名词,当时指关于数的方法,包括数的记法、进位法则和计算法等。12世纪前后,由“数术”发展为“数学”这一名称。

    图2 古代中国的算术工具

    从古希腊到中世纪,人们采用了竹简、石刻、羊皮、纸张等作为数或文字等数据的载体,对数据进行记录,如图3所示。

    图3 不同的数据记录载体

    17世纪中叶,数学有了新发展。英国的牛顿(I.Newton)和德国的莱布尼兹(G.Leibniz)各自独立发明了微积分。微积分是研究事物运动和变化的一门学问。从此,数学变成了研究数字、形状、运动、变化以及空间的一门学问。莱布尼兹也提出了以2为基数的二进制,只用0和1来进行记数,他说“用一,从无,可生万物”。这与《周易》记录的“易有太极,是生两仪,两仪生四象,四象生八卦”,颇有渊源。二进制的发现,奠定了今天计算机科学和数字化数据的基础。

    从17世纪到19世纪,数据计算工具的自动化获得了发展。1642年,法国数学家、物理学家帕斯卡(B.Pascal)用一个个齿轮表示数字,并且经过适当的搭配,制成了一台能做加减法运算的机器,这是世界上第一台机械式计算器,如图4所示。

    图4 帕斯卡的加法机

    1672年,莱布尼兹尝试使用一个叫做“步进轮”的装置来改进帕斯卡的计算器,这个装置可以做乘法和除法的运算。1819年,英国科学家巴贝奇(C.Babbage)设计了“差分机”,并于1822年制造出可动模型,这台机器能提高乘法速度并改进对数表等数字表的精确度,它把函数表的复杂算式转化为差分运算,用简单的加法代替平方运算。1834年,巴贝奇提出了一项新的更大胆的设计:一种通用的数学计算机,并称之为分析机,如图5所示。通过预先规定的程序和穿孔卡片,它能够自动解算有100个变量的复杂算题,每个数可达25位,速度可达每秒钟运算一次。但受技术限制,这个机器模型始终没有运转起来。英国诗人拜伦的女儿艾达(Ada Lovelace)夫人为介绍巴贝奇分析机的论文做了英文翻译,并写了译文注解,这篇译文注解也非常重要,艾达夫人认为分析机能够通过程序来存储、计算和操作任何可以使用符号表示的对象,不仅是数字,也包括文学、逻辑和音乐等对象。她是一个伟大的数据思想家!

    图5 巴贝奇的分析机原型

    1890年,美国人口普查局的霍尔瑞斯(H.Hollerith)根据巴贝奇的设计,制造了一台制表机,用于计算人口普查数据,计算效率大幅提升。这些努力为电子计算机的发明奠定了基础。霍尔瑞斯后来的公司就是计算机巨头国际商业机器公司(IBM)的前身。

    到20世纪40年代,对计算机科学产生深远影响的英国科学家图灵(A.M.Turing)、美国科学家香农(C.E.Shannon)和冯·诺伊曼(J.V.Neumann)等人的理论创新,推动了电子计算机的诞生和快速发展。1937年,图灵的论文《论可计算数及其在判定问题上的应用》发表,他在论文里描述了一种“逻辑计算机器”,在理论上可以处理任何计算,后来被人称为“图灵机”。也是在 1937年,香农完成了硕士论文《继电器与开关电路的符号分析》,这在理论上表明利用继电器电路执行二进制数学运算是可能的。至此,电子数字(digital)计算机的实现路径日渐清晰,图灵机可以使用简单的二进制编码指令来解决数学和逻辑学的问题。

    1946年,在冯·诺伊曼的指导下,在莫奇利(J.W.Mauchly)、埃克特(J. P.Eckert Jr.)等人的共同努力下,世界上第一台电子数字计算机埃尼阿克(ENIAC)诞生了,如图6所示。

    图6 世界上第一台电子数字计算机埃尼阿克(ENIAC)

    其后,电子数字计算机快速发展,大概经历了四次更新换代:第一阶段,从1946到1959年,是电子管数字计算机时代,使用真空管存储数据;第二阶段,从1959年到1965年,是晶体管数字计算机时代;第三阶段,从1965年到1971年,是集成电路数字计算机时代;第四阶段,从1971年至今,是大规模集成电路数字计算机时代。由此,数据有了新的载体——硅基芯片和电子数字计算机。

    1948年10月,香农的论文《通信的数学理论》发表,成为现代信息论的开山之作,为信息通信的发展奠定了理论基础。1969年,美国国防部研究计划署(ARPA)支持的阿帕网(ARPAnet)项目,在BBN公司的努力下获得成功,实现了美国西南部的加利福尼亚大学洛杉矶分校、斯坦福大学研究学院、加利福尼亚大学和犹他州大学的四台计算机远程连接和信息传输,如图7记录了这一历史性时刻。阿帕网还不是现在的互联网,在1973年,瑟夫(V.Cerf)和卡恩(R.E.Kahn)致力于解决不同网络相互连接问题,启动了互联网(internet)项目,制定了TCP/IP协议,互联网从此便诞生了。至此,数据可以自由通过互联网的网络通道以数据包的形式传输到网络里的其他计算机。

    图7 阿帕网(ARPAnet)实验性联网

    从1946年第一台电子数字计算机诞生,电子数字计算机已经走过了70多年的历史。从1969年阿帕网诞生起,互联网也已经有50余年的发展历史,如图8所示。特别是近30年以来,互联网经历了窄带互联网、宽带互联网、移动互联网、物联网和5G移动通信网络等发展阶段,逐步把全球的政府、企业和组织广泛地连接在一起,让数据在全球范围内自由流动,让经济社会活动能够24小时在线,成为商业社会的重要基础设施。

    图8 信息技术和互联网的发展历程

    在20世经70年代,产生了专门用于存储和管理数字化数据的软件,它们被称为数据库(DB)和数据库管理系统(DBMS)。这使得数字化数据可以独立于应用程序进行存储,并能够被统一管理和共享。1998年,大数据(big data)的概念首见于《科学》杂志刊登的《大数据的组织者(A Handler for Big Data)》一文。2000年,互联网进入人们的生活,标志着人类全面进入了互联网时代。2008年,《自然》杂志出版“大数据”专刊,以“下一个谷歌”为标题论述大数据的重要影响力。2011年,全球著名战略咨询公司麦肯锡的全球研究院(MGI)发布了《大数据:创新、竞争和生产力的下一个新领域》研究报告,这份报告分析了数字数据和文档的爆发式增长的态势,阐述了处理这些数据能够释放出的潜在价值,分析了大数据相关的经济活动和业务价值链。这篇报告在商业界引起极大的关注,为大数据从技术领域进入商业领域吹响了号角。从2010-2020年,互联网、移动通信网络、物联网、云计算、人工智能、区块链等新一代信息技术蓬勃发展,带动人类进入数字化数据极其丰富的时代:大数据时代。2015年,中国发布《促进大数据发展行动纲要》,启动实施国家大数据战略,确认了数据在经济社会发展中的战略性、基础性的作用。2019年,我国又明确提出将数据作为生产要素,按照市场化机制进行资源配置。

    我们简单回顾了数据的历史,作为人类对世界的描述和记录方式,它有很长的历史。自电子数字计算机诞生以来,数字化数据逐步成为数据的主要形态。英国前首相丘吉尔曾说过,“回顾历史越久远,展望未来就越深远”,对数据历史的回顾,对我们研究和思考数据的未来会有很多有益的启示。

    本文原节选自《数据要素:全球经济社会发展的新动力》。

    ▎本文系Innov100原创文章,转载请标明出处。

    更多精彩内容请登录https://www.innov100.com官方网站

    或扫描下方二维码,点击关注微信公众号(ID:sagetimes)


  • 点赞点赞(0)

数据服务
月报系列
咨询服务
培训服务