黃桂清,黃桂清講師,黃桂清聯系方式,黃桂清培訓師-【中華講師網】
    中國企業教育百強專業十佳培訓師做智慧的催化師
    46
    鮮花排名
    0
    鮮花數量
    黃桂清:以掃描方式快速建立期刊題錄數據庫的操作方法探微
    2016-01-20 49249
    以掃描方式快速建立期刊題錄數據庫的操作方法探微


    一、    問題的提出及備選方法的分析

         圖書館作為人類知識的寶庫,在保存人類文化遺產、傳播知識與信息、開發智力、培養人才、推動人類文明的發展等方面有著不可替代的作用。但在各類信息大量涌現的今天,電腦信息及相關技術的飛速發展,使得單純地擁有紙質載體文獻已經不再是圖書館的優勢,而易于為讀者使用的電子信息產品則顯示出更大的發展潛力。因此圖書館這個‘知識的寶庫’要真正完成‘由知識到財富’即由“資料庫——信息庫——思想庫”的整個深化過程,實現紙質載體向電子載體的戰略轉移將是一條有效的途徑。

    電腦信息及相關技術的出現,要求圖書館員以數字化的信息資料為管理對象,對電子化的信息進行深度加工與存貯,也就是在自動化及電子化上做文章,作出快速反應,廣、快、精、準地提供信息,以適應讀者的高層次需求,才能促成這個深化過程的盡快實現。圖書館要使自己的工作能有效的服務于讀者,最重要的方式之一,就是要對館藏圖書信息資料這個寶庫中的“寶藏”進行高效有序地組織,使數以萬計的資料能井然有序“存”進去,并在讀者需要時迅速準確地“取‘出來,這個過程既是資料有序化的過程,又是知識體系的重組過程,能順利地實現這個轉化過程,圖書館才能說開始邁入信息管理現代化的門檻。由此可見,實現文獻信息由紙質載體向電子載體的轉變,是21世紀圖書館的必然抉擇。

    實現這種轉變有不少備選方案:一是加入到國際互聯網中去,那里有著無窮盡的信息資料資源。但這種方式不一定能全面搜集到各種有用的相關信息,而且對于當前經費緊張的圖書館來說,開支的經費較難承受;二是買光盤電子產品或數據庫。這種選擇的好處是信息量大,查詢方便,見效快。缺點是價格昂貴,資料容易過時。如果不能繼續投入,則光盤的作用就受到極大的限制,且單純的投入資金購置光盤及相應管理軟件,并不能真正揭示館藏,易與原有的圖書信息資料資源脫節;三是采取‘走出去、請進來’或委托培養等方式,培養能夠滿足本館業務需要的系統維護、硬件維修和操作人員。選擇后一種方案也存在著經費等問題。

    可以選用的方案還很多,具體應采取什么樣的方法,應該根據各校的校情而定。從大的方面來說,大部分圖書館有著其相同的特點即共同的館情,那就是:一是資金緊缺,圖書期刊訂閱量下降,收藏覆蓋面嚴重萎縮。這樣對現有館藏的充分揭示就變得十分重要。要從大量的未經開發的紙質文獻資料中為讀者找到所需要的信息資料,靠傳統的‘手工作坊’式的操作方法是根本無法滿足需要的。第二個特點,是人員素質普遍不高、人手不足、傳統工作業務量大、改革力不從心,人才問題成了困擾圖書館發展的一個大問題。造成這種局面的原因在于,圖書館本身的技術力量配置有限,很多館員是一些不相關的行業轉行而來,而有突出才能的技術人員又往往留不住,使人才成為整個系統的“瓶頸”環節。要在短期內培訓出圖書館現代化建設合用的人才,不是一件容易的事情。

    以目前的現實看,單純以一個館靠自己的力量完成全部數據處理及技術工作,顯然力量不足。而現實又需要圖書館為讀者提供深層次的信息資料服務。因此,圖書館從經費及人才上考慮,最現實的辦法,就是建立‘人才共享’或‘技術共享’新觀念,才能有效地解決上述的問題,即各館進行協調,組織人才開發相應的軟件,在快速建立數據庫方面探索出一條可行的路子,并建立起人才與技術的共享機制,才有望在不長的時間里,以相對較小的代價,使各圖書館在信息資料資源的開發利用上獲得長足的發展。圖書館應該根據這些‘館情’來制訂相應的發展的戰略,而不應超越這個階段,追求那些達不到的目標。時間是最大的付出,不能因為目前尚不具備‘一步到位’的條件就把工作停頓下來,那樣只能給圖書館發展帶來不利影響。明智的方法應該是從現有的條件出發,因校制宜,找到一條符合圖書館現實情況的發展路子。

    最好的方法無疑是既能省錢又易于操作的方法,即:‘少花錢辦大事,沒有錢也要辦事’,這是圖書館無奈又悲壯的選擇。便捷的方法是自建數據庫。作為那些沒有資金投資買正版光盤的圖書館來說,最有價值的數據庫,即能讀者提供有效服務的數據當屬期刊題錄數據庫。期刊是一個流動著的知識寶庫,是圖書館信息資料的一個極為重要的部分,薈萃著各種最新的思想、觀點、方法及信息,對教學和科研起著不可替代的參考作用。要使建立的期刊題錄數據庫真正有參考價值,數據量必須具備一定的規模,一般要求在10萬條記錄以上。如果每條數據以50個漢字算,那么建庫就意味著要錄入500萬個漢字,工作量大得驚人。這也正是很多想自建數據庫的圖書館躊躕不前的原因。那么以圖書館各館自身的力量,這個工作就真是沒有辦法完成了嗎?就非得靠投入資金靠別人來完成嗎?回答是否定的。

    以筆者所在的桂林市委黨校圖書館為例,該館就是依靠本館自己的力量,在不到2個月的時間里,建立起了擁有近10萬條數據,能充分反映自身期刊館藏資源的期刊題錄數據庫,并編制相應的應用軟件,投入試運行達到了預期的效果,獲得了本校領導的好評,得到了使用者的肯定。之所以開發獲得成功,最重要的原因之一,就是因為該館找到了適合本館的建庫路子:以掃描方法實現期刊題錄數據的快速錄入,以最快的速度完成常規錄入方式最耗時的環節,并用電腦工具對題錄文本數據進行快速處理,自動轉換成數據庫數據,實現快速建立期刊題錄數據庫的全過程。

      二、如何實現以掃描儀的方法來快速建立數據庫

    實現這一步必須有一個最基本的硬件條件:有一臺電腦及掃描儀,并安裝相應的掃描軟件。隨著電腦及掃描儀硬件價格的不斷下跌,購置這些硬件設備的條件應該是黨校都具備的,軟件一般隨機奉送,也不成為其問題,真正的關鍵問題是實現這整個過程的方法。從技術上說,這一整套的操作方法實際上并不復雜,操作者只要稍加培訓,甚至只要認真領會其操作要領就能掌握。具體步驟如下:

    第一步:掃描。安裝好掃描儀,由安裝人員告知如何操作使用掃描儀,掌握最基礎的一般操作方法后,就可以進入掃描工作了。這是最基礎的工作,是建庫工作的開端,對人員素質沒有特別的要求。掃描實際上就是把期刊目錄頁的內容掃描進電腦中,使它作為圖片文件而存在。圖片信息在電腦磁盤上一般占空間較大,具體所占空間大小視使用的掃描軟件系統而定。大的1張占到1M左右,小的一般5~6張圖片占1M磁盤空間。正因為圖片文件占空間較大,因此一個掃描階段不宜持續太久,掃描1000頁后就應該安排下一步的識別工作,以免圖片文件占滿電腦硬盤空間。掃描的期刊最好是在尚未裝訂前進行,這時目錄頁內容容易掃描。如果已經裝訂成冊的期刊要進行掃描,因不能把目錄頁文字的部分完全攤平,容易導致一些內容掃描不全,影響題錄數據的完整性。另外要注意有的期刊在掃描的頁面內沒有注明刊名或期次,這時就必須在掃描前在目錄頁面補寫上,以免識別時不能注明出處。掃描的速度:一般1分鐘可以掃描1頁,以1頁20個數據計算,1個小時就可以掃描1200個記錄,1天工作5個小時,大體可以完成6000個數據的掃描錄入,10萬個數據的掃描,只要不到17天就可以完成了。而具備這個數目的數據庫,已經算得上是一個中型數據庫了。這個速度是手工錄入所根本沒有辦法比擬的。但這僅是工作中的第一步,是整個過程中的其中一個環節。

    第二步:識別:識別就是把已經掃描進去的圖片轉換成可以編輯的文本文字。這項工作是整個過程中最耗時的環節。這個環節所需要的時間,由三個因素決定:一是操作員的操作電腦的熟練程度;二是掃描儀的識別率的高低;三是期刊字跡清楚程度、紙質好壞。識別是掃描儀一項基本工作,即把掃描進去的目錄頁中的漢字圖象轉化成能進行文本編輯的文字字符。把目錄頁掃描進電腦后,就可以進行識別工作了。但為了高效工作,一般不主張掃入1頁識別1頁,那樣整體上的速度會很低,一般提倡采取流水作業的作法,即先掃描進一定數目的文字圖片(如1000頁)后,即開始進入識別工作。識別操作技術不難掌握,掃描儀操作說明書上有說明。要注意的是:識別出來的文本數據,必須整理成一行一個記錄,不能讓硬回車符把一個題錄數據截成2行乃至3行,那樣將會給下一步處理帶來困難,不易保證記錄的完整性。另外,在作者姓名與篇名或者篇與姓名間要有一個固定的字符如‘\’符將它們分開,以作為電腦自動處理時的姓名標識符。在每本期刊識別文本的首頁首行之首鍵入期次標識符‘**’號后,然后鍵入:刊名期次。期次統一用4位數碼填寫,即年份用后2位數,月份用2位數(月份只有1位數的前面補0)。識別文本中出現其它因為難以識而出現的怪點號、怪字符、英文字以及各種不規范的字符,暫時不要去管它,留待以后由電腦自動快速處理。手工刪除它們當然不是不可以,但那將會花去很多不必要的時間,使工作效率大為降低。識別工作完成后,把文本部分保存為文本文件,然后刪除圖片文件,以釋放硬盤空間。

    第三步:文本數據整理。經過前兩步的工作后,期刊目錄頁面上的篇名、頁碼、作者、期次等信息已經成為了可編輯的文本數據。但這時候的這些文本在排列上一般顯得很亂且不規范,這是因為各種不同的期刊采用不同的方式來組織目錄頁:如有的頁碼在前,有的在后,作者名也有前有后。頁碼與篇名的連接符有時用小圓點,有時用花點,空格穿插其間,有時用短橫線,有時還會有一些裝飾背景等等。更為普遍的是,因為有些符號掃描儀識別不了,轉換成文本數據后,形成各種奇怪的符號。如果這時用手工去進行整理的話,為此而耗費的工作量將使這個方法成為沒有多少實用價值的方法,因此,整理的方法如何,幾乎決定著這個“以掃描來快速錄入期刊數據”的方法是否可行。科學而快捷的方法,應該是由電腦這個快速處理信息的工具來自動完成這些瑣碎的整理工作。這里就涉及到一些關鍵的技術問題。解決這個問題有不少的可行方法,我們這里選用Office家族的Word軟件中的宏處理方式來解決這個難題。

    具體方法是:運行Office家族的Word軟件,打開菜單標題“工具”,選擇“宏”中的“錄制新宏”。這里所謂的“宏”,實際上就是一個小程序,只不過它不要編制者直接編程,而是以一種“錄制”的可視方式進行編制罷了,其中的過程以可視的方式實現,而實際形成的是一些可編輯的程序代碼。我們不用管這些代碼,而只管“錄制”。所謂“錄制”,就是把你在選擇“錄制新宏”選項后,把想要自動實現的過程實際操作一遍,完成后重新打開菜單標題“工具”,選擇“宏”中的“停止錄制”選項,這樣整個錄制新宏的過程就完成了。例如:如果我們想把文本數據中的空格去掉,我們可以先以上述的方法啟動“錄制新宏”功能,然后打開菜單標題“編輯”中的“替換”選項,把全部空格替換掉,替換完畢后停止錄制宏。這樣,這個宏就可以完成把文本數據中的空格刪除的功能。

    當然這個剛定義宏功能是單一的。但我們可以用這個方法制作一批功能單一的宏,這樣就可以用這些宏實現各種不同的處理文本數據的功能。更深入一步,用相同的方法,可以錄制出功能更復雜的宏,比如把這些單獨功能的宏全部綜合起來的宏,這樣,只要調用這個宏就可以讓文本數據一次按預定的要求快速地整理完成。以這個方法整理文本數據的速度,會使你覺得整理數據是一件輕松有趣的事情。要方便的調用這些宏,還可以做進一步的工作,那就是把它們調到菜單標題上來直觀調用。具體方法是:打開菜單標題“工具”選擇“自定義”選項,在“工具欄”選頁卡上擊“新建”建立一個新的工具欄,然后選擇“命令”選頁卡,選擇“宏”一欄,這時右邊會出現已經錄制好的各個宏的名稱,可以把這些宏用鼠標拖到新建的工具欄上去,而這個工具欄可以拖放到菜單標題欄中,這樣,所錄制的宏就可以作為直觀的菜單工具選項方便地使用了。這里,要注意,錄制的宏的名稱最好作適當修改,這樣,修改后的宏名可以說明其實現的功能,也更短小醒目。

    第四步:把文本數據轉換成數據庫中的數據。文本數據只能進行直接的編輯及簡單的查詢,而要實現數據排序、查詢、處理等各種復雜的功能,只有在數據庫環境中才能方便實現,因此,把文本數據轉化成數據庫數據,是整個過程中最關鍵的一步,也是技術性最強的一步。這里涉及到一些數據庫編程的知識,我們這里只講最實用的、能完成從文本數據到數據庫數據轉換的簡要程序代碼,操作者只要依樣畫葫蘆,把這些代碼鍵入到數據庫環境命令窗口,然后執行這些命令就能方便實現轉換。進行這項工作的一個前提,是要在電腦上安裝Office家族中的Visual Foxpro(3.0,5.0,6.0版本均可),這個軟件很容易找到,它是一個功能極為強大、運行速度極快的數據庫環境。將軟件安裝好后,雙擊相應圖標就進入了該數據環境。轉換步驟主要有以下幾步:

    A、創建一個包括相關的題錄數據信息的簡單的空數據庫,取名為:期刊數據,至少包括以下5個字段:ml(篇名)、zo(作者)、kf(刊名)、qi(期次)、ye(頁碼)。具體方法是:進入Visual Foxpro數據庫環境(以下簡稱數據庫環境)后,操作各種菜單及選項,操作過程為:‘文件’-‘新建’-‘表’-‘新建文件’-‘保存’,然后在表設計器中輸入以上的4個字段名,‘類型’全部選‘字符’型,‘寬度’分別為:160、20、40、20、6。‘確定’保存這個表結構,輸入選‘否’后退出即可。

    B、將文本數據填入空數據庫。具體方法是:首先打開剛建的空數據庫(操作過程:‘文件’-‘打開’,在對話框中選要打開的數據庫即可),然后打印命令窗口(操作過程:‘窗口’-‘命令窗口’),在命令窗口中鍵入代碼:

    appe from wrbr.txt sdf

    然后回車執行這條命令,就把文本數據填入了數據庫。這里要注意,期刊文本數據是一個文本文件(wrbr.txt),如果它不放在當前目錄下,需指明文件所在的路徑,否則系統將找不到該文件。

    C、把期刊名稱及期次分別填入不同字段(注意:此程序段需分別做成一個小程序文件執行,不能直接在命令窗口中使用。)具體代碼是:

    proc kfml  && 填入期刊刊名程序代碼

    scan

      if '**' $ ml

        kfml=subs(ml,3,len(allt(ml))-6)

      endi

      repl kf with kfml

    ends

    proc qici  && 填入期次程序代碼

        scan

          if '**' $ ml

            n=len(allt(ml))

            qici='19'+subst(allt(ml),n-3,2)+;

               '年第'+right(allt(ml),2)+'期'

          endi

          repl qi with qici

        ends

    D、把數據庫中的頁碼分離出來。具體代碼是:

    proc yema && 剝離頁碼程序

    scan

      for n=1 to 6

        if isdi(right(allt(ml),n))

          len=len(allt(ml))

          repl ye with subst(allt(ml),len-n+1,1)+ye

        endi

      endf

      for n=1 to 6

        if isdi(right(allt(ml),n))

          len=len(allt(ml))

          repl ml with left(allt(ml),len-n-1)

        endi

      endf

    ends

    E、把數據庫中的作者姓名分離出來。

            proc xlml && 剝離作者姓名

            scan for '\' $ ml

                repl zo with subst(ml,at('\',ml)+1,20)

                repl ml with left(ml,at('\',ml)-1)

            ends

    經過以上的幾個步驟,手工錄入工作量巨大的工作就這樣輕松地完成,數據庫就建立起來了。至于數據庫的應用,問題就簡單多了,滿足圖書館一般查詢的需要,只要學會幾句實用的數據庫命令,就可以使這個數據庫發揮作用。當然,如果想要這個數據庫發揮更大的效用,那就需要編制相應的或簡或繁的應用程序。為此,筆者編制了一整套《圖書信息資料管理軟件》,有近60個功能塊,涵蓋了‘日常館務、書刊管理、資料查詢、數據加工、信息服務、系統維護、常用工具、使用幫助’等八大方面,較全面的滿足了圖書館圖書信息自動化管理的需要。這套應用軟件,也將象上述方法一樣,以合適的方式,實現與全國各圖書館的‘技術共享’。

    推而廣之,由于這種快速建庫的方式具有操作靈活、適應廣泛等特點,因此,它不僅適合于期刊數據庫的快速建庫,也適合于書目數據庫、工具書題錄數據庫、報紙題錄數據庫、全文數據庫等庫的快速建立,而所有這些數據庫,都是各種類型的圖書館必須建立,而以常規方法卻無法‘低耗高效’完成的。美國資深專欄作家尼古拉·尼洛龐帝認為:‘計算不再只和計算機有關,它決定我們的生存。’圖書館如果不想被時代拋棄,就必須去深刻把握“數字化生存”的含義,適應這個數字化的世界。可以預見,系列數據庫的建立,將會對教學科研提供有效的智力支持,為圖書館更好地生存和發展提供條件。建庫的過程中,當然可以借助外界現成的數據成果,但圖書館在建庫方面,更應該有自己的特色產品,而用上述快速建庫的方法來建立具有自身特色的各式數據庫,無疑為圖書館建庫提供了一個更貼近現實的極佳選擇。

    全部評論 (0)

    Copyright©2008-2025 版權所有 浙ICP備06026258號-1 浙公網安備 33010802003509號 杭州講師網絡科技有限公司
    講師網 m.transparencyisgood.com 直接對接10000多名優秀講師-省時省力省錢
    講師網常年法律顧問:浙江麥迪律師事務所 梁俊景律師 李小平律師

    主站蜘蛛池模板: 亚洲国产成人精品无码一区二区| 欧洲精品码一区二区三区免费看 | 九九无码人妻一区二区三区| 在线播放一区二区| 天堂va在线高清一区| 亚洲AV无码一区二区三区电影 | 精品欧美一区二区在线观看| 国产精品一区二区综合| 视频一区视频二区制服丝袜| 久久亚洲中文字幕精品一区| 免费播放一区二区三区| 精品一区二区ww| 国产精品被窝福利一区| 亚洲国产一区二区a毛片| 精品无码国产AV一区二区三区 | 狠狠色综合一区二区| 国产成人一区二区三区免费视频| 成人区人妻精品一区二区不卡视频| 久久人妻内射无码一区三区| 在线免费一区二区| 亚洲AV无码一区二区乱孑伦AS| 日韩精品一区在线| 国产一区视频在线| 国产在线视频一区二区三区| 久久se精品动漫一区二区三区| 四虎成人精品一区二区免费网站| 波多野结衣免费一区视频| 国产一区二区三区播放心情潘金莲 | 波多野结衣av高清一区二区三区| 久久久久无码国产精品一区| 日美欧韩一区二去三区| 久久亚洲AV午夜福利精品一区| 免费一区二区无码视频在线播放 | 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 免费高清在线影片一区| 亚洲制服中文字幕第一区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 精品国产一区二区三区AV性色| 久久青青草原一区二区| 少妇精品久久久一区二区三区| 国产福利一区二区在线视频|