卒研メモ: openBDの出版日書式

 前回に続き,4月までにopenBDで新刊情報を取り出せないかと,イロイロ遊び始めました。ということで飽きないうちはこちらに気が付いた点をチマチマ書いていくことにします。

 新刊をチェックするためには出版日を取り出す必要があります。ということでsummaryのpubdateをざっと眺めてみました。昨日現在で約79万件のISBNコードからsummaryが取り出せましたが,たまに全くsummaryがないものもあるようです。

 ということでpubdateの書式ってどうなっているのかなと眺めてみると,これが千差万別,中には「25 cm-01」という明らかに間違っているだろというものもあり,書誌データのフリーダムさを楽しんでおります。

 書式を類別すると

  • 西暦半角4桁-月(1~2桁)-日(1~2桁)
  • 西暦半角4桁-月(1~2桁)
  • 西暦半角4桁-
  • 西暦半角4桁
  • 西暦半角4桁月(2桁)日(2桁)
  • 西暦半角4桁/月(2桁)/日(2桁)
  • c西暦半角4桁-月(1~2桁)-日(1~2桁)
  • c西暦半角4桁-月(1~2桁)
  • [西暦半角4桁]-月(1~2桁)
  • [c西暦半角4桁]-月(1~2桁)
  • [西暦半角4桁]

あたりで大体尽くされている感があります。cや[]が付くのは何でかしら?

 イレギュラーなものとしては,コピペすると

  • 1985, c1978-01
  • 1982-1983, c1975-c1979
  • -01(年がない)
  • c1981(1983 printing)-01
  • [2003], c2004-01
  • c2012 [i-e- 2011]
  • 1988 [i-e- 1998]
  • 1982 [printing]-01
  • U-S- G-P-O-] , 1998
  • [20–], c2007
  • 1994.4(全角使うな!)
  • 2014-5 (第2刷)
  • 2003-10(3刷)
  • 1935-7(第3刷:1993-6)
  • 1958 2刷-01
  • 大正11-12
  • 昭和5-01
  • 昭和23 5刷-01
  • 平成4 (1992)-01
  • なし

ですね。和暦は昭和が大多数で,平成は1件のみでした。この辺はチマチマ例外処理するか無視するしかないかな?

 あと,ちゃんと2017年1月の書誌データも追記されているのが分かったのが良かったです。新着情報取り出しも継続していけるかしらん?