卒研メモ:情報学研究データリポジトリ

 ビッグデータ解析というbuzz wordを良く見かけるようになりましたが,肝要なのはデータ解析のための一次データの存在です。ある程度のサンプル数が集まらないとどんな結論でも導くことができる,という事実は統計学の初歩の初歩。更に,個人のデータとなればプライバシーにも配慮する必要がありますから,個人が特定されないようにフィルタを通した統計データが必要になる訳です。一般に「オープンデータ」と呼ばれている公開統計データはこのような処理がされたものを指します。
 県内ではふじのくにオープンデータカタログシズオカオープンデータポータルがありますが,全国規模のオープンデータとしては,国立情報学研究所(NII)が提供する情報学データリポジトリ(IDR)が良いのではないでしょうか。

 ということで,卒研のネタとして,こういうオープンデータを一日一回アクセスして更新を確認し,それを自動的に反映するWebサービスなんてのは如何でしょうか? データを取得する仕組みはWebサーバに備わっているcron(クーロン)が使えますので,ある程度実行テストが進んだ段階で利用を申請して下さい。

「Webアプリケーション開発入門」全面改稿

 本年度初めて3年生の情報セミナー2で使った「Webアプリケーション開発入門」ですが,とうとう我慢しきれずに,素材を一部入れ替え,HTMLも書き直しつつ,主として解説文を中心に全面改稿致しました。

 今後はあまり文章量を増やさず,新たなネタ(オープンデータの利用,Deep LearningのWeb UI開発,ゲームプログラミング等)は新たなページを追加する形で充実していきたいと考えています。

卒研メモ:TensorFlow Ver.1.0リリース

 GoogleのDeepLearningパッケージ,TensorFlow(テンソルフロー) Ver. 1.0がリリースされました。

Ubuntu, MacOSX,Windows環境下にインストールして使用できます。Developのドキュメントを読みつつ動かしながら何をやっているのかを掴むと,だんだん応用が見えてくるのではないでしょうか。

求人情報:株式会社アルトナー

 ここでは総合情報学部の求人掲示板に張った情報をPDFで提供します。散発的に届いたものを張っているだけですので,大学に届く求人情報全般については「求人ナビ」から探して下さい。
—-
株式会社アルトナー・・・エンジニア系の人材派遣会社です。本学OBも多数在籍しています。One dayインターンシップも開催中とのこと。

求人票(PDF)

求人情報:日星電気株式会社

 ここでは総合情報学部の求人掲示板に張った情報をPDFで提供します。散発的に届いたものを張っているだけですので,大学に届く求人情報全般については「求人ナビ」から探して下さい。
—-
日星電気株式会社・・・機械,電子の求人の多い製造業の会社ですが,最近は情報系にも力を入れており,Webプログラマーを募集しているとのことでした。業務拡大を行っているところなので,浜松近郊で腕の立つ人は応募してみて下さい。推薦・自由どちらからでも応募できるとのことです。

求人票(PDF)
選考の流れ(PDF)

 

卒研メモ: openBD全件検索対応

 前回のJSONデータ取得に引き続き,本の題名,著者名,出版社名,ISBN番号のAND検索が可能なページを作ってみました。

 下記の通り,Pythonを使って4並列DLに対応したツールが公開されていますが,これだけでは全件検索はできませんので,あれこれ付け加えてあります。

 使用した技術要素は次の通りです。

  • JSONデータ取得・・・download.py(上記のTweet参照)を参考にして作ったPythonスクリプト
  • 検索・・・SQLite3ファイルをPHPスクリプトで検索
  • 表示・・・HTML + CSS + JavaScript (+ jQueryのColorbox)

 Webプログラミングってのはホントーに多様な言語を使わないといかんので面倒ですな。PythonとPHPとJavaScriptの3種類使うと頭ごちゃごちゃになりました。

 問題点は多々あれど,とりあえず目先のものとしては「検索速度が遅いこと」です。そりゃまぁ約79万件の書誌データを約700MBのSQLite3ファイルに突っ込んで検索しているだけですから当然といえば当然。単独利用でも10秒以上待たされることザラです。気を長くして検索して下さいな。メンテモードになること多々あると思いますんで,使えなかったら諦めて下さい。

 memcached + MySQL利用で高速になることは知ってますが(前に優秀な卒研生がやってます),卒研発表のデモがあり,あまりMySQLに負荷かけたくないので,高速化の着手は2月下旬以降かしらね?

 とりあえずはデータが取れて検索できたので良しとしておきます。

卒研メモ:openBDの書誌データ利用方法(2)

 自分で使いやすいように,前回作成したPHPスクリプトを直してみました。変更点は以下の通り。

  • jQuery Mobileによるスマホ対応(jQuery Mobileっていいのかしらね?)
  • GETメソッドに対応。こんな感じでリンク張っていいよん。重くなったら止めるけど。
  • とりあえず使いそうなJSON部分をピックアップ

 お気に入りの本を2冊ばかりリンク張っておきますね。

  1. 伊理正夫先生の名著「数値計算の常識」
  2. 奥村晴彦先生のR本

卒研メモ:WebアプリのNativeアプリ化

 Webアプリを作っていてもどかしいのは,PCにもスマホにもブラウザさえあれば対応できるのに,豊かな周辺機器をダイレクトに利用できないことです。ブラウザからクライアントマシンの機能をそのまま扱えるとなれば大変なセキュリティホールになっちゃいますから当然ではあるのですが,スマホのように様々なセンサーに加えて高精度のカメラやマイクまで付いているのにそれが利用できないのは大変な損失です。

 ということで,ボチボチNativeアプリを作りたいなと思ってはいるのですが,AndroidにしろiOSにしろ,それしか作れない専用の開発ツールを使う気には到底なれません(Java嫌いだし)。まぁ趣味ならいいんですけど,現状,ネットを使わないNativeアプリなんてものは意味がないので,それならいっそのことWebアプリと共存できるものがいいなと。幸い,Webアプリの開発環境(HTML5, JavaScript)はそのまま利用しながらNative化できるツールが出揃ってきたようなので,そろそろ卒研の次のステージとして,Webアプリをそのまま専用Nativeアプリにできるものを作れればいいなと夢想し始めました。

 調べてみると,ApacheのCordovaがなかなか良さそうな感じです。PhoneGapという名前でAdobeが商用ツールを抱えており,それのフリー版という位置づけのようです。開発実績は,2年前の記事でも割とあるようなので,試してみる価値はありそうですね。但し,ベースがnode.jsなので,何をするにもJavaScriptに慣れ親しまないとダメそうです。この辺も教材がいるなぁ。

 つーことで,自由製作で作ったWebアプリのネイティブ化,誰か試してみませんか?

卒研メモ: openBDの出版日書式

 前回に続き,4月までにopenBDで新刊情報を取り出せないかと,イロイロ遊び始めました。ということで飽きないうちはこちらに気が付いた点をチマチマ書いていくことにします。

 新刊をチェックするためには出版日を取り出す必要があります。ということでsummaryのpubdateをざっと眺めてみました。昨日現在で約79万件のISBNコードからsummaryが取り出せましたが,たまに全くsummaryがないものもあるようです。

 ということでpubdateの書式ってどうなっているのかなと眺めてみると,これが千差万別,中には「25 cm-01」という明らかに間違っているだろというものもあり,書誌データのフリーダムさを楽しんでおります。

 書式を類別すると

  • 西暦半角4桁-月(1~2桁)-日(1~2桁)
  • 西暦半角4桁-月(1~2桁)
  • 西暦半角4桁-
  • 西暦半角4桁
  • 西暦半角4桁月(2桁)日(2桁)
  • 西暦半角4桁/月(2桁)/日(2桁)
  • c西暦半角4桁-月(1~2桁)-日(1~2桁)
  • c西暦半角4桁-月(1~2桁)
  • [西暦半角4桁]-月(1~2桁)
  • [c西暦半角4桁]-月(1~2桁)
  • [西暦半角4桁]

あたりで大体尽くされている感があります。cや[]が付くのは何でかしら?

 イレギュラーなものとしては,コピペすると

  • 1985, c1978-01
  • 1982-1983, c1975-c1979
  • -01(年がない)
  • c1981(1983 printing)-01
  • [2003], c2004-01
  • c2012 [i-e- 2011]
  • 1988 [i-e- 1998]
  • 1982 [printing]-01
  • U-S- G-P-O-] , 1998
  • [20–], c2007
  • 1994.4(全角使うな!)
  • 2014-5 (第2刷)
  • 2003-10(3刷)
  • 1935-7(第3刷:1993-6)
  • 1958 2刷-01
  • 大正11-12
  • 昭和5-01
  • 昭和23 5刷-01
  • 平成4 (1992)-01
  • なし

ですね。和暦は昭和が大多数で,平成は1件のみでした。この辺はチマチマ例外処理するか無視するしかないかな?

 あと,ちゃんと2017年1月の書誌データも追記されているのが分かったのが良かったです。新着情報取り出しも継続していけるかしらん?