Doorkeeper

NLP4L Meetup #1

2015-06-03(水)19:00 - 21:00 JST

ロンウイット トレーニングセンター (インゲン)

東京都江東区白河2-14-7

申し込む

申し込み受付は終了しました

今後イベント情報を受け取る

参加費無料

詳細

NLP for Lucene Meetup 第1回

こんにちは。NLP for Lucene 運営スタッフです。

NLP4L (NLP for Lucene) は、Apache Lucene & Scala で楽しく自然言語処理をしよう!というコンセプトで始まったプロジェクトです。
公開されたばかりのプロジェクトですが、コンセプトに興味をもっていただいた方で集まって、Lucene や NLP について学び、また、楽しくまじめに実サービス・プロダクトへの応用も考えていきたいと思っています。

第1回は、ハンズオン形式で NLP4L 付属のコーパスを分析します。

  1. NLP4L の始め方
    • NLP4L のソースコードチェックアウト, ビルド, 起動
    • テキストコーパスのダウンロードとインデックス作成
  2. Lucene のインデックスを知る
    • インデックスブラウザの使い方
    • コーパスをブラウズする
  3. NLP ツールとして使う
    • 単語の数をカウントする
    • 文書ベクトルを作る
    • 言語モデル
    • 連語分析
    • etc.

※細かな内容は変更される可能性があります。

会場案内

ロンウイット 分室・トレーニングセンター(インゲン)で実施します。
アクセス:
http://www.rondhuit.com/access.html#trainingcenter
1階のインターフォンで601をお呼び出しください。
少しわかりにくいため、近くまできたら、ハッシュタグ #nlp4l でつぶやいていただけるとお迎えにあがります。

準備いただくもの

ハンズオン形式で実施します。JDK 7 以上がインストールされたノートPCをご持参ください。Scala の知識がある方は SBT を事前にインストールしておくと楽ですが、必須ではありません(インストール方法をその場でご案内します)。
Wi-Fi環境あります。

対象者

  • シェル、またはコマンドプロンプトの操作がひととおりできる方。
  • 基本的なプログラミングの知識がある方。※Scalaが書ける必要はありません。
  • Lucene, または自然言語処理に興味がある方。※事前知識はとくに不要です。

NLP4L とは

「楽しいNLP4L Luceneのための自然言語処理ツール のご紹介」@ 第16回 Lucene/Solr勉強会
http://www.slideshare.net/KojiSekiguchi/nlp4-l-intro20150513

ソースコードは Githubで公開しています。

https://github.com/NLP4L/nlp4l

NLP4L は Scala で書かれた Apache Lucene のための自然言語処理ツールです。NLP4L は、NLP 技術を用いて Lucene ユーザの検索エクスペリエンスを向上させることを主な目的としています。たとえば、Lucene/Solr は検索キーワードのオートコンプリートやサジェスチョンの機能などを今でも提供していますが、NLP4L の開発メンバーは NLP 技術を適用することでよりよいキーワードを提示することが可能ではないかと考えています。また、NLP4L は既存の機械学習ツールと連携するための機能も提供します。たとえば、Lucene インデックスから直接文書ベクトルを生成し、LIBSVM 形式のファイルに出力することができます。

NLP4L は Lucene インデックスに登録されている文書データを処理対象にしています。そのため、Lucene の強力な Analyzer によって正規化された単語データベースに直接アクセスができるほか、便利な検索機能が使えます。また Scala で書かれているため、会話型でアドホックな処理を試すなども得意としています。

コミュニティについて

NLP for Lucene Meetup

NLP for Lucene Meetup

高性能OSS検索エンジンライブラリ Apache Lucene の自然言語処理機能を使ってNLPを楽しく学ぶ/実践に応用していくためのコミュニティです。 NLP4LというOSSライブラリを使い、手を動かしながら学ぶハンズオン形式の勉強会を不定期で開催していきます。 https://github.com/NLP4L/nlp4l

メンバーになる