Skip to content

Latest commit

 

History

History
226 lines (174 loc) · 11 KB

manual.1.identify.md

File metadata and controls

226 lines (174 loc) · 11 KB

Span特定

ユーザの要望する条件を示すキーワード(以下、span)を特定(抽出)する。

Spanは、揺れを抑えやすそうな指針として以下を基本とする。

  • 抜き出したスパンはそのまま宿検索に使用するキーワードになるようなイメージです。1個のスパンは1個の検索条件と考えます。
  • ユーザの要望を表す必要十分な範囲を抽出してください。補助的な情報(「できれば」「です」など。その部分がなくても要望の種類が判断できる場合)の記述は含めないでください。
  • 独立して条件となりうるキーワードはなるべく分割してとってください
    • 例)「大人1名子供2名」→「大人1名」と「子供2名」に分けてとる
  • 省略しても意図が変わらない付属語は基本含めませんが、「~程度」「~から」「~まで」「~以内」等は含めるようにしてください。
  • 名詞句でとれるものは名詞句で簡潔にとってください。

スパンの抽出範囲に迷った時の考え方(検証用フレーズ)

  • ※検証フレーズはあくまでも抽出範囲に迷うときに使う基本的には、カテゴリ(spanフラグ)の検索条件に指定できそうな簡潔なキーワードがあればそれを抽出する
  • 宿検索という文脈を踏まえた上で、
([spanフラグ]に関しては)[スパン]希望です

という言い方でagentに希望条件が伝わる範囲。または、上のフレーズがしっくりこなければ以下のフレーズで順に検証する。

([spanフラグ]に関しては)[スパン]を考慮して宿を探してください
([spanフラグ]に関しては)[スパン]ということを考慮して宿を探して下さい

という言い方でagentに希望条件が伝わる範囲。

  • ※活用語(動詞や助動詞など)の場合は終止形に変換して上の検証用フレーズにあてはめる)

例1: 成人した家族旅行ですので宿泊組の少ない静かな旅館を希望します。

spanフラグ スパン 検証用フレーズ
旅行シーンに関しては 成人 ということを考慮して宿を探してください
旅行シーンに関しては 家族旅行 ということを考慮して宿を探してください
宿環境に関しては 宿泊組の少ない ということを考慮して宿をさがしてください
宿環境に関しては 静か ということを考慮して宿を探してください
宿タイプに関しては 旅館 ということを考慮して宿を探してください

例2: 最寄りの駅から送迎をお願い出来る宿

スパン 検証用フレーズ
最寄りの駅から送迎 希望です

キーワードを簡潔に抜き出せしにくいとき

遠回しな言い方で暗に要望を伝えているような発話だと、キーワードを簡潔に抜き出せしにくいこともあります。 その場合は小分けに抜き出さず、長い範囲でキーワードを抜き出していただいて構いません。(後述の「困難フラグ」付与対象)

  • agent:京都のお近くでしたらこちらのお宿はいかがでしょうか。
    user:京都から四条は電車に乗らないといけませんよね...。
    ↓
    Span1:京都から四条は電車に乗らないといけません【立地 (場所)】
    ※暗に「京都まで乗り換えなしがいい」(=京都駅近く希望)と伝えている。

照応要求の場合

照応要求の場合、当該発話の中に具体的な要望キーワードが含まれる場合はそれをspanとして抜き出します。 当該発話の中には指示表現のみが含まれ、指示対象(指示表現が指す語句)が発話外にある場合は、当該発話以外から指示対象を抜きだしてスパンとしてください。 ただしスパンを特定する範囲は、最大で直前のターンまでとします。それより遠い発話からは抽出不要です。 当該発話の中の指示表現(「それ」や「二番目」など)はdemonstrative_spanとして抽出してください。

  • 例1

    agent:ホテルと旅館ではどちらがよろしいでしょう。
    user:
    ↓
    Span1:
  • 例2

    agent:ホテルXXXはいかがですか。
    user:そこに決めました
    ↓
    Span1:
  • ターンとは、一人の話者が話し始めてから終わる(話者が交代する)までの間のこと

  • 1ターンより前であるために指示対象を抽出できないときはメモに【ターン外】と入れてください。

ターン
1ターン目 0 U span探すのはここから
2ターン目 1 A
2 A
3ターン目 3 U 照応要求
4 U ここまで
4ターン目 5 A
5ターン目 6 U
  • 悩ましいときはメモを積極的に残してください。
  • コメントを残すまででもないが、自信がないときは「#」マークを残してください。

複数箇所の記述の組み合わせ

  • 条件が複数箇所の記述の組み合わせのときはsub_spanを使う。
  • sub_spanとは、spanに対する補足的なspanのことです。

前提

  • 1個の検索条件を表すメインのキーワードと、そのキーワードのspanフラグを限定するようなサブキーワードが文中で助詞「が、を、に、の、は等」をはさんで出現するときはまとめて抽出してよい。
    • セットで一つの検索条件なので、ばらばらに抽出しない。sub_spanは使わない。
例)
大人が1名、小学生の子供は2名でお願いします
↓
スパン1:大人が1名【spanフラグ:大人人数】
スパン2:小学生の子供は2名【spanフラグ:子供人数】(「小学生の子供」と「2名」をばらばらに抽出しない)

sub_spanを使うとき

  1. そのキーワードのspanフラグ(カテゴリ)を限定するようなサブキーワードが(助詞以外の)別の単語をはさんで離れた場所にあるとき、サブキーワードはsub_spanで抽出する

    例1)
    こどももいます。2名です
    ↓
    Span1:2名(sub_span:こども)【spanフラグ:子供人数】
    例2)
    4歳のこどもは布団なし、食事ありでお願いします
    ↓
    span1:4歳のこどもは布団(sub_span:なし)否定フラグ=yes【子供用サービス】
    span2:食事(sub_span:4歳のこども)【子供用サービス】
    ※「4歳のこども」は「食事」にも係っているので、sub_spanにする
  2. (spanフラグを限定するようなサブキーワード以外の)主となるキーワードを修飾する(限定する、前提条件となる)副キーワードは、基本的にはsub_spanとして抽出する。「2人で2万円」「1泊1万円」の「2人」や「1泊」は「カテゴリ(ここでは予算)を判断する」ためには必要ないから含めない、という考え方。(「2人」や「1泊」がなくても「2万円」「1万円」は予算で間違えようがない。)

    例1)
    一日あたりの予算は一人10000円程度が予算です
    ↓
    span1:10000円程度(sub_span1:一日、sub_span2:一人)【予算】
    • sub_spanに取ったキーワードが独立して検索条件となりうるときは、別途spanとしても抽出が必要となることにも注意。
    例2)
    下線部はsub_span(前提条件)かつspan。【】の中はspanフラグ
    予算は1泊1部屋あたり旅館の場合は2万円前後、ホテルの場合は1万5千
    前後が良いです。
    ↓
    span1:旅館 【宿タイプ】
    span2:ホテル 【宿タイプ】
    span3: 【予算】(sub_span:1泊1部屋あたり,旅館)
    span4: 【予算】(sub_span:1泊1部屋あたり,旅館)
  • sub_spanは前後1発話からのみとる。(文脈を追って、別の発話から拾ってくる必要はない)

    • 遠くにあって拾えない場合はメモに【範囲外】と残してください。
    例)
    U1:子供も1人いるんです。
    A2:かしこまりました。
    U3:でも布団はなしでいいです。
    ↓
    U1のspan:子供も1人【子供人数】
    U3のspan:布団【子供用サービス】
    ※2発話前の「子供」もsub_spanになりうるが、抽出は割愛してよい(ただしメモに「前後発話以外にsub_spanあり」と残すようにしてください)
  • 同じ検索条件を表すキーワードが文中に複数回出現するときは、それぞれを全てspanとして抽出してください。

    例)
    京都駅周辺は便利なので、駅周辺で探してください。
    ↓
    span1:京都駅周辺
    span2:駅周辺(sub_span2:京都)
  • どれをメインのspanとするか判断が難しいときは、文の後半に出現するキーワードを優先して考えてください。

困難フラグ

Spanが特定しにくい場合は困難フラグを付与してください。困難フラグを付与した発話はspanの抽出の仕方を定めにくいため作業者による揺れを許容します。 あまり深読みして複雑なアノテーションする必要はありません。悩まずシンプルにspan抽出してください。

  • 困難フラグ付与対象発話例
    • 暗に要望を示しているようにも見える発話(ストレートな表現ではないためキーワードを抜き出しにくい)
    • エージェントに検索条件を伝えるに至る前のあいまいな要望を伝える発話(複雑な条件が付いておりsub_spanの組み合わせが幾通りも考えられるなど)
    • 容易に既存の検索システムにインプットできるような検索キーワードに置き換えられない発話
    • 照応要求の指示対象が特定範囲外であるためにスパン抽出できない(メモに【ターン外】と入れる対象)だけであれば、困難フラグはNoとしてください。
※人間が判断に迷うものは機械学習で学習させることは不可能なので優先度が低い。
作業に時間をかけずに、困難フラグを!
その分シンプルな発話の品質をあげることに注力する。
例1)
容易に検索条件に置き換えられずspanの取り方が幾通りも考えられる
レンタカーを使うので、行ける範囲であれば多少遠くても構わないです。
↓困難フラグ付与
span1:レンタカー
Span2:行ける範囲
例2)
早割りコースがあるなら5月でもいいかもしれません。
↓困難フラグ付与
span1:早割りコース
span2:5月(sub_span:早割りコース)