Exemple de question sur le corpus

Les réponses des candidats ont été recueillies à partir des deux ensembles de documents récupérés par le système. Cependant, quelques-uns de nos HITs ont des bonnes réponses évidentes, que nous avons insérées pour nous assurer que nous approuvons seulement le travail minutieux. Si les résultats semblent ne pas être normalement distribués, utilisez Wilcox. Dans leur méthode, chaque question et sa réponse sont considérées respectivement comme les phrases source et cible. Ma conclusion générale est que la suppression du préfixe n`a pas augmenté l`incertitude. Chaque mot de contenu WJ dans ces extraits est traité comme un mot pertinent pour la question. Cela semblait être le chemin de la moindre résistance: NLTK/Python est excellent pour travailler avec des données de langue, et R est excellent pour la visualisation. Pour le tester, utilisez hist pour vérifier la distribution des valeurs probables pour les sous-ensembles préfixés et non préfixés. L`IQAP.

Quelles informations expérimentalement pertinentes cette analyse fournit-elle? Les données comprennent un fractionnement (semi-) aléatoire de développement/évaluation, avec 150 exemples dans l`ensemble de développement et 65 dans le jeu d`évaluation. Cette question est sur un pied théorique solide-Hirschberg (1985 § 5) discute des modèles similaires. La colonne prefix dans les données contient soit`Yes`, `no`, soit la chaîne vide. Utilisez cette fonction pour étudier la relation entre les interjections et les distributions de réponse. La figure entdist affiche la sortie de cette commande boîte à moustaches. Ici, je le considère comme un simple problème de chevauchement lexicale. La section relative à la préfixation de l`entropie de réponse suggère qu`il existe une différence entre les classes préfixées et non préfixées en ce qui concerne l`entropie des distributions de réponse. Figure Figure 1.

Si les résultats semblent normalement distribués, alors utilisez t. entaillement: le «oui» n`est pas une Implicature, mais plutôt un entaillement contextuel. La figure prob, produite par le code suivant, est un boîte à moustaches des valeurs. Lequel des meilleurs suivants capture ce que l`orateur B signifiait ici? Les données ont été annotées sur le turc mécanique d`Amazon. Le score proposé par Ishioroshi et coll. Les documents ont été récupérés à partir du Web deux fois pour le système avec l`extension de requête: à l`aide de tous les mots de contenu et en utilisant tous les mots de contenu et tous les nouveaux mots pour l`expansion des requêtes. Score d`évaluation de la réponse candidate en termes de pertinence du sujet, i. Si la suppression des préfixes augmente l`incertitude, nous nous attendons à voir une utilisation accrue des catégories «probable-Oui» et «probable-non» sur leurs homologues «définis». En explorant les préfixes, j`ai négligé de répondre à une question de base à leur sujet: sont-ils répartis uniformément entre les types de corpus? Si cela se produit, nous pouvons avoir un mini-four-OFF, pour voir qui fait mieux sur les données d`évaluation.

La présente section explore ceci. L`évaluation de la réponse est formulée comme suit à l`aide d`IBM-Modèle1 (comme dans Berger et al. écrire une fonction, semblable à interjection_initial_answer ci-dessus, qui détermine si le prédicat de contraste dans la réponse est annulé. Le degré de pertinence du mot pertinent, i. Cependant, je ne vois pas comment le tester de façon computationnelle. D`autre part, les documents ont été récupérés à partir du Web une seule fois pour le système sans extension de requête: à l`aide de tous les mots de contenu. La fonction suivante identifie si la réponse d`un élément est initiale interjection. 76 les Turkers ont participé à l`annoter.

Par conséquent, nous avons négligé le coefficient et obtenu l`équation (11) au lieu de l`équation (10). Table SOURCES donne une description. Le Split dev/eval est aléatoire, sauf que la proportion d`éléments de chacune de ces catégories est la même dans les deux sections (et donc les chiffres sont CNN: 17, Hirschberg: 12, standard: 11, Yahoo: 25).