The word landscape of the non-coding segments of the Arabidopsis thaliana genome

BMC Genomics

Table 13 Co-occurrence in 3'UTRs

Word1	Word2	S	E_S	S*ln(S/E_S)
TTCTTTTT	TTTTTCTT	322	238.5802	96.5504
TGTTTTTT	TTTTTCTT	283	217.7183	74.2154
TTCTTTTT	TTTTTTCT	260	197.5705	71.3925
TTTTTCTT	TTTTTGTT	326	273.0848	57.7395
TCTTTTTT	TTTTTCTT	270	218.9471	56.5898
TTTTCTTT	TTTTTTCT	278	226.8886	56.479
TTTTTTGG	TTTTTGTT	161	116.5969	51.9517
TTATTTTT	TTTTTCTT	211	166.8299	49.5604
TTCTTTTT	TTTTTGTT	290	248.3755	44.9324
TGTTTTTT	TTCTTTTT	239	198.0677	44.8973
TTTTCTTT	TCTTTTTT	270	228.7449	44.7699
TCTTTTTC	TTTTTTCT	112	76.7939	42.2658
TGTTTTTT	TTTTTTGG	129	93.1111	42.0564
TTTTTTGG	TTTTTCTT	148	112.0287	41.2117
TTTTTTCT	TTTTTTGG	128	92.8787	41.0542
TTTTCTTT	TGTTTTTT	265	227.4605	40.4796
TTTGTTTT	TTTTTTGG	170	134.4256	39.9138
TTCTTTTT	TTTTTTGG	136	101.9687	39.1665
TCTTTTTT	TTTTTTGG	127	93.6332	38.7099
TTTTCTTT	TTCTTTTT	285	249.2674	38.1794
TTTTTATT	TTATTTTT	137	103.7794	38.0467
TGTTTTTT	TTTTTTCT	215	180.3272	37.8109
TCTTTTTT	TTTTTTCT	216	181.3431	37.7758
TTTTTGGT	TTTTTGTT	161	127.4072	37.6766
ATTTTTTA	TTTTTCTT	82	53.2457	35.4078

Overrepresented non-overlapping word-pairs detected in the 3'Untranslated Regions of Arabidopsis thaliana. A word-pair is characterized through the two nucleotide sequences associated with it (Word1 and Word2), the number of sequences the pair occurs in (S) as well as the expected number of sequences (E_S) and a statistical score symbolizing the overrepresentation of the word-pair in the specific sequence set (S*ln(S/E_S)).

ISSN: 1471-2164